第3章
神经计算
神经计算是建立在神经元模型和学习规则基础之上的一种计算范式,由于特殊的拓扑结构和学习方式,产生了多种人工神经网路,模仿人脑信息处理的机理。人工神经网络是由大量处理单元组成的非线性、大规模、自适应的动力系统。
3.1概述
神经计算研究非程序的、适应性的、大脑风格的人工神经网络信息处理的本质和能力[917]。人工神经网络是由大量处理单元组成的非线性大规模自适应动力系统,具有学习能力、记忆能力、计算能力以及智能处理功能,并在不同程度和层次上模仿人脑神经系统的信息处理、存储及检索功能。它是在现代神经科学研究成果的基础上提出的,试图通过模拟大脑神经网络处理、记忆信息的方式设计一种新的机器使之具有人脑那样的信息处理能力。同时,对这种人工神经网络的研究将进一步加深对思维及智能的认识。为了模拟大脑信息处理的机理,人工神经网络具有非线性、非局域性、非定常性、非凸性等特点。人工神经网络是算法和结构统一为一体的系统,可以看作是硬件和软件的混合体。
现代神经计算开始于麦克洛奇和皮兹的先驱工作[483]。麦克洛奇是神经学家和解剖学家。他用20年的时间考虑神经系统对事件的表示问题。皮兹是数学天才,于1942年开始神经计算的研究。 1943年麦克洛奇和皮兹在一个神经建模小组上公布了他们的论文。该小组在芝加哥大学拉谢夫斯基(N Rashevsky)领导下,五年前就很活跃了。
在他们的经典论文里,麦克洛奇和皮兹结合了神经生理学和数理逻辑的研究描述了一个神经网络的逻辑分析。他们的神经元模型假定遵循有无模型律。如果如此简单的神经元数目足够多,适当设置连接权值并且同步操作,麦克洛奇和皮兹证明这样构成的网络原则上可以计算任何可计算函数。这是一个有重大意义的结果,有了它标志着神经网络和人工智能的诞生。
麦克洛奇和皮兹1943年的论文影响了冯·诺依曼,使得他在EDVAC(Electronic Discrete Variable Automatic Computer,电子离散变元自动计算机)中使用了从麦克洛奇和皮兹的神经元导出的理想化的开关延迟要素,进而改进成为EDVIC(Electronic Numerical Integrator and Computer,电子数值积分机和计算机)。EDVIC是第一台通用的电子计算机,于1943年到1946年在宾夕法尼亚大学电子工程摩尔学院建成。麦克洛奇和皮兹的形式神经网络理论在冯·诺依曼1949年在伊利诺伊大学所作的四个报告中的第二个报告中成了显著特色。
1948年维纳的名著《控制论》(Cybernetics)发表,为控制、通信和统计信号处理描述了一些重要概念[810]。1961年该书第二版出版发行,添加了关于学习和自组织的新材料。从第二版的第二章中可以看出,维纳在主体背景下抓住了统计机制的物理意义,但是联合统计机制和学习系统的丰硕成果却留给了霍普菲尔德。
第二个重要发展是1949年,赫布在他的书《行为组织学》(The Organization of Behavir)[311]中第一次清楚说明了突触修正的生理学习规则。特别是赫布提出大脑的连接是随着生物学会不同功能任务而连续地变化的,神经组织就是由这种变化创建起来的。赫布继承了拉莫尼(Ramony)和卡贾尔早期的假设并引入自己的学习假说: 两个神经元之间的可变突触被突触两端神经元的重复激活加强了。赫布的书在心理学家中有广泛的影响,但遗憾的是对工程界却影响很少。
赫布的书是学习和自适应系统的计算模型发展的灵感源泉。1956年罗切斯特(Rochester)、霍兰德(Holland)、哈比特(Habt)、杜伯(Duba)的论文也许是用计算机模拟测试公式化的赫布学习假说的神经理论的第一次尝试,论文报告的模拟结果表明必须加上抑制才能实际工作。同一年,乌特列(Uttley)演示了带有可修改的突触的神经网络可以学习分类简单的二值模式集。乌特列引入了所谓漏电求积和点火神经元(Leaky Integrate and Fire Neuron),后来凯恩尼罗(Caianiello)对它进行了形式分析。在更晚一些的工作中,乌特列假设了神经系统可变突触的效果依赖于突触两端波动状态的统计关系,因此和香农的理论有了联系。
智能科学(第3版)
第3章神经计算
在1952年,阿希比(Ashby)的书《大脑设计: 自适应行为的起源》出版[34],这本书引人注目的是其基本观点,即自适应行为不是与生俱来而是后天习得,通过学习动物(系统)的行为变得更好。这本书强调活的生物如同机器的动态观点和有关稳定性的概念。
1954年明斯基在普林斯顿大学写了关于神经网络的博士论文,题目是“类神经增强式系统的理论及其在大脑建模中的应用”。1961年明斯基出版了早期关于AI的优秀论文“人工智能进展”。后面这篇文章包括了关于现在称为神经网络内容的很大一节。 1967年明斯基出版了《计算: 有限和无限机器》这本书,第一次以书的形式扩展了麦克洛奇和皮兹的结果,并把它们放在自动理论和计算理论的背景中。
1954年,作为通信理论先驱者之一和全息照相技术的发明者,盖博尔(Gabor)提出了非线性自适应滤波器的思想,并且他与合作者一起建立了这样的机器。随机过程产生的样本以及希望机器产生的目标函数一起提供给机器完成在线学习。
20世纪50年代,泰勒(Taylor)开始研究联想记忆。接着施泰恩布什(Steinbuch)介绍了学习矩阵,这个矩阵由插在成行的“感觉”接受器和“马达”效应器之间的开关平面网络构成。在1969年,威尔肖(Willshaw)、布尼曼(Buneman)和洛埃特希靳斯(LonguetHiggins)发表了关于非全息照相的联想记忆的优秀论文。这篇文章给出了两类网络模型: 实现相关矩阵的简单光学系统和由光学记忆提出的与之相关的神经网络。联想记忆早期发展的重要贡献包括安德森(Andelson)、科霍南(Kohonen)和纳卡诺(Nakano)于1972年的文章,他们在外积学习规则的基础上独立地引入相关矩阵记忆的思想。
冯·诺依曼是20世纪前50年的科学巨匠。为了纪念他,人们把设计数字计算机的基础命名为冯·诺依曼结构。耶鲁大学邀请他在1956年作Silliman报告。他于1957年去世,稍后他未完成的Silliman报告于1958年出版成书: 《计算机和大脑》(The Computer and the Brain)。这本书很有意义,书中显示出冯·诺依曼开始意识到大脑和计算机的巨大差异。
神经网络中一个值得特别关心的问题是利用被认为不可靠的神经元分量构建可靠的神经网络。1956年冯·诺依曼利用冗余的思想解决了这个重要问题,基于这种思想维诺格拉德(Winograd)和考恩(Cowan)于1963年建议在神经网络中使用分布冗余表示,这表明了大量的元素怎样集体表示具有鲁棒性和并行性的单个概念。
在麦克洛奇和皮兹的经典论文发表15年以后,罗森勃拉特在他有关感知器的研究著作中提出了模式识别问题的新方法,一种新的监督学习方法[632]。感知器收敛定理使罗森勃拉特的工作取得圆满的成功。他于1960年提出感知器收敛定理的第一个证明。该定理的证明也出现在Novikoff(1963)和其他人的工作中。威德罗(Widrow)和霍夫(Hoff)介绍了最小平均平方(Least Mean Square,LMS)算法,并用它构成了Adaline(Adaptive Linear Element)。感知器和Adaline的区别在于训练过程。最早的可训练的具有多个自适应元素的分层神经网络之一是由威德罗和他的学生提出的Madaline(MultipleAdaline)结构[803]。1967年甘利俊一(Amari)将统计梯度方法用于模式分类。1965年Nillson出版《学习机》(Learning Machine)一书[540],迄今为止它仍是关于用超平面区分线性可分模式的最好的作品。在20世纪60年代,感知器神经网络好像可以做任何事。明斯基和佩珀特(Papert)在1969年合写的《感知器》(Perceptrons)一书中利用数学理论证明单层感知器所能计算的本质局限[508]。在有关多层感知器的简要介绍一节中,他们认为没有任何理由假定单层感知器的任何局限可以在多层的情况下被克服。在多层感知器的设计中面临一个重要的问题就是置信度问题(即隐藏神经元在网络中的置信度问题)。明斯基于1961年在他的“加强学习系统的置信度问题”中首次使用了“置信度”术语。在之后的60年代里,解决感知器的置信度问题所必需的大多数思想和基本概念已经公式化了,也就是现在称之为霍普菲尔德网络的递归(吸引子)网络所固有的许多思想。然而,直到20世纪80年代这些基本问题求解结果才出现。
在20世纪70年代这些因素以这种或那种方式阻碍了人们进一步研究神经网络。除了一些心理学和神经学方面的专家之外,许多研究人员在那个时期都改变了研究领域,只有屈指可数的早期开创者继续神经网络研究。从工程学的角度,可将20世纪70年代追溯为神经网络的潜伏期。
在20世纪70年代一个重要的成果就是出现了利用竞争学习的自组织理论。马尔斯伯格(von der Malsburg)1973年完成的计算机模拟工作也许是第一次演示了自组织。在人脑中拓扑序映射启发下,1976年威尔肖和马尔斯伯格发表了第一篇关于自组织映射形成的论文。
在20世纪80年代关于神经网络的理论和设计方面取得了进展,随之神经网络的研究工作进入了恢复期。格罗斯伯格(S Grossberg)基于他的竞争学习理论的早期工作[292,293,294],建立了一个新的自组织原则,就是著名的自适应共振理论(Adaptive Resonance Theory,ART)。基本上说,这个理论包括一个由底向上的识别层和一个由顶向下的产生层。如果输入形式和已学习的反馈形式匹配,一个叫做自适应共振的不定状态(即神经活动的放大和延长)发生了。这个前向或反向映射原已由其他的研究者在不同的条件下重新发现。
在1982年,霍普菲尔德基于能量函数的思想提出了一种对称连接的递归网络计算的新方法。并且他在这种递归网络和统计物理中使用的Ising模型之间建立了同构。这个类推为一连串的物理理论进入神经元模型奠定了基础,因此改变了神经网络的研究方法。这类具有反馈的特殊神经网络在80年代引起了大量的关注,在那个时期产生了著名的Hopfield网络。尽管Hopfield网络不可能是真正的神经生物系统模型,然而它们包涵的原理,即在动态的稳定网络中存储信息的原理,是极深刻的。事实上,这个原理可以追溯到许多其他研究者的早期工作。
格雷盖(Gragg)和汤姆泼勒(Tamperley)分别于1954年和1955年观察得出正是由于神经元能被“点火”(激活)或“不点火”(静止),所以在一个网格中的原子可以用它们自旋指向“上”或“下”。
1967年考恩引入了“sigmoid”的激活特征和一个神经元基于Logist函数的平滑激活条件。
格罗斯伯格于1967—1968年引入了一个神经元的相加模型,涉及非线性差分/微分方程,并且探测了以短期记忆为基础的模型用途。
1972年甘利俊一独立地引入了神经元的相加模型,并用它研究随机连接的类神经元的元素的动态行为。
威尔森(Wilson)和考恩于1972年推导了包括兴奋和抑制模型神经元的空间局部化的群体动力学耦合非线性微分方程。
利特勒(Little)和肖于1975年描述了神经元激活或不激活概率模型,并用它发展了短期记忆理论。
安德森、西弗施泰(J W Siverstein)、里兹和琼斯(R S Jones)于1977年提出盒中脑(BrainStateinBox,BSB)模型,由一个非线性动力学耦合的简单联想网络组成。
因此,毫不奇怪1982年霍普菲尔德的论文发表后引起了很大争论[330]。但是,该文第一次使在动态的稳定网络中存储信息的原理清楚了。霍普菲尔德表明了他对从统计力学自旋玻璃体检验具有对称连接的特殊递归网络富有洞察力,对称性设计可以保证收敛到一个稳定的条件。1983年,科恩(M A Cohen)和格罗斯伯格建立了按内容寻址记忆的一般原则连续Hopfield网络是一个特例。吸引子神经网络的一个与众不同的特征是一个学习的必要量——时间出现在网络的非线性动力学中。在这个背景下CohenGrossberg的定理非常重要。
1982年另一个重大发展是科霍南关于使用一维或二维格形结构的自组织映射研究的著作[377],这在某些方面与威尔肖和马尔斯伯格稍早的工作不同。在文献中科霍南工作在分析和应用方面比威尔肖和马尔斯伯格的模型得到了更多的注意,已经成为这一领域其他创新的评估标准。
1983年克尔潘特里克(S Kirkpatrick)、格拉特(C D Gelatt)和维奇(M P Vecchi)描述了解决组合最优化的问题的称为模拟退火的新方法[369]。模拟退火根植于统计力学,是基于梅罗波列斯(N Metropolis)等在计算机仿真中第一次使用的一个简单技术[496]。阿克列(D H Ackley),辛顿(G E Hinton)和塞杰诺斯基(T J Sejnowski)利用模拟退火的思想发展称为玻尔兹曼(Boltzmann)机的随机机器[321],它是多层神经网络的第一个成功实现。虽然玻尔兹曼机的学习算法没有反向传播算法的计算效率高,但它证明了明斯基和佩珀特的设想是不成立的,也为尼勒(R M Neal)随后的sigmoid信度网络发展做了铺垫工作[518]。sigmoid信度网络完成了两件事: (1)学习显著改善; (2)联系了神经网络和信度网络。sigmoid信度网络学习性能的进一步提高是沙勒(L K Saul)、雅卡拉(T Jakkolla)和约丹(M I Jordan)利用一个根植于统计力学的平均场理论作出的[628]。
巴托(A G Barto)、苏顿(R S Sutton)和安德森关于强化学习的论文发表于1983年[60]。虽然他们不是第一次使用强化学习(例如明斯基在他1954年的博士论文中考虑过它),但这篇文章引起了大量关于强化学习及其在控制中应用的兴趣。特别地,他们证明了一个强化学习系统可以在没有有益教师的情况下学习倒立摆(即车上立一个杆)平衡。学习系统仅要求当杆对竖直方向倾斜超过一定角度或车到达轨道的端点时的失败信号。1996年贝特色卡斯(D P Bertsekas)和茨茨克利斯(J N Tsitsiklis)出版了《神经动力学程序》(Neurodynamics),这本书把强化学习和Bellmam的动态规划相联系,把它放在一个恰当的数学基础上。
1984年出版了布雷滕伯格(V Braitenberg)的书《工具: 合成心理学的实验》(Vehicles: Experiments in Synthetic Psychology)。在这本书中布雷滕伯格提出了目标导向的自组织行为原则: 利用公认的基本机制的一个综合体而非由顶向下的分析是最好了解一个复杂过程的方法。在科幻小说的形式下,布雷滕伯格通过描述各种具有简单内部结构的机器说明了这个重要原则。他直接或间接研究了20多年的动物大脑,这启发了他描述这些机器的特性和它们的行为。
1986年鲁梅尔哈特(D E Rumelhart)、辛顿和威廉姆斯(R J Williams)报告了反向传播算法的发展。同一年,著名的鲁梅尔哈特和麦克莱伦德(J L McClelland)主编的《并行分布处理: 认知微结构的探索》(Parallel Distributed Processing: Explorations in the Microstructure of Cognition)一书出版[635]。这本书极大地促进了反向传播算法的使用造成重大影响,它已成为最通用的多层感知器的训练算法。事实上,反向传播学习在同一时间在其他两个地方被独立提出过。在20世纪80年代中公布反向传播算法后,发现早在1974年8月哈佛大学的韦勃斯(P J Werbos)已经在他的博士学位论文中描述了[805]。韦勃斯的博士论文是有效的反向传播模式的梯度计算的第一次描述,它可以应用于包括神经网络作为其特例的一般网络模型。反向传播的基本思想可进一步追溯到勃雷森(A E Bryson)和何(Y C Ho)的书《应用最优控制》(Applied Optimal Control)。在该书标题为“多阶段系统”的2.2节中,描述了使用Lagrange形式的反向传播推导。但是,最终的分析得出反向传播算法的许多荣誉应给予鲁梅尔哈特、辛顿和威廉姆斯,因为他们提出了它在机器学习的应用并且演示了它怎样工作。
1988年林斯克(R Linsker)描述了认知网络中自组织问题的新原理[439]。原理设计成在突触连接和突触动态范围限制下最大限度地保持输入活动模式的信息。其他几个视觉研究者也做出了相似的建议。但是,是林斯克使用了根植于信息理论的抽象概念构成了极大互信息(Infomax)原理的公式。林斯克的文章重新激发了应用信息理论到神经网络中的兴趣。特别是贝尔(A J Bell)和塞杰诺斯基(T J Sejnowski)的信息理论对盲信源分离问题的应用[68],已经促使许多研究者探索用于求解大都熟知的盲解卷积的很大一类问题的信息理论模型。
同样在1988年,布鲁姆海德(D S Broomhead)和洛韦(D Lowe)描述了使用径向基函数(Radial Basis Function,RBF)设计多层前馈网络的过程。 RBF提供了多层感知器的另一选择。径向基函数的基本想法至少追溯到佩希坎罗夫(O A Bashkirov)、布雷弗曼(E M Braverman)和姆希尼克(I B Muchnik)首先提出的势函数方法[62],以及艾泽曼(M A Aizerman)、布雷弗曼和罗宗纳(L I Rozonnoer)发展的势函数理论。在1973年杜达(R O Duda)和哈特(P E Hart)的经典著作《模式分类和场景分析》(Pattern Classification and Scene Analysis)给出了势函数方法的一个描述。尽管如此,布鲁姆海德和洛韦的文章导致了联系神经网络设计和数值分析的中重要领域以及线性自适应滤波器的大量研究的努力。1990年波杰欧(T Poggio)和吉罗希(F Girosi)利用Tikhonov的正规化理论进一步丰富了RBF网络理论[584]。
1989年米德(C A Mead)的《模拟VLSI和神经系统》(Analog VLSI and Neural Systems)一书出版。这本书提出了从神经生物学和VLSI技术吸取的不寻常的混合概念,包括米德和他的合作者写的关于硅视网膜和硅耳蜗的章节。
在20世纪90年代早期,瓦珀尼克(V N Vapnik)和他的合作者提出了计算上强有力的并被称为支持向量机(Support Vector Machines,SVM)的一种监督学习网络,用于解决模式识别、回归和密度估计问题[780,781],新方法是基于有限样本学习理论的结果。支持向量机的一个新颖的特征就是在它们的设计中以自然的方式包含了VapnikChervonenkis(VC)维数。 VC维数提供了神经网络从一个样本集中学习的容量的一种度量。
现在混沌是构成物理现象的关键方面已很好地建立了。许多人提出了一个问题: 在神经网络研究中混沌起关键作用吗?在生物学意义下弗里曼(W J Freeman)相信这个问题的答案是肯定的[241]。根据弗里曼神经模型,活动模式不是大脑外部所加的,而是从内部构建的。混沌动力学提供了对神经元群体内和它们之间自组织模式出现的必要条件进行描述的一个基础。
霍普菲尔德1982年的文章和鲁梅尔哈特和麦克莱伦德(J L McClelland)1986年的两卷书是对20世纪80年代神经网络的复兴最有影响的作品。神经网络从麦克洛奇和皮兹的早期岁月已走过了很长一段路,已确立了它作为根植于神经科学、心理学、数学、物理学和工程的交叉学科的地位,并将继续在理论、设计和应用上逐步深入。
人一出生,大脑就有精巧的构造和具有通过我们通常称为“经验”而建立它自己规则的能力。事实上经验是经时间积累的,大脑在出生后头两年内会发生非常显著的发展(即硬件线路),超越这个阶段后发展将继续进行。
一个“发展中”的大脑是与可塑的神经元同时的。可塑性允许一个发展中的神经系统适应它的周边环境。正如可塑性似乎是人类大脑中作为信息处理单元的神经元的功能的关键,它在人工神经元组成的神经网络中亦是如此。最普通的形式,神经网络是一个设计出来以对人脑完成特定任务或感兴趣功能的方法进行建模的机器; 网络一般用电子器件实现或者用软件在数字计算机上模拟。在本章中,我们的兴趣大致锁定在一类重要的神经网络上,这种网络通过学习过程来实现有用的计算。为了获得好的结果,神经网络使用了一个很庞大的简单计算单元间的内部连接,这些简单计算单元称为“神经元”或者“处理单元”。据此我们给出将神经网络看作一种自适应机器的定义。
一个神经网络是一个由简单处理单元构成的规模宏大的并行分布处理器。天然具有存储经验知识和使之可用的特性。神经网络从两个方面模拟大脑。