本书英文版出版至今已近20年,但关于大脑究竟如何工作的问题至今仍无答案,而符号主义(认为大脑是类似于计算机的加工符号的机器)与联结主义(认为大脑是并行运转的大型神经网络)之间的争论也从未停息。本书分析了联结主义模型和符号加工模型在计算方面的优势和劣势,关注不同联结主义模型之间的差异以及特定模型与符号加工的特定假设之间的关系,并围绕多层感知器展开讨论。书中的观点在今天依然频繁成为学术讨论的焦点,并为认知科学、人工智能、深度学习等领域的未来研究指明了可能的方向。
DeepMind人手一本!
屡次对战深度学习三巨头,揭秘大脑黑盒到底是神经网络机器,还是加工符号的机器
我对认知科学的兴趣始于高中,当时幼稚地尝试编写计算机程序,希望将拉丁语翻译成英语。这个项目终没有完成,但我却因此读了一些有关人工智能的文献,这些文献的核心就是将大脑视作机器的隐喻。
在我上大学期间,认知科学开始发生巨大的转变。在一本名为Parallel Distributed Processing(PDP)的两卷本书中,David E. Rumelhart和James L. McClelland及其合作者(McClelland,Rumelhart & the PDP Research Group,1986;Rumelhart,McClelland & the PDP Research Group,1986)提出,人类的大脑并不像一台计算机,这与我之前的理解不同。不过,研究人员偏爱他们所谓的神经网络或联结主义模型。当我设法找到一份暑期工作来做一些类似于PDP的人类记忆建模时,我立即被它吸引住了,并且感到非常兴奋。尽管我的本科论文与PDP模型无关(我的本科论文和人类推理相关),但我一直对计算模型和认知架构的问题很感兴趣。
在寻找研究生项目时,我参加了Steven Pinker的一场精彩讲座。他在讲座中比较了PDP和符号加工对英语过去时的影响。那场讲座使我确信,我需要去麻省理工学院(MIT)与Pinker合作。到MIT后不久,我和Pinker开始合作研究儿童的过度规则化错误(breaked、eated等)。被Pinker的热情所感染,我开始思考英语不规则动词的细节之处。
除此之外,我们发现的结果与一种特殊的神经网络模型不符。当我在讲座中提出我们的成果时,我发现了一个沟通上的问题:不管我说什么,人们都会认为我反对各种形式的联结主义。不管我如何强调我们的研究没有碰到其他更复杂的网络模型,人们似乎总是想着Marcus是反联结主义者。
我不是反联结主义者,我只是反对某些联结主义模型的特定子集。问题在于,联结主义这个术语已经基本等同于一种特定的网络模型,一种先天结构很少的经验主义模型,一种使用学习算法(如反向传播)的模型。这不是可以建立的一类联结主义模型,实际上,这甚至不是正在建立的一类联结主义模型,但是由于这种网络模型相当激进,因而持续吸引着大家的注意。
本书的主要目标是说服各位读者:这类备受关注的网络模型在所有可能的模型中仅是冰山一角。我认为,合适的认知模型很有可能存在于一个不同的、探索较少的领域中。无论你是否认同我的观点,我都希望你至少看到探索更广泛的可能模型的价值。联结主义不仅仅需要反向传播和经验主义。从更广泛的意义上讲,它可以很好地帮助我们回答以下两个相互关联的问题:大脑的基本构建模块是什么,以及如何在大脑中实现这些构建模块。
本书中所有的错误都是我造成的,而大部分做对的事情应该归功于我的同事。在整个研究中,我感谢Steve Pinker,感谢他耐心的教导、不断的鼓励以及细致且发人深省的建议。还要感谢我的本科生导师Neil Stillings和Jay Garfield,在汉普郡学院的本科学习中,他们花了很多时间教我,而且他们对本书的早期草稿提出了出色的建议。
时间再往前推,我的任老师是我的父亲Phil Marcus。虽然严格来说他并不算是我的同事,但他经常会与我讨论一些重要的理论问题,这些问题有助于我厘清自己的想法。
自从我来到纽约大学,Susan Carey一直是我的非官方导师。我对Susan Carey以及其他为本书提出建议的人深表感谢。
还有许多同事对本书的早期版本提出了非常有帮助的建议,包括Iris Berent、Paul Bloom、Luca Bonatti、Chuck Clifton、Jay Garfield、Peter Gordon、Justin Halberda、Ray Jackendoff、Ken Livingston、Art Markman、John Morton、Mike Nitabach、Michael Spivey、Arnold Trehub、Virginia Valian和Zsófia Zvolenszky。Ned Block、Tecumseh Fitch、Cristina Sorrentino、Travis Williams和Fei Xu都对某些章节给出了鞭辟入里的评审意见,感谢他们的有益建议和对我所提出疑问的耐心解答。感谢Benjamin Bly、Noam Chomsky、Harald Clahsen、Dan Dennett、Jeff Elman、Jerry Fodor、Randy Gallistel、Bob Hadley、Stephen Hanson、Todd Holmes、Keith Holyoak、John Hummel、Mark Johnson、Denis Mareschal、Brian McElree、Yuko Munakata、Mechiro Negishi、Randall OReilly、 Neal Perlmutter、Nava Rubin、Lokendra Shastri、Paul Smolensky、Liz Spelke、Ed Stein、Wendy Suzuki、Heather van der Lely和Sandy Waxman,以及我在UMass/Amherst(本项目于此开始)和纽约大学(本项目于此完成)的同事。还要感谢帮助我管理实验室的研究助手Shoba Bandi Rao和Keith Fernandes,以及所有参加了1999年春季我的认知科学的计算模型研究生课程的学生。感谢MIT出版社,尤其是Amy Brand、Tom Stone和Deborah Cantor-Adams,他们为本书的制作提供了帮助。感谢NIH Grant HD37059对本书后的准备阶段提供支持。
我的母亲Molly可能对不规则动词或神经网络没有兴趣,但她一直鼓励我探索新知。她和我的朋友们,尤其是Tim、Zach、Todd、Neal和Ed,帮助我在整个项目过程中稳步推进。
后我希望感谢Zsófia Zvolenszky,把她放在后不仅仅是因为字母顺序,而是因为从我开始写这本书的那一刻起,她就一直在激励和启发我。她的建议和爱让本书变得更好,也让我变得更快乐。我把这本书献给她。
作者简介
加里·F. 马库斯(Gary F. Marcus)
科学家、企业家、畅销书作家。纽约大学心理学荣休教授,在包括Science和Nature在内的期刊上发表了大量关于神经科学、语言学和人工智能等方面的论文。他是Robust.AI公司的创始人和CEO,以及Geometric Intelligence公司(于2016年被Uber收购)的创始人和CEO。著有Rebooting AI、Kluge和The Birth of the Mind等书。
译者简介
刘伟
北京邮电大学岗位教授,人机交互与认知工程实验室主任,研究领域包括人机交互、用户体验、未来态势感知模式与行为分析等。
译者序
前言
第1章 认知架构1
1.1全书预览2
1.2免责声明5
第2章 多层感知器7
2.1多层感知器如何工作7
2.1.1节点7
2.1.2活性值8
2.1.3局部表示和分布式表示10
2.1.4输入与输出之间的关系11
2.1.5对隐藏单元的要求12
2.1.6学习16
2.1.7学习率18
2.1.8监督18
2.1.9两种类型的多层感知器19
2.2示例19
2.2.1家谱模型:前馈网络20
2.2.2句子预测模型:简单循环网络22
2.3多层感知器是如何在认知架构的讨论中出现的24
2.4多层感知器的吸引力25
2.4.1初步的理论思考25
2.4.2对初步思考的评价26
2.5符号、符号加工器和多层感知器29
第3章 变量之间的关系33
3.1多层感知器模型和规则之间的关系:细化问题33
3.1.1可以泛化UQOTOM吗34
3.1.2UQOTOM的自由泛化:在可以执行变量操作的系统中37
3.1.3在物理系统中实现变量操作38
3.2多层感知器和变量操作39
3.2.1为每个变量分配一个节点的模型40
3.2.2为每个变量分配一个以上节点的模型41
3.3表示变量和实例之间绑定的替代方法47
3.3.1在多层感知器中使用节点和活性值进行变量绑定48
3.3.2联合编码48
3.3.3张量积49
3.3.4寄存器51
3.3.5时序同步52
3.3.6讨论54
3.4案例研究1:婴儿期的人工语法55
3.4.1不包含变量操作的模型55
3.4.2包含变量操作的模型60
3.4.3总结64
3.5案例研究2:语言屈折65
3.5.1经验数据65
3.5.2三个标准的运用67
3.5.3讨论76
第4章 结构化表示79
4.1多层感知器中的结构化知识79
4.1.1几何构想80
4.1.2简单循环网络82
4.2对大脑为每一个主谓关系分配单独的表示资源这一观点的挑战84
4.3关于在神经基质中实现递归组合的提议88
4.3.1可以表示递归结构的外部系统88
4.3.2语义网络89
4.3.3时序同步92
4.3.4交换网络94
4.3.5将结构映射到活性值95
4.4新提议99
4.4.1treelet99
4.4.2与其他方案的比较102
4.4.3一些限制104
4.5讨论106
第5章 个体107
5.1多层感知器109
5.2客体永久性115
5.2.1客体永久性的实验证据115
5.2.2缺乏显式表示种类和个体之间区别的客体永久性模型118
5.3明确区分个体表示与种类表示的系统120
5.4记录和命题121
5.5神经实现123
第6章 符号加工机制从何而来127
6.1符号加工是天生的吗127
6.1.1一种提议127
6.1.2可学习性论点128
6.1.3婴儿的实验证据129
6.2符号加工是否具有自适应性130
6.2.1符号130
6.2.2规则132
6.2.3结构化表示134
6.2.4个体136
6.2.5总结138
6.3符号加工如何发展138
6.3.1将DNA作为蓝图138
6.3.2是否应该放弃天生的结构化皮质微电路140
6.3.3在获取经验之前关于大脑结构组织的重要示例145
6.3.4解决一个明显的悖论147
第7章 结论151
注释155
参考文献169