深度学习鼻祖杰夫·辛顿：没有他，就没有今天的人工智能

摘要：本文是在“人机大战”AlphaGo 4:1 获胜后，雷锋网采编的《人类群星闪耀时》系列文章的第一篇。谨以此系列向在人工智能和深度学习领域做出了接触贡献的天才们致敬。

20世纪60年代的英国：杰夫·辛顿（Geoff Hinton）还在读高中时，他的同学给他安利了一个说法：大脑的工作就像一张全息图。他深以为然。
80年代初期：辛顿发起了雄心壮志的计划——利用计算机硬件和软件来模拟人类大脑，创建一个纯粹的人工智能。
2006年：辛顿突破性地提出深度学习的概念，让人工智能变成现实成为可能。

深度学习的滥觞：科学家你不懂大脑

他是深度学习鼻祖杰夫·辛顿（Geoff Hinton），是反向传播和对比发散训练算法的共同发明人，当年高中基友的观点看起来只是一个小小的启示，但对他以及世界科技发展来说，却是一个关键时刻——辛顿回忆起来时表示：“听到那个观点时，我真的很兴奋。”没错，这就是后来深度学习的灵感来源。

三十年之间，深度学习的研究在学术界看来似乎是个异类。但现在，辛顿和他的深度学习团队——包括纽约大学（NYU）教授、卷积网络之父燕乐存（Yann LeCun）和加拿大蒙特利尔大学教授、机器学习大神本吉奥（ Yoshua Bengio），俨然称为互联网领域最星光熠熠的名字。辛顿是加拿大多伦多大学的教授，目前也有一部分时间为Google工作。在Google，他利用深度学习技术来提高语音识别，图像识别等其他在线工具。乐存则就职于Facebook，做着相似的工作。是的，近年来人工智能突然在微软、IBM、Facebook、百度等巨头中风靡了起来。

本吉奥

20世纪50年代，数字神经网络就被发明了出来，但计算机科学家花费了数十年来研究如何驾驭百万乃至亿级神经元之间那庞大到如天文数字一般的组合关系。这一过程的关键是要将神经网络组织成为堆叠层（stacked layer）。一个相对来说比较简单的任务就是人脸识别。当某神经网络中的一组比特被发现能够形成某种图案——例如，一只眼睛——这一结果就会被向上转移至该神经网络的另一层以做进一步分析。接下来的这一层可能会将两只眼睛拼在一起，将这一有意义的数据块传递到层级结构的第三层，该层可以将眼睛和鼻子的图像结合到一起来进行分析。识别一张人脸可能需要数百万个这种节点，并需要堆叠高达15个层级。

60年代，当时正在剑桥大学学习心理学的本科生辛顿意识到，科学家并没有真正理解大脑，他们并没有完全了解十亿神经元是如何学习或计算的，以及如何提升智力。而在辛顿看来，这些都是关乎1950年代人工智能研究梦想的大问题。受到当年高中那段对话的启发，辛顿开始在剑桥大学和苏格兰爱丁堡大学探索神经网络。

深度学习的崎岖发展

1978年，辛顿从爱丁堡获得人工智能博士学位。80年代初期，辛顿发起了雄心壮志的计划——利用计算机硬件和软件来模拟人类大脑，创建一个纯粹的人工智能——这是后人所称的“深度学习”。

1989年，辛顿、燕乐存等人开始将1974年提出的标准反向传播算法应用于深度神经网络。当年，尽管算法可以成功执行，但计算代价非常巨大。那时的电脑性能还远远不能处理神经网络需要的巨大数据集，神经网路的训练时间达到3天，因而无法投入实际使用。与此同时，神经网络也受到了其他更加简单模型的挑战，比如支持向量机等模型在20世纪90年代到21世纪初成为更加流行的机器学习算法。

为了解决这些问题，在1992年9月和1993年10月之间，辛顿撰写了近200篇领域相关的文章，介绍他利用神经网络进行学习，记忆，感知和符号处理方法的研究。

对如今来说最重要的创新之一是，辛顿是多层神经网络训练的最重要研究者之一，他在训练“专家乘积”中最早提出单层RBM的训练方法——对比分歧（contrast divergence，CD）。对比分歧提供了一种对最大似然的近似，被理想地用于学习受限玻尔兹曼机的权重。当单层RBM被训练完毕后，另一层RBM可被堆叠在已经训练完成的RBM上，形成一个多层模型。每次堆叠时，原有的多层网络输入层被初始化为训练样本。