机器翻译、图像识别，无所不能的深度学习将会如何影响我们的生活？

摘要：人工智能数十年的研究成果如今正在刺激整个计算行业，不久之后将会改变美国的公司。

《财富》近日撰文讲述深度学习的历史，探讨该技术为何能够被应用于越来越多的科技产品，忽然之间改变人们的日常生活。文章称，该领域数十年的研究成果如今正在刺激整个计算行业，不久之后将会改变美国的公司。

以下是文章主要内容：

在过去的4年里，读者们毫无疑问都注意到了各类日常技术在质量上的巨大突破。最明显的就是，我们的智能手机上的语音识别功能比以往要出色得多。

事实上，我们正越来越多地通过语音来与我们的计算机进行交互，不管是亚马逊的Alexa、苹果的Siri、微软的Cortana还是谷歌的诸多语音响应功能。百度称，在过去的18个月里，用户在百度语音界面上的使用量增长了两倍之多。

机器翻译和其它形式的语言处理也变得有吸引力多了，谷歌、微软、Facebook和百度每个月都会发布这方面的新功能特性。谷歌翻译如今支持32对语言的句子语音翻译，以及103种语言的文本翻译，其中包括宿雾语、伊博语和祖鲁语。谷歌的Inbox邮件应用也提供三种针对诸多收到的电子邮件的现成回复。

图像识别也有不小的进展。谷歌、微软、Facebook和百度均拥有能够让你搜索或者制动整理没有识别标签的照片的技术。例如，你可以要求呈现所有有狗、雪甚至像拥有这样的抽象事物的照片。这些公司都在研发能够在很短的时间内为照片生成一句长的描述的原型产品。

试想一下，要收集狗的照片，应用必须要辨别诸如吉娃娃和德国牧羊犬的品种，在小狗颠倒过来或者有些模糊的情况下要鉴别出来，要辨别它处在照片的左侧还是右侧，还要识别各种天气状况下的小狗，如雾、大雪、晴天和阴天。与此同时，它需要排除掉与狗有点相似的狼和猫。

图像识别技术的进步远不局限于很酷的社交类应用。医疗创业公司们声称，它们不久之后将能够利用计算机阅览X光照片、MRI（核磁共振成像）和CT（电脑断层扫描）照片，阅览的速度和准确度都将超过放射科医师；它们还将能够更早和更无创性地诊断出癌症，且能够加速救生药物的研发。更好的图像识别技术对于机器人、无人机以及无人驾驶汽车的改进至关重要。福特、特斯拉、Uber、百度和谷歌均已在上路测试无人驾驶汽车的原型。

深度神经网络

不过，大多数人都不知道所有的这些突破从本质上说都是同一突破。它们均通过一种名为深度学习的人工智能（AI）技术来实现，不过不少科学家还是喜欢以其最初的学术名称来称呼它：深度神经网络。

神经网络最值得注意的地方是，没有人编制出计算机来执行上述的任何技术功能。事实上，没有人能够做到这一点。相反，编程人员给计算机引入学习算法，给它提供海量的数据（无数张照片或者大量的语音样本），进而对其进行训练，让它自行理解如何去识别物体、单词或者句子。

简单来说，这种计算机有自学能力。“实质上，你是有软件自己编写软件。”图形处理领先厂商英伟达CEO黄仁勋（Jen-Hsun Huang）指出。该公司于5年前开始大举押注深度学习技术。

神经网络并非新概念。该概念可追溯到1950年代，而许多重要的算法突破是出现在1980年代和1990年代。不同于当时，如今计算机科学家终于可以同时利用上强大的计算性能和海量的数据（遍布于互联网的图像、视频、音频和文本文件），这两点对于神经网络的良好运作必不可少。风险投资公司Andreessen Horowitz合伙人弗兰克·陈（Frank Chen）指出，“这是深度学习的寒武纪生命大爆发。”

掀起震荡

那一巨大进展激发了大量的活动。根据市场研究公司CB Insights的数据，AI创业公司上一季度的股权融资额超过10亿美元，创下历史新高。CB Insights指出，2016年第二季度该类创业公司共计进行了121轮融资，远远高于2011年同期的21轮。2011年至2016年，该类创业公司的融资总额超过75亿美元，其中逾60亿美元来自2014年之后。（9月末，5家AI领域的领先者——亚马逊、Facebook、谷歌、IBM和微软——共同成立AI非盈利合作组织，旨在推动公众对AI的理解，以及进行道德伦理和最佳实践方面的研究。）

谷歌在2012年只有两项深度学习项目。但如今，据该公司的发言人称，该类项目数量已经超过1000个，覆盖谷歌旗下所有的主要产品，其中包括搜索、Android、Gmail、翻译、地图、YouTube和无人驾驶汽车。IBM的沃森（Watson）系统2011年在智力竞赛节目”Jeopardy!”中击败两位人类冠军时使用的是AI技术，但不是深度学习。但现在，据沃森首席技术官罗伯·海伊（Rob High）称，沃森的30项成分服务几乎全都因为深度学习技术而得到了强化。

5年前还不懂深度学习为何物的风险投资者，如今会谨慎看待不具备该项技术的创业公司。弗兰克·陈说道，“我们正处在一个先进软件应用必须要开发的年代。”他说，不久后，人们会向你要求：“你的自然语音处理版本呢？我要怎么跟你的应用对话呢？因为我不想操作那些菜单。”

部分公司已经在将深度学习整合到日常的运营流程中。微软研究部门联席主管彼得·李（Peter Lee）说，“我们的销售团队正利用神经网络来建议接下来联系哪个潜在客户，以及建议推荐哪种产品。”

硬件行业正在感受到深度学习引发的震动。让这一切变得可行的计算性能提升，不仅仅因为摩尔定律，还因为2000年代末业界认识到英伟达打造的GPU（图形处理器）比传统用于深度学习计算的CPU（中央处理器）要高效20倍到50倍。今年8月，英伟达宣布，其数据中心业务的季度营收同比翻了一倍多，达到1.51亿美元。它的首席财务官向投资者们表示，“到目前为止，该增长大部分来自深度学习技术。”“深度学习”一词在为时83分钟的财报电话会议中共被提及81次。

芯片巨头英特尔当然也没有固步自封。在过去的两个月里，它先后收购了Nervana Systems（价格超过4亿美元）和Movidius（收购价未披露），这两家创业公司均致力于打造针对不同阶段的深度学习计算的技术。

5月，谷歌透露，一年多来它一直在秘密利用自主研发的芯片TPU来实施经过深度学习训练的应用程序。

又一拐点？

的确，企业可能已经到了又一个拐点。百度研究首席科学家吴恩达（Andrew Ng）说，“以前，很多标普500企业CEO都后悔没有早点开始思考他们的互联网战略。我想，5年后，将会有很多标普500企业CEO希望自己早早就已开始思考他们的AI战略。”

在吴恩达看来，该互联网隐喻还不足以充分表明带深度学习技术的AI将会意味着什么。“AI是新的电力。”他说，“100年前，电力改变了一个又一个的行业，AI也将如此。”

深度学习是AI子集中的一个子集。“人工智能”涵盖多种使得计算机和机器人至少看起来能够像人类那样思考和解决问题的技术，比如基于逻辑和规则的传统系统。在那一范畴内，有一名为机器学习的分类。机器学习指代一个含有各种使得计算机能够凭借经验提升任务执行能力的复杂数学技术的工具箱。最后，深度学习是机器学习下的一个小分类。

吴恩达说，可以将深度学习看作是“A到B的映射”。“你可以输入音频片段，然后输出文本记录。这就是语音识别。”他说，只要你有数据去训练软件，那什么都有可能实现。“你可以输入电子邮件，输出可能会是：这是不是垃圾邮件？”他称，输入贷款申请书，输出可能会是客户最终偿还贷款的概率。输入车队的使用模式，输出可能是建议接下来在哪里调派车辆。

从那一点来看，深度学习有可能会改变几乎任何一个行业。谷歌大脑（Google Brain）项目负责人杰夫·迪恩（Jeff Dean）指出，“随着计算机视觉变得真正可行，未来将会出现根本性的变革。”接着，他重新措辞说，“是随着计算机开眼了。”

那意味着是时候准备迎接“奇点”时刻吗？

还没有。神经网络善于识别模式——有时甚至比人类做得还要出色。但它们并不具备推理能力。

人才争夺战

不断逼近的革命的苗头从2009年开始出现。那一年夏天，微软研究部门邀请多伦多大学的神经网络先驱杰弗里·辛顿（Geoffrey Hinton）造访。他的研究给微软留下了深刻印象，于是彼得·李领导的部门试验将神经网络应用于语音识别。“我们为试验结果感到非常震惊。”彼得·李说，“第一批的原型让我们在语音识别的准确度上取得了超过30%的提升。”

据彼得·李称，2011年，微软将深度学习技术引入商用的语音识别产品。谷歌也在2012年8月跟进。

然而，真正的转折点发生在2012年10月。在意大利佛罗伦萨举行的一个研讨会上，斯坦福AI实验室、知名的ImageNet计算机视觉比赛创办人李菲菲(Fei-Fei Li,音译)宣布，辛顿的两位学生发明了一种识别物体准确率几乎两倍于最接近的竞争产品的软件。“那是令人惊叹的成绩，”辛顿回忆道，“说服了很多很多原来持怀疑态度的人。”

攻克图像识别可谓起步抢，它点燃了一场人才争夺战。谷歌招揽了辛顿和赢得那次比赛的那两位学生。

Facebook招募了法国深度学习创新者雅恩·乐昆（Yann LeCun），他曾在1980年代和1990年代开创了一种曾赢得ImageNet比赛的算法。百度则聘请了前斯坦福AI实验室负责人吴恩达，他曾在2010年帮助驱动和领导专注于深度学习的谷歌大脑项目。

此后，这场人才争夺战变得愈发激烈。微软的彼得·李称，目前该领域的人才争夺非常激烈。他说，顶级人才的要价达到NFL橄榄球球员的水平。

神经网络原型

现年68岁的乔弗里·辛顿第一次听说神经网络是在1972年，当时他开始在爱丁堡大学攻读人工智能专业硕士学位。他在剑桥大学读本科时研究的是实验心理学，因此他对于神经网络很有热情。当时，神经网络不受青睐。“人们都觉得它太疯狂了。”辛顿回忆道。不过他坚持了下来。

神经网络带来了计算机像儿童那样学习（即通过体验，而非通过人类专门打造的程序带来的指令）的前景。“当时，很多的AI研究都是受到逻辑思考的启发。”他说，“但逻辑思考是人在较晚阶段才会做的事情。而两三岁的儿童并不做逻辑思考。所以我认为，神经网络是比逻辑思考要好得多的智能运作模式。”

在1950年代和1960年代，神经网络开始在计算机科学家当中流行开来。1958年，康奈尔大学研究心理学家弗兰克·罗森布拉特（Frank Rosenblatt）在一个美国海军支持的项目中打造了一个神经网络原型，他将其命名为Perceptron。它利用了一台占用一整个房间的穿孔卡片计算机。在经过50次尝试后，它学会了分辨左侧有标记的卡片和右侧有标记的卡片。《纽约时报》当时报道称，“海军今天公布了一款初期的电子计算机，它预计将能够走路，说话，看东西，书写，复制自己，以及意识到自己的存在。”

软件只有一层类神经元节点的Perceptron被证明用途很有限。但研究人员认为，如实施多层（或者深度的）神经网络，它会变得更加强大。

多层神经网络思路

辛顿如是解释该基本思路。想象一下，一神经网络在解读摄影图像，部分图像显示小鸟。“进行输入后，第一层神经元会检测到小小的边。一侧较暗，另一侧很明亮。”他说，在分析第一层传来的数据时，下一层神经元会检测到“诸如两边连成的角的东西。例如，其中一个神经元可能会强烈地响应鸟嘴形成的角。

下一层神经元“可能会发现更加复杂的结构，如形成圆圈的多条边。”这一层的神经元可能会响应鸟的头部。更高层的神经元可能会检测到似头的圆圈附近并列的多个鸟嘴状角。“这说明它很可能是鸟头。”辛顿说。神经元层次越高，响应的概念就越复杂越抽象，直至最高层联想到“小鸟”的概念。

然而，要学习，深度神经网络不仅仅需要像这样往上层神经元传递信息。它还需要路径来判断最高层得出的结果是否正确，如果结果不正确，它得将信息往下传递，让所有类神经元单元能够重新调整它们的判断，以改进结果。学习过程就是这个时候发生。

1980年代初，辛顿在研究这一问题。法国研究者雅恩·乐昆亦然，他当时刚刚开始在巴黎攻读研究生。乐昆在1983年偶然看到了辛顿的一篇讲述多层神经网络的论文。“论文当时并不是用那些术语来阐述的。”乐昆回忆道，“因为当时如果你提到‘神经元’或者‘神经网络’之类的词，论文是很难发表出去的。因此他用模糊的语言来撰写那篇论文，使得它能够通过审核。不过我觉得它非常有趣。”两人在两年后相识，一拍即合。

算法解决方案

1986年，辛顿和他的两名同事共同撰写了一篇很有创意的论文，提出通过算法解决方案来解决纠正问题。“他的论文可以说是第二波神经网络热潮的基石。”乐昆说。它点燃了研究者对该领域的兴趣。

乐昆曾在多伦多大学担任辛顿的博士后研究助理，后来于1988年前往AT&T旗下的贝尔实验室工作。在此后的10年里，他开发出了时至今日仍为许多图像识别任务使用的基础技术。1990年代，贝尔实验室旗下子公司NCB商品化了一款由神经网络驱动的设备。据乐昆称，该设备被银行广泛采用，它能够识别支票上的手写数字。与此同时，两位德国研究人员塞普·霍克赖特（Sepp Hochreiter）和约根·施米德胡贝（Jürgen Schmidhuber）独立开创了另一种算法，那种算法如今已经成为了自然语言处理应用的重要组成部分。

尽管出现了这些进展，但神经网络在1990年代中期还是再一次失宠，风头被更加高效的机器学习工具盖过。这种情况维持了近十年，直至计算性能又增长了三四个数量级，研究人员发现GPU的加速发展。

大数据

不过，还缺少了一样东西：数据。虽然互联网上充斥着大量的数据，但大多数数据——尤其是图像方面的——都没有标签，因此你需要训练神经网络。这个时候，斯坦福AI教授李菲菲站了出来。“我们的愿景是，大数据改变机器学习的运作方式。”她在受访时解释道，“数据驱动学习。”

2007年，她创办ImageNet，建立了一个含有超过1400万张带标签图像的免费数据库。该数据库于2009年上线，次年她创办一年一度的比赛来鼓励和公布计算机视觉方面的突破性进展。

2012年10月，辛顿的两位学生在比赛中获胜，预示着深度学习时代降临。

当时，公众也有听说深度学习，不过是通过另一个事件得知。2012年6月，谷歌大脑公布了一个名为“猫试验”的古怪项目的研究结果。相关的视频相当滑稽有趣，很快就在各家社交网络上得到了病毒式的传播。

未来的一大挑战

该项目实际上探索了深度学习领域的一个很重要但未解决的问题，它就是“非监督式学习”。目前，几乎所有的商用深度学习产品都使用“监督式学习”，即它们的神经网络是用标记数据来训练的，比如用ImageNet建立的图像数据库。相比之下，在“非监督式学习”中，神经网络会被展示未被标记的数据，被要求发现反复出现的模式。研究人员非常希望有朝一日能够掌握非监督式学习技术，因为那样机器就能够自行利用当下大量无法使用的数据来理解这个世界——像婴儿那样完全依靠自己来了解这个世界。

在猫试验中，研究人员让巨大的神经网络（横跨1000台计算机）暴露在1000万张取自YouTube视频的无标签照片面前，然后让软件自己运作。运作完毕后，他们查看最高层的神经元，不出意外地发现其中一个神经元强烈响应猫的照片。“我们还发现一个强烈响应人脸的神经元。”当时领导谷歌大脑项目的吴恩达表示。

不过，研究结果也令人非常困惑。“例如，我们并没有发现一个强烈响应汽车的神经元，很很多其它的神经元也不能指派某个英语单词。因此该项工作非常困难。”

该试验引起了巨大轰动。但非监督式学习问题仍未攻克——未来的一大挑战。

不出意外，目前被商业部署的深度学习应用程序大多数都牵涉到像谷歌、微软、Facebook、百度和亚马逊这样的拥有深度学习计算所需的海量数据的大公司。许多公司在尝试开发更加实用的“聊天机器人”——自动化的客户服务人员。

深耕深度学习的四家科技巨头

·谷歌

谷歌在2011年推出了专注于深度学习的谷歌大脑项目，2012年年中将神经网络引入旗下的语音识别产品，并在2013年3月留住了神经网络先驱乔弗里·辛顿。据它透露，它目前拥有超过1000个深度学习项目，它们覆盖了搜索、Android、Gmail、地图、翻译、YouTube和无人驾驶汽车。2014年，它将DeepMind收入囊中，后者的深度强化学习项目AlphaGo今年3月击败了世界围棋冠军李世石，创下人工智能的里程碑。

·微软

2011年上半年，微软将深度学习引入商用的语音识别产品，其中包括必应语音搜索和Xbox语音指令。该公司如今将神经网络应用在搜索排名、图片搜索、翻译系统等领域。“神经网络的影响力无处不在，难以估量。”彼得·李说。去年，微软在一项重要的图像识别比赛中取胜，9月它在语音的精确识别上也创下了记录：错误率只有6.3%。

·Facebook

2013年12月，Facebook聘请法国神经网络创新者雅恩·乐昆领导它新成立的AI研究实验室。Facebook利用神经网络来将其平台每天产生的约20亿条用户帖子翻译成超过40种语言，称它的翻译每天为8亿用户所见。（Facebook约一半用户不会说英语。）Facebook还将神经网络应用于照片搜索和照片整理，它正研究一项可给无标签照片生成语音说明的功能，供视觉障碍者使用。

·百度

2014年5月，百度招揽了原谷歌大脑项目负责人吴恩达来领导它的研究实验室。百度将神经网络应用于语音识别、翻译、图片搜索、无人驾驶汽车等领域。语音识别技术在中国颇为重要，因为普通话在手机上不易输入。百度称，在过去的18个月里，百度语音界面的使用量增长了两倍。

像IBM和微软这样的公司也在帮助企业客户为它们的自有业务适配深度学习驱动的应用程序，如语音识别界面和翻译服务。像亚马逊AWS这样的云服务正在那些想要开发自有软件的客户提供GPU驱动的低价深度学习计算服务。众多开源软件，如Caffe、谷歌的TensorFlow和亚马逊的DSSTNE，也促进了行业创新进程。与此同时，许多研究人员还没有等候同行评审便将自己的研究成果发布到一个数据库上。

深度学习与医学

很多令人兴奋的深度学习应用方面的新尝试都针对医疗领域。领导Andreessen Horowitz生物投资部门的斯坦福教授维贾伊·潘德（Vijay Pande）指出，大家都知道神经网络非常适用于图像识别，“医生所做的工作很多都是图像识别，不管是放射科、皮肤科、眼科还是很多其它的医科。”

放射科医师一生或许可以阅览成千上万张图像，而计算机则能够阅览数百万张。潘德称，“不难想象，图像识别问题上计算机能够做得更好，因为比起人类它们能够处理的数据要多得多。”

由计算机代劳的潜在好处并不仅仅包括准确率和分析速度的提升，还包括服务的大众化。随着相关技术变得标准化，最终将会有无数病患受益。

解决现实问题

当以还没有被想到的方式整合到其它的人工智能技术组合时，深度学习或许可以发挥出最大的威力。

例如，通过结合使用深度学习和一项名为强化学习的相关技术，谷歌的DeepMind已经取得了一些令人吃惊的成就。它利用那两项技术打造出了AlphaGo，该系统在今年3月击败了世界围棋冠军李世石——这被广泛认为是具有里程碑意义的人工智能成就。不同于IBM曾在1997年打败象棋冠军加里·卡斯帕罗夫（Garry Kasparov）的Deep Blue，AlphaGo并没有编入决策树，评估棋子位置的方程式，以及假定规则。DeepMind的CEO丹米斯·哈撒比斯（Demis Hassabis）表示，“AlphaGo主要通过和自己玩和观察重大的职业比赛来学习下围棋。”（训练期间，AlphaGo跟自己对战了100万盘围棋。）

此外，哈撒比斯认为，同样的技术可以应用于解决现实问题。

事实上，谷歌曾在7月称，通过利用类似于AlphaGo所使用技术的方法，DeepMind能够将谷歌数据中心的能源效率提升15%。“数据中心中可能有120个不同的变量。”哈撒比斯说道，“你可以改变风扇，可以打开窗户，可以调整计算机系统，可以改动电流。你可以从传感器、温度测量表等获得数据。这就像是下围棋。通过反复试验，你就可以知道哪些做法是正确的。”“因此它很不错。”他继续说道，“通过这样你可以每年节省数百万美元的能耗成本，同时也能够造福环境。全球各地的数据中心需要耗费大量的电力。我们希望能够更大范围地推行该技术，甚至将其推向国家电网。”

聊天机器人也很不错，它会是很酷的应用。（皓慧）