如何让深度学习突破数据瓶颈？

Demiurge Technologies 是一家位于瑞士的人工智能创业公司，他们致力于研究生物神经元的计算原理，开发下一代深度学习，以解决小样本学习和与物理世界交互的难题。他们的深度学习系统将应用于第四级别自动驾驶和探索机器人等领域。与大部分人工智能公司不同的是，Demiurge Technologies 希望从根源解决目前深度学习存在的问题，希望 Demiurge 的创业思路和运作模式能够给从业者带来灵感和启发。

瑞士，有着覆盖国土面积 60% 的阿尔卑斯山脉和超过 1,500 个湖泊，玛丽·雪莱所著的西方文学史上首部科幻小说《弗兰肯斯坦》就诞生于日内瓦湖畔，它讲述了一位天才科学家从零到一创造出智能生命体的故事，成为此后 200 年间讨论人类与机器、生命与智能的哲学模板。

Demiurge Technologies 也是一家希望从生命中获得线索并以此来开发通用人工智能的创业公司，位于瑞士一个依山傍湖的小镇——静谧但充满力量。

一、基于生物神经元的下一代深度学习

「虽然目前的深度学习在语音识别和图像识别方面取得了突破性进步，但如果把深度学习用于绝大多数的其他领域，比如说自动驾驶、实体机器人等，就会面临一个来自于真实世界的非常大的挑战，那就是训练数据量严重不足。」Demiurge 联合创始人、CTO 任志攀（Bragi Lovetrue）表示。

人工智能不同应用场景的数据需求和数据供给对比，图片来源 Demiurge Technologies

拿开发消费级别的全自动驾驶来说，最大挑战在于要开发出在交通事故的预判和预防上远超人类驾驶员的软件。

如果用现有的深度学习去实现这一点，那就需要大量的事故数据，但这方面的数据供给非常有限，而采集数据又难度很大。首先，没有人能够准确预测何时何地会发生何种事故，因此无法系统地提前部署以采集真实事故数据；其次，从法律上来说我们不能靠人为制造事故来采集数据；第三，也无法模拟数据，因为事故更多涉及实时的传感以及与物理世界的互动，模拟出来的数据与真实数据差距很大，这从 DARPA 机器人挑战赛就能看出来；最后，像 AlphaGo 那样，在规则定义明确的简单环境下自行创造大量训练数据的方式，在复杂的真实环境中难以发挥作用。

如果遇到数据量不足的情况，同时又很难通过之前那些行之有效的方式去增加数据供给，那就无法发挥出深度学习的优势。而更重要的是，我们还会遇到数据类型不一样的问题，物理世界中是不同传感器获取的实时数据流，而现在深度学习在信息世界中的应用，比如说图像识别，使用的数据都是基于图片的数据点，而非数据流，所以这也是将深度学习现有的成功延伸到真实物理世界应用的一个底层障碍。

基于这个原因，Demiurge 专注于开发一种系统方法从源头解决真实世界诸多领域中数据量严重不足的问题——既然很难有效增加数据供给，为何不设法大幅降低对数据的需求？

降低对数据量的需求、实现小样本学习甚至 one-shot learning，是目前深度学习研究中的关键问题，Yann LeCun、 Yoshua Bengio 等深度学习专家也多次在演讲中提到解决深度学习中 one-shot learning 问题的重要性。

在今年斯德哥尔摩的全球机器人顶级学术会议 ICRA 上，Bragi 在 Industry Forum 演讲中介绍了 Demiurge 的方法，从神经科学里寻找关键线索，「比起深度学习的点神经元，生物神经元所擅长的是从多模的实时数据流中提取多维度的时空信息来实现 one-shot learning，这是现有的深度学习很难做到的。生物神经元不仅能够做这种特征提取，而且是以一种非常高效的方式，效果和效率都很出色。」

深度神经网络的确从神经科学领域的研究中获取了一些灵感，但其工作原理与人脑截然不同（诚然，我们对大脑的工作原理还没有弄清楚），Yann LeCun 表示，他最不喜欢的对深度学习的定义就是「它像我们的大脑」，谷歌 Jeff Dean 认为深度神经网络是对大脑神经网络的简单抽象，并非是模拟人类神经元如何工作。神经科学专注的点包括计算的细节实现，还有对神经编码以及神经回路的研究。然而，在机器学习领域，人工神经网络则倾向于避免出现这些，而是往往使用简单和相对统一的初始结构，以支持成本函数（cost funcion）的蛮力最优化。

Bragi 从历史的角度分析了深度学习和神经科学的关系，「现在的深度学习从神经科学中获得的灵感非常有限，这是因为深度学习的理论基础是上世纪 80 年代基本定型的，那时之前的神经科学也发展比较慢，无法为深度学习提供更多灵感。而从 80 年代至今，神经科学的发展速度远远超过了之前，过去 30 年产生的神经科学知识是 80 年代以前的 46 倍，而且现在每年神经科学获得新发现的速度是 80 年代以前的 100 倍。所以，对于深度学习来说，如今的神经科学已经是一个非常巨大的宝库，为提升现有深度学习的学习能力提供重要线索。」

Bragi 表示，越来越多的深度学习专家开始研究如何从神经科学中获取更多的线索，「 Yoshua Bengio 做的非常前沿，一方面研究深度学习的反向传播算法在生物神经元上是如何实现的，另一方面研究生物神经元的 STDP 学习算法如何提升现有的深度神经网络的学习能力。位于深度学习与神经科学交汇的最前沿，我们很深刻地体会到现在正在发生着的转型，从深度学习和神经科学没有太大关系的这一代（深度学习1.0），过度到深度学习重新从神经科学获得重要启发的下一代（深度学习 2.0 ）。」

深度学习 2.0 ，图片由来源 Demiurge Technologies

在近期谷歌 DeepMind 和 MIT 媒体实验室的合著论文《Towards an integration of deep learning and neuroscience》中提到，近期出现的结构化、成本函数和训练程度的复杂化这两项机器学习方面的进展或许会将神经科学和机器学习两个研究领域看似不同的视角连接起来。此外，硬件方面，IBM Zurich 在 8 月首次用低成本高性能的相变材料实现了生物神经元计算的关键机制——神经薄膜。

更重要的是，面向物理世界的移动人工智能的各种应用需求（识别、避障、抓取等），与各类生物在物理环境的各种生存需求是高度吻合的。Bragi 表示，斯坦福大学人工智能实验室主任李飞飞教授就特别重视深度学习在机器人上的应用。

生物神经元，经过上亿年的演化，是自然找到的最优解决方案。对于 Demiurge 来说，理解生物神经元的计算模型是找到降低数据需求的通用算法，开发通用移动人工智能核心技术的关键。

这与其他解决数据量不足的思路有着本质不同。「比如说 UC Berkely 的 Pieter Abbeel 和 Google 的 Sergey Levine ，他们都是在用深度强化学习来开发基于自我监督学习（self-supervised learning）的通用算法，但这种自动的数据收集和标记本质上依然是增加数据供给。此外，NYU 的 Brenden Lake 等用贝叶斯程序学习的方法针对特定问题开发出专门的数学模型。虽然能够在特定任务中大幅降低了数据需求，实现了 one-shot learning , 但这不是通用方法，」Bragi 说，「实际应用中需要的是降低数据需求的通用方法，深度学习的通用性无疑是最佳的。对于深度学习来说，如果不从生物神经元原理入手的话，是很难解决这些问题的。」

Bragi 表示，目前深度神经网络与生物神经网络最本质的区别在于神经元的类型。目前深度神经网络用的是点神经元，其计算模型是把信号加权平均的结果输入到一个非线性函数。这种点神经元是对生物神经元的极度简化，没有基于时间的变量。而生物神经元则利用脉冲进行基于多维时空变量的计算。单个生物神经元的计算模型是神经科学领域的一个关键问题，而这个问题的答案正是设计下一代深度学习的关键线索。

点神经元和脉冲神经元，图片来源 Demiurge Technologies

这个模型的关键在于理解脉冲如何以非常少量的计算步骤和能耗能够准确抓取极高维度的时空信息。

「没有基于脉冲的计算模型—仅仅像 IBM TrueNorth 那样，简单模仿一些生物神经元的硬件特点，或者像 Numenta 和 Vicarious 的 HTM（Hierarchical Temporal Memory）那样，简单借鉴一些生物神经元的软件特点—消费级别大脑芯片的硬件开发也就无从谈起。对于实现生物神经元计算模型的软硬件要求的掌握，是 Demiurge 最重要的核心优势。」

这种计算模型的提出是多尺度跨领域研发的结果，不仅需要对跨领域的基础理论和前沿算法进行研究，还要从应用角度来分析真实世界的需求和需要满足的限制，来缩小算法搜索的空间。因为真实世界中有很多限制，比如说提供的数据量非常少，但为了应用成功或者让物种生存，就必须快速学习来了解整个环境，而在整个过程中又不能耗能太多。

生物智能给 Demiurge 提供了非常重要的线索，他们从跨物种的通用智能系统出发，理解要满足什么样的条件才能最大化它们的生存，这是从生存追问的一种智能系统设计的思路。不管设计出何种模型，都要满足这些限制。

目前深度学习领域从实验室结果到产品级应用的演化进程，对于真实世界的诸多限制一开始是尽量回避的，即首先选择那些可以不太涉及物理限制的简单场景，尽力实现在该场景下深度神经网络的最优化表现后，再开始逐条考虑开发应用时必须面对的各种物理限制。

「这种演化可能适合学术研究，但不适合产品研发。Demiurge 的研发从一开始就充分考虑真实世界应用的所有限制，开发出来的计算模型和大脑芯片能在真实世界的各种限制条件下完成出色稳定的应用表现。」Demiurge 联合创始人兼 CEO 刘思宜（Idonae Lovetrue）进一步解释这背后的决策依据。

由于采用了同时满足技术突破和应用表现的双重评估标准，Demiurge 的研发风格是极为大胆和严谨的。提出的计算模型首先要在从数学理论上完整论证，同时还要用神经科学最新的发现和数据去做验证。这部分数学理论与神经科学的验证之后， Demiurge 会开始软件的模拟和硬件的实施，最终把自动驾驶作为首个测试平台，通过实现第四级别的无人驾驶测试他们的大脑芯片产品在对交通事故的学习、预判和预防的表现。

Demiurge 虽然是从神经科学中寻找深度学习突破的密码，但他们所做的技术依然可以称之为深度学习，最终的产品形态也是利用深度神经网络，也利用很多的隐含层和反向传播算法，只不过是将深度神经网络中的点神经元替换成了脉冲神经元，是计算单元的区别，在整个计算架构上区别很少。

因此，可以在充分利用了生物神经元优势的情况下同时还继承了这代深度学习的所有优势，比如说具有通用性，以及从训练的角度上是 model-free ，这依然是一个以数据和经验来驱动的过程。

Bragi 说：「我们和 DeepMind 、OpenAI 等最大的区别是，我们很清楚脉冲神经网络在感知数据流计算上的巨大优势，并知道如何从软件上和硬件上实现它。对这一代深度学习来说，正如 Google 资深研究员 Greg Corrado 在 Brain Forum 上所说，他们尚不清楚如何利用脉冲进行计算，在算法层面和应用层面发挥脉冲的优势。我们与 IBM 区别是，IBM 的最新突破用 GST 相变材料首次完整第实现了单一神经薄膜，这是基于对生物神经元物理性质的深入理解与再现，但要开发应用于物理世界的大脑芯片，仅靠复制生物神经元的物理性质是不够的，根本上仍然需要对生物神经元计算原理的掌握，后者是 Demiurge 的核心优势。」

二、游戏规则制定者

理解生物神经元的脉冲计算原理，是神经科学领域的世界级难题，同时对人工智能界的下一次突破也意义重大，面对这样一个不论是从科研还是从应用上都将带来巨大价值的命题，Demiurge 作为一个资源有限的创业公司是如何做到的？

「不应该是艾伦实验室、索尔科研究所、HBP 等世界级脑科学研究机构，或者谷歌、Facebook 等科技巨头才有动力和能力去解决这样一个世界难题吗？」我非常直接的向 Bragi 询问。

「就像阿基米德那个用杠杆去撬动地球的比喻，对于撬动这个世界级难题来说（理解生物神经元的脉冲计算原理），有很多不同支点（探索方法）可供选择。比如说各国脑计划的研究重点主要集中在提高探测设备和研究手段，使得我们能够尽可能收集从局部到全部、从单个时间点到更大时间尺度上的尽可能多的关于神经元的数据，他们大多是从收集数据的角度来努力。」

「艾伦研究所在这方面做了很多贡献，不仅提供了系统化数据收集的标准和数据收集的设备，同时还把收集上来的数据加以整理并免费开放，他们的思路是，更多的数据可能会帮助我们最终解决算法的问题，这是大数据驱动的对算法的理解。而欧盟脑计划（HBP）的思路不一样，他们认为，即便是收集足够多的数据，但缺少模拟的过程，对数据的利用效率也不够高，所以他们特别强调建立一个全尺度、高精度的虚拟大脑，这样就能保证在虚拟大脑里重现已经观察到的大脑的现象和特征，从而让我们更加准确的提出测试各类神经元的计算模型，这也是从蓝脑计划到欧盟人脑计划的一个重点。」Bragi 说。

Idonae 补充到：「以上这些研究更多的是提供了基础设施，支点都离问题比较远，而不是直接去解决这个问题。而 Demiurge 选择了最近的支点（完全专注于单个生物神经元），并打造出了最长的杠杆（提出了通用的脉冲计算模型），所以能够以有限的资源撬动无限的潜力。」。

她认为「下一代深度学习是一个底层应用问题，不是一个表层应用问题。底层问题则需要对多领域深入的理解和灵感来寻求突破，还需要对应用核心痛点的深入理解，所以预测和管理更具挑战性。而表层问题可以用循序渐进改良的方式推动，产出和时间相对容易预测。在学术界和大企业机构，相关评审机制的设计和运作有利于解决表层应用问题，但对解决底层应用问题的机制缺乏动力和经验。因此在解决底层应用问题上，Demiurge 量身打造的文化制度和评审机制就会显示出独特的优势。」

Demiurge 联合创始人、CEO Idonae Lovetrue 在 TEDx Hochschule Luzern 演讲

在此前的 TED 演讲上，Idonae 也提到了 Demiurge 相对于科技巨头的优势，「大企业显然有多种优势：充足的资源、雄厚的财力和强大的网路，但开发应用于物理世界的人工智能最重要的事情是生存本能，但这与大企业的属性相悖，企业一旦做大，保持其生存本能就会极其困难。但生存却是创业的一切，并且它在每个人的血管中流淌，我何时何地都能感受到它。」

「所以，Demiurge 为自己创造了一个非常独特的位置，掌握了一个从科学的利益和动力、产品的利益和动力的完美契合点，」Bragi 表示，「单个神经元计算模型这个问题既是从深度学习应用需求来说必须要解决的根本问题，同时也是神经科学领域一个诺贝尔奖级别的问题。比起学术界，Demiurge 离应用最近，可以获得一些额外的关键启发和应用场景下的限制条件，更有能力去做这个事情。比起工业界，Demiurge 离科学最近，能够非常专注地去彻底解决应用的底层问题，更有定力去完成这个事情。」

而恰恰是因为 Demiurge 所坚持的这个目标也是神经科学家一直以来的终极目标，所以神经科学领域的顶尖机构和专家非常支持他们，为他们提供研究成果、数据和人才。所以从这方面来说，Demiurge 和神经科学领域的大机构是一种合作关系，而非直接的竞争关系，而这种合作关系也是平等的优势互补，这些科学家不是在通常情况下的单方面付出，而是可以获得反馈。

各类人才的汇集让 Idonae 充满信心，「我们只要坚持走在解决这个问题的路径上，最适合的人会一个一个陆续登场，而每个人都必然是在相关领域深耕良久，因为只有有了很深的积累之后才有足够的眼光看到我们解决这个问题的必然性。」

而对于 Demiurge 来说，他们不仅希望自己创造的这套新的游戏规则能够帮助他们解决具体问题，还希望这个规则本身可以为后来者提供一种史无前例的参照。

「我们在创造一个先例，从来没有人说过创业公司不可以通过解决一个诺贝尔奖级别的问题来直接开发出堪比互联网基础的人工智能技术，只不过是很少有人有勇气做这方面尝试，而我们非常清楚我们的目标是什么，我们存在的意义是什么。我们希望自己是启发性的，也可以让后面的人有一个新的参考体系。」Idonae 表示。

「为什么是我们？我们对现有的游戏规则很了解，并且非常清楚做到什么程度才算是真正的成功，」Idonae说，「通用人工智能的成功标准，高于在 ImageNet 竞赛中取得高分，高于实现完全的自动驾驶，而是能够实现人人可居的智慧城市，人人可获益的地外探索。」

自动驾驶

Demiurge 基于生物神经元计算模型所提出的下一代深度学习及相关的软硬件平台，可以做到高性能、低成本的解决小样本学习和自适应学习等人工智能在真实世界中所面临的诸多问题。从目前来看，这项技术最直接、也是最有市场需求的应用就是自动驾驶。

Bragi 和 Idonae 五月份的行程非常密集，他们需要去瑞士中部的卢塞恩进行 TED 演讲，然后当天赶到西南部城市洛桑参加 Brain Froum，会议结束后再返回公司。Bragi 驾驶着一辆 Model S 在四天里行驶了超过 800 英里，沿途再美的风景也会屈服于驾驶员的时间成本和精力消耗，这也是所有人期待自动驾驶早日实现并积极参与其中的原因。

从 20 世纪 80 年代卡耐基梅隆大学的 Navlab 计划，到谷歌自动驾驶项目，再到如今所有相关公司的强势布局，众多参与者都走在追求这个终极目标的路上，每个参与者都会基于自己的优势规划发展路径，神秘的自动驾驶创业公司 Drive.ai 就完全押宝于深度学习，将深度学习应用于全自动集成驾驶堆栈，改变用规则去应对各种场景，让汽车完全自行通过理解数据去学习。

而 Demiurge 的方案不是循序渐进，而是从自动驾驶场景下的小样本学习和与真实物理世界交互的两大限制出发，用生物神经元的计算模型从根源上解决这个问题。

「比如说蝗虫，它们的翅膀非常孱弱，任何撞击对它们来说都是非常致命的，但它们在高速飞行中有着几乎完美的自动避障能力，这背后的机制如果用在自动驾驶汽车上，将会实现第四级别的自动驾驶。最令人吃惊的是，蝗虫的自动避障系统只用了两个生物神经元，一个用来探测障碍，一个用来执行避障的行为，这说明生物神经元在处理物理世界的任务时，从小数据和数据流中的学习和决策能力非常出色，这对我们降低数据需求提供了重要线索。」Bragi 说。

基于深度学习的自动驾驶和蝗虫自动避障的对比，图片来源 Demiurge Technologies

在产品方面，软件依然是第一位，但如果现有的自动驾驶平台无法与他们的软件相适应时，Demiurge 也会重新设计硬件，「我们要设计的深度学习芯片也是基于脉冲神经元，所以从硬件实施上也与现在的硬件有所不同」，但 Bragi 没有透露更多具体细节，「这两种方法都是可能的，至于选择哪一种，则是看工程上的需要。」

在众多自动驾驶领域的参与者中，Demiurge 认为公司最大的潜在竞争对手是特斯拉。特斯拉在去年 10 月通过软件升级增加了辅助驾驶功能，这个功能在研发时使用了特斯拉车主过去 18 个月积累的 7.8 亿英里行驶数据。在该功能上线后的短短六个月内就积累了 4,700 万英里数据，远远超过谷歌历时 6 年积累的 150 万英里，而近期特斯拉的这个数据已经增加到 1 亿英里。

Demiurge 把特斯拉视为头号竞争对手的原因在于，目前只有特斯拉充分认识到现有深度学习对于数据需求量过大的底层问题，并且后者正在用不同方式来逼近这个目标。

Bragi 说：「特斯拉在收集数据上有着垄断性的巨大优势，所以能够利用现有深度学习做自动驾驶，在与大多数同行竞争中已然遥遥领先。但特斯拉并没有满足这一状态，Elon Musk 同时通过成立 Open AI 在本质上寻求能够实现第四级别自动驾驶的下一代的深度学习算法，完全超越竞争，这和 Demiurge 的思路是一样的。」