近年来,AI 在大数据、大模型的深度学习之路上一路狂奔,但很多核心问题依然没有解决,比如如何让模型具备真正的理解能力。在很多问题上,继续扩大数据和模型规模所带来的收益似乎已经没有那么明显了。在 Robust.AI 创始人、纽约大学名誉教授 Gary Marcus 看来,这预示着深度学习(准确地说是纯粹的端到端深度学习)可能就要「撞到南墙」了。整个 AI 领域需要寻找新的出路。Gary Marcus 的推文。Gary Marcus 是人工智能、心理学、神经科学等多个领域的专家。他经常为《纽约客》和《纽约时报》撰稿,并且是四本书的作者。在担任纽约大学心理学和神经科学教授期间,他在人类和动物行为、神经科学、遗传学和人工智能等领域发表了大量文章,并经常刊登在 Science 和 Nature 等期刊上。那么,新的出路在哪儿呢?Gary Marcus 认为,长期以来被忽略的符号处理就很有前途,将符号处理与现有的深度学习相结合的混合系统可能是一条非常值得探索的道路。当然,熟悉 Gary Marcus 的读者都知道,这已经不是他第一次提出类似观点了。但令 Marcus 失望的是,他的提议一直没有受到社区重视,尤其是以 Hinton 为代表的顶级 AI 研究者。Hinton 甚至说过,在符号处理方法上的任何投资都是一个巨大的错误。在 Marcus 看来,Hinton 的这种对抗伤害了整个领域。不过,令 Marcus 欣慰的是,当前也有一些研究人员正朝着神经符号的方向进发,而且 IBM、英特尔、谷歌、 Meta 和微软等众多公司已经开始认真投资神经符号方法。这让他对人工智能的未来发展感到乐观。以下是 Gary Marcus 的原文内容:在 2016 年多伦多举行的一场人工智能会议上,深度学习「教父」Geoffrey Hinton 曾说过,「如果你是一名放射科医生,那你的处境就像一只已经在悬崖边缘但还没有往下看的郊狼。」他认为,深度学习非常适合读取核磁共振(MRIs)和 CT 扫描图像,因此人们应该「停止培训放射科医生」,而且在五年内,深度学习明显会做得更好。时间快进到 2022 年,我们并没有看到哪位放射科医生被取代。相反,现在的共识是:机器学习在放射学中的应用比看起来要困难,至少到目前为止,人和机器的优势还是互补的关系。当我们只需要粗略结果时,深度学习能表现得很好很少有哪个领域比 AI 更充满炒作和虚张声势。它在十年又十年的潮流中不断变身,还给出各种承诺,但只有很少的承诺能够兑现。前一分钟是它还是专家系统,下一分钟就成了贝叶斯网络,然后又成了支持向量机。2011 年,IBM 的沃森曾被宣扬为医学革命,但最近却被分拆出售。2012 年以来,AI 领域最火的是深度学习。这项价值数十亿美元的技术极大地推动了当代人工智能的发展。Hinton 是这项技术的先驱,他的被引量达到令人惊叹的 50 多万次,并与 Yoshua Bengio 和 Yann Lecun 一起获得了 2018 年的图灵奖。就像在他之前的人工智能先驱一样,Hinton 经常谈论即将到来的伟大革命。放射学只是其中的一部分。2015 年,Hinton 加入谷歌后不久,《卫报》报道称,该公司即将开发出具有逻辑、自然对话甚至调情能力的算法。2020 年 11 月,Hinton 告诉 MIT Technology Review,「深度学习将能够做任何事情」。我对此深表怀疑。事实上,我们还没有办法造出能够真正理解人类语言的机器。马斯克最近表示,他希望建造的新人形机器人 Optimus 所形成的产业有一天会比汽车行业还大。但截至 2021 年「特斯拉 AI 日」,Optimus 还只是一个穿着机器人服装的人。谷歌对语言的最新贡献是一个名叫「Lamda」的反复无常的系统。论文作者之一 Blaise Aguera y Arcas 最近也承认,这个模型容易胡说八道。开发出我们真正能够信任的 AI 并非易事。深度学习本质上是一种识别模式的技术。当我们只需要粗略的结果时,深度学习的效果是最好的。这里的粗略结果是指任务本身风险低,且最优结果可选。举个例子,有一天,我让我的 iPhone 找一张几年前拍的兔子的照片。尽管我没有给照片打标签,手机还是立刻发挥了作用。它能做好这件事是因为我的兔子照片与一些大型数据库中的兔子照片足够相似。但是,基于深度学习的自动照片标注也容易出错,比如漏掉一些(特别是那些场景杂乱、光线复杂、角度奇怪或者兔子被部分遮挡的照片。它偶尔还会把我两个孩子的婴儿照片弄混。但这类应用出错的风险很低,我不会因此扔掉我的手机。然而,当风险更高时,比如在放射学或无人驾驶汽车领域,我们对是否采用深度学习要更加谨慎。在一个小小的错误就能夺去一条生命的领域,深度学习还不够优秀。在遇到异常值时,深度学习系统表现出的问题尤其明显,这些异常值与它们所接受的训练有很大的不同。例如,不久前,一辆特斯拉在所谓的全自动驾驶模式下遇到了一个在路中间举着停车标志的人。汽车未能认出这个部分被停车标志遮挡的人以及停止标志(在正常情况下,停车标志一般在路边),所以人类司机不得不接手。这个场景远远超出了训练数据库,以至于系统不知道该怎么做。没几个领域炒得像人工智能一样凶目前的深度学习系统经常犯一些愚蠢的错误。它们有时会误读图像上的污垢,而人类放射科医生会认为这是一个小故障。(放射科系统的另一个问题是,目前的人工智能主要或完全依赖于图像,很少或根本不理解可能描述患者病史的所有文本,有时甚至忽略了关键信息,这也是人类参与其中的关键动机。)一个深度学习系统将苹果误标为 iPod,因为苹果的前面有一张纸,上面写着 iPod。还有的系统会把一辆在雪路上翻倒的巴士误认为是扫雪机。目前,机器学习的一个完整分支领域正在研究这些错误,但还没有给出明确的答案。表面上令人印象深刻的语言模型也经常会陷入同样的陷阱。以 GPT-3 为例,它生成的东西很不错,但总是需要人工编辑。纽约大学计算机科学家 Ernie Davis 和我在 GPT-3 中发现了同样的不可靠特征。比如,我输入一段文字:「你给自己倒了一杯蔓越莓汁,但随后又心不在焉地倒了大约一茶匙葡萄汁进去。这个饮料看起来不错。你试着闻了一下,但你患了重感冒,什么也闻不到。你很渴,所以……」对此,GPT 给出的续写是:「你喝了它,然后就死了。」事实上,蔓越莓葡萄汁不会毒死你。尽管 GPT-3 非常流畅,但它既不能整合基本的网络搜索信息,也不能解释最基本的日常现象。另一个团队曾考虑将 GPT-3 变成自杀咨询聊天机器人,但发现该系统更倾向于这样的交流:
因为通用人工智能将承担如此巨大的责任,它必须像不锈钢一样,更坚固、更可靠,比它的任何组成成分都更好用。任何单一的人工智能方法都不足以解决问题,我们必须掌握将不同方法结合在一起的艺术。(想象一下这样一个世界: 钢铁制造商高喊「钢铁」,碳爱好者高喊「碳」,从来没有人想过将二者结合起来,而这就是现代人工智能的历史。)好消息是,将神经和符号结合在一起的探索一直都没有停止,而且正在积聚力量。Artur Garcez 和 Luis Lamb 在 2009 年为混合模型写了一篇文章,叫做神经符号认知推理 (Neural-Symbolic Cognitive Reasoning)。最近在棋类游戏(围棋、国际象棋等) 方面取得的一些著名成果都是混合模型。AlphaGo 使用符号树搜索(symbolic-tree search) ,这是 20 世纪 50 年代末的一个想法(并在 20 世纪 90 年代得到了更加丰富的统计基础) ,与深度学习并行。经典的树搜索本身不足以搜索围棋,深度学习也不能单独进行。DeepMind 的 AlphaFold2 也是一个混合模型,它利用核苷酸来预测蛋白质的结构。这个模型将一些精心构建的代表分子的三维物理结构的符号方法,与深度学习的可怕的数据搜索能力结合在一起。像 Josh Tenenbaum、Anima Anandkumar 和 Yejin Choi 这样的研究人员现在也正朝着神经符号的方向发展。包括 IBM、英特尔、谷歌、 Facebook 和微软在内的众多公司已经开始认真投资神经符号方法。Swarat Chaudhuri 和他的同事们正在研究一个叫做「神经符号编程(neurosymbolic programming)」的领域,这对我来说简直是天籁之音。他们的研究成果可以帮助我理解神经符号编程。四十年来,这是我第一次对人工智能感到乐观。正如认知科学家 Chaz Firestone 和 Brian Scholl 指出的那样。「大脑的运转不只有一种方式,因为它并不是一件东西。相反,大脑是由几部分组成的,不同部分以不同方式运转:看到一种颜色和计划一次假期的方式不同,也与理解一个句子、移动一个肢体、记住一个事实、感受一种情绪的方法不同。」试图把所有的认知都塞进一个圆孔里是行不通的。随着大家对混合方法的态度越来越开放,我认为我们也许终于有了一个机会。面对伦理学和计算科学的所有挑战,AI 领域需要的不仅仅是数学、计算机科学方面的知识,还需要语言学、心理学、人类学和神经科学等多个领域的组合知识。只有汇聚巨大的力量,AI 领域才可能继续前进。我们不应该忘记,人类的大脑可能是已知宇宙中最复杂的系统,如果我们要建立一个大致相似的系统,开放式的协作将是关键。参考文献:1. Varoquaux, G. & Cheplygina, V. How I failed machine learning in medical imaging—shortcomings and recommendations. arXiv 2103.10292 (2021).2. Chan, S., & Siegel, E.L. Will machine learning end the viability of radiology as a thriving medical specialty? British Journal of Radiology *92*, 20180416 (2018).3. Ross, C. Once billed as a revolution in medicine, IBM’s Watson Health is sold off in parts. STAT News (2022).4. Hao, K. AI pioneer Geoff Hinton: “Deep learning is going to be able to do everything.” MIT Technology Review (2020).5. Aguera y Arcas, B. Do large language models understand us? Medium (2021).6. Davis, E. & Marcus, G. GPT-3, Bloviator: OpenAI’s language generator has no idea what it’s talking about. MIT Technology Review (2020).7. Greene, T. DeepMind tells Google it has no idea how to make AI less toxic. The Next Web (2021).8. Weidinger, L., et al. Ethical and social risks of harm from Language Models. arXiv 2112.04359 (2021).9. Bender, E.M., Gebru, T., McMillan-Major, A., & Schmitchel, S. On the dangers of stochastic parrots: Can language models be too big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency 610–623 (2021).10. Kaplan, J., et al. Scaling Laws for Neural Language Models. arXiv 2001.08361 (2020).11. Markoff, J. Smaller, Faster, Cheaper, Over: The Future of Computer Chips. The New York Times (2015).12. Rae, J.W., et al. Scaling language models: Methods, analysis & insights from training Gopher. arXiv 2112.11446 (2022).13. Thoppilan, R., et al. LaMDA: Language models for dialog applications. arXiv 2201.08239 (2022).14. Wiggers, K. Facebook releases AI development tool based on NetHack. Venturebeat.com (http://venturebeat.com/) (2020).15. Brownlee, J. Hands on big data by Peter Norvig. machinelearningmastery.com (http://machinelearningmastery.com/) (2014).16. McCulloch, W.S. & Pitts, W. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biology *52*, 99-115 (1990).17. Olazaran, M. A sociological history of the neural network controversy. Advances in Computers *37*, 335-425 (1993).18. Marcus, G.F., et al. Overregularization in language acquisition. Monographs of the Society for Research in Child Development *57* (1998).19. Hinton, G. Aetherial Symbols. AAAI Spring Symposium on Knowledge Representation and Reasoning Stanford University, CA (2015).20. LeCun, Y., Bengio, Y., & Hinton, G. Deep learning. Nature *521*, 436-444 (2015).21. Razeghi, Y., Logan IV, R.L., Gardner, M., & Singh, S. Impact of pretraining term frequencies on few-shot reasoning. arXiv 2202.07206 (2022).22. Lenat, D. What AI can learn from Romeo & Juliet. Forbes (2019).23. Chaudhuri, S., et al. Neurosymbolic programming. Foundations and Trends in Programming Languages*7*, 158-243 (2021).原文链接:https://nautil.us/deep-learning-is-hitting-a-wall-14467/