拯救数据科学的“半贝叶斯人”

大数据文摘 • 2019-09-15 04:43 • 大数据

或许一场关于自然语言处理的精彩辩论可以告诉我们何谓“半个贝叶斯人”，让我们把时光拨回到几年前。

大数据文摘出品

来源：towardsdatascience

编译：赵伟、张秋玥、钱天培

一位科学家在他的论文中写道：”人类知识的大部分是围绕因果关系而不是概率关系组织的，而概率微积分的语法并不足以描述这些关系……正因如此，我认为自己只是半个贝叶斯人”。

或许一场关于自然语言处理的精彩辩论可以告诉我们何谓“半个贝叶斯人”，让我们把时光拨回到几年前。

一场精彩的辩论

辩论的双方分别是：号称“现代语言学之父”Noam Chomsky、身为谷歌研发总监的Peter Norvig。他们分别是自然语言处理领域的旧派和新派代表。

当谈到该领域的发展方向时，Chomsky说到：

“想象一下，有人说他想要消灭物理系并转而使用‘正确’的方式。所谓‘正确’的方式是将真实世界发生的事情录制成无数录像带，然后将这数十亿字节的数据输入最大、最快的计算机，并进行复杂的统计分析 – 你知道的，对所有东西都用一下贝叶斯方法 – 你就能对接下来会发生的事情做一些预测。事实上，你做的预测会比物理学家能给出的好得多。“如果‘成功’被定义为对大量混乱的未分析数据的合理近似，那么这样做的结果比物理学家的更接近‘成功’。显而易见，这样一来，诸如绝对光滑平面之类的思想实验就不复存在了。但这样做，你将不会得到科学所一直致力于达到的那种理解水平 – 你所得到的只是对正在发生的事情的近似。”

Chomsky在许多其他场合也强调了这种观点：当前对‘成功’自然语言处理的定义 —— 即预测准确性 —— 并不科学。将“一些巨大的语料库”投入到“复杂的机器”，仅仅是“未分析数据的近似处理”简直就像撞大运，并不能使我们“真正理解”语言。

他认为，科学的首要目标是发现关于系统实际运作的“解释性原理”，而实现目标的“正确方法”则是“让理论引导数据”：通过精心设计的实验抽离掉“不相关干扰”，以此来研究系统的基本性质 – 就像自伽利略以来的现代科学研究方法一样。简而言之：“只处理待分析的混乱数据不太可能让你明白任何原理，就算你是伽利略也不行。”

Norvig随后以一篇长文回应了Chomsky的主张，这篇文章挑战了Chomsky在科学上的‘成功’的观念，并为使用概率模型象征人类语言处理进行了辩护。Norvig指出，语言处理中几乎所有主要的应用领域 – 搜索引擎、语音识别、机器翻译和问答 – 都是由训练有素的概率模型主导，因为它们比基于理论/逻辑规则的旧工具表现得更好。

他认为，Chomsky关于科学上的“成功”的标准 – 强调找到原因而忽视方法的重要性 – 是误入歧途，这可以引用Richard Feynman的话加以说明：“没有论证，物理学可以进步；但没有事实，我们寸步难行。”

说起来其实还挺low的，Norvig顺带提了一句 – 概率模型“每年创造数万亿美元的收入，而Chomsky理论的产物几亿美元都不到。” （注：数据来自在亚马逊上Chomsky著作的销售额）

Norvig揣测，Chomsky对“对一切应用贝叶斯方法”的蔑视实际上来自于Leo Breiman所描述的统计模型中两种文化之间的分裂。

1）数据建模文化，它假设自然是一个内部变量随机联系的黑箱，建模者的任务就是确定最符合这些联系的模型;

2）算法建模文化，它假设黑箱中的关联太复杂而不能用简单模型来描述，此时建模者的任务就是使用能最好地用输入量估计输出量的算法，而不再期望黑箱内变量真正的潜在联系可以被理解。

Norvig认为Chomsky可能对概率模型（数据建模文化）本身并没有什么意见，他只是针对具有“亿万参数”且难以解释的算法模型，因为它根本无法解决“为什么”的问题。

Norvig属于2号阵营，他们认为像语言这样的系统过于复杂、随机，很难用一小组参数来表示；抽离出复杂性就类似于制造一个实际上不存在的、“完全符合永恒领域的神秘设施”，因此“忽略了语言是什么以及它是如何工作的。”

Norvig在另一篇论文中重申，“我们应该停止以创造完美理论为目的的行为。我们应当拥抱系统复杂性、并接受数据就是有用的这一特点。”。他指出，在语音识别、机器翻译甚至是几乎所有使用网页数据的机器学习应用中，例如基于数百万计具体特征的n-gram统计模型或线性分类器的这些简单模型，比试图发现普遍规律的精美模型表现更好。

这次辩论最让人们受触动的不是Chomsky和Norvig的分歧，而是他们的共识：他们都同意，不试图去理解变量就用统计学习方法分析大量数据往往会产生比试图给变量之间的关系建模更好的预测效果。

而且我们也并非唯一被这一现象困扰的人：那些被访谈过许多的具有数学科学背景的人也认为这是违反直觉的 – 最符合事物基本结构关系的方法难道不应该也是预测得最为准确的吗？我们怎么能在不知道事物如何实际运作的情况下做精准的预测呢？

预测与因果推论

即使在经济学和其它社会科学等学术领域，预测能力和解释能力的概念也通常被混为一谈 – 显示出高解释力的模型通常被认为是具有高度预测性的。但是，构建最佳预测模型的方法与构建最佳解释模型的方法完全不同，建模决策通常要考虑两个目标之间的权衡。为了说明这两种方法上的差异，下面是“An Introduction to Statistical Learning”（ISL，统计学习导引）中一段关于预测和推理建模的简短摘要。

预测建模

预测模型的基本原理相对简单，使用一组已知的输入X来估计Y。如果X的误差项平均为零，则可以使用以下方法预测Y：