拯救数据科学的“半贝叶斯人”

或许一场关于自然语言处理的精彩辩论可以告诉我们何谓“半个贝叶斯人”,让我们把时光拨回到几年前。

拯救数据科学的“半贝叶斯人”

大数据文摘出品

来源:towardsdatascience

编译:赵伟、张秋玥、钱天培

一位科学家在他的论文中写道:”人类知识的大部分是围绕因果关系而不是概率关系组织的,而概率微积分的语法并不足以描述这些关系……正因如此,我认为自己只是半个贝叶斯人”。

或许一场关于自然语言处理的精彩辩论可以告诉我们何谓“半个贝叶斯人”,让我们把时光拨回到几年前。

一场精彩的辩论

辩论的双方分别是:号称“现代语言学之父”Noam Chomsky、身为谷歌研发总监的Peter Norvig。他们分别是自然语言处理领域的旧派和新派代表。

当谈到该领域的发展方向时,Chomsky说到:

“想象一下,有人说他想要消灭物理系并转而使用‘正确’的方式。所谓‘正确’的方式是将真实世界发生的事情录制成无数录像带,然后将这数十亿字节的数据输入最大、最快的计算机,并进行复杂的统计分析 – 你知道的,对所有东西都用一下贝叶斯方法 – 你就能对接下来会发生的事情做一些预测。事实上,你做的预测会比物理学家能给出的好得多。“如果‘成功’被定义为对大量混乱的未分析数据的合理近似,那么这样做的结果比物理学家的更接近‘成功’。显而易见,这样一来,诸如绝对光滑平面之类的思想实验就不复存在了。但这样做,你将不会得到科学所一直致力于达到的那种理解水平 – 你所得到的只是对正在发生的事情的近似。”

Chomsky在许多其他场合也强调了这种观点:当前对‘成功’自然语言处理的定义 —— 即预测准确性 —— 并不科学。将“一些巨大的语料库”投入到“复杂的机器”,仅仅是“未分析数据的近似处理”简直就像撞大运,并不能使我们“真正理解”语言。

他认为,科学的首要目标是发现关于系统实际运作的“解释性原理”,而实现目标的“正确方法”则是“让理论引导数据”:通过精心设计的实验抽离掉“不相关干扰”,以此来研究系统的基本性质 – 就像自伽利略以来的现代科学研究方法一样。简而言之:“只处理待分析的混乱数据不太可能让你明白任何原理,就算你是伽利略也不行。”

Norvig随后以一篇长文回应了Chomsky的主张,这篇文章挑战了Chomsky在科学上的‘成功’的观念,并为使用概率模型象征人类语言处理进行了辩护。Norvig指出,语言处理中几乎所有主要的应用领域 – 搜索引擎、语音识别、机器翻译和问答 – 都是由训练有素的概率模型主导,因为它们比基于理论/逻辑规则的旧工具表现得更好。

他认为,Chomsky关于科学上的“成功”的标准 – 强调找到原因而忽视方法的重要性 – 是误入歧途,这可以引用Richard Feynman的话加以说明:“没有论证,物理学可以进步;但没有事实,我们寸步难行。”

说起来其实还挺low的,Norvig顺带提了一句 – 概率模型“每年创造数万亿美元的收入,而Chomsky理论的产物几亿美元都不到。” (注:数据来自在亚马逊上Chomsky著作的销售额)

Norvig揣测,Chomsky对“对一切应用贝叶斯方法”的蔑视实际上来自于Leo Breiman所描述的统计模型中两种文化之间的分裂。

1)数据建模文化,它假设自然是一个内部变量随机联系的黑箱,建模者的任务就是确定最符合这些联系的模型;

2)算法建模文化,它假设黑箱中的关联太复杂而不能用简单模型来描述,此时建模者的任务就是使用能最好地用输入量估计输出量的算法,而不再期望黑箱内变量真正的潜在联系可以被理解。

Norvig认为Chomsky可能对概率模型(数据建模文化)本身并没有什么意见,他只是针对具有“亿万参数”且难以解释的算法模型,因为它根本无法解决“为什么”的问题。

Norvig属于2号阵营,他们认为像语言这样的系统过于复杂、随机,很难用一小组参数来表示;抽离出复杂性就类似于制造一个实际上不存在的、“完全符合永恒领域的神秘设施”,因此“忽略了语言是什么以及它是如何工作的。”

Norvig在另一篇论文中重申,“我们应该停止以创造完美理论为目的的行为。我们应当拥抱系统复杂性、并接受数据就是有用的这一特点。”。他指出,在语音识别、机器翻译甚至是几乎所有使用网页数据的机器学习应用中,例如基于数百万计具体特征的n-gram统计模型或线性分类器的这些简单模型,比试图发现普遍规律的精美模型表现更好。

这次辩论最让人们受触动的不是Chomsky和Norvig的分歧,而是他们的共识:他们都同意,不试图去理解变量就用统计学习方法分析大量数据往往会产生比试图给变量之间的关系建模更好的预测效果。

而且我们也并非唯一被这一现象困扰的人:那些被访谈过许多的具有数学科学背景的人也认为这是违反直觉的 – 最符合事物基本结构关系的方法难道不应该也是预测得最为准确的吗?我们怎么能在不知道事物如何实际运作的情况下做精准的预测呢?

预测与因果推论

即使在经济学和其它社会科学等学术领域,预测能力和解释能力的概念也通常被混为一谈 – 显示出高解释力的模型通常被认为是具有高度预测性的。但是,构建最佳预测模型的方法与构建最佳解释模型的方法完全不同,建模决策通常要考虑两个目标之间的权衡。为了说明这两种方法上的差异,下面是“An Introduction to Statistical Learning”(ISL,统计学习导引)中一段关于预测和推理建模的简短摘要。

预测建模

预测模型的基本原理相对简单,使用一组已知的输入X来估计Y。如果X的误差项平均为零,则可以使用以下方法预测Y:
拯救数据科学的“半贝叶斯人”

其中ƒ是由X提供的关于Y的系统信息,当给定X时,它给出结果Ŷ(Y的预测)。只要能准确地预测Y,ƒ的确切函数形式通常是不重要的,它被视为“黑箱”。

这种模型的准确度可以分解为两部分,可减少的误差和不可减少的误差:
拯救数据科学的“半贝叶斯人”

为了提高模型的预测准确性,模型主要目标是通过使用最合适的统计学习技术来使可减少的误差最小,从而估计ƒ。

推理建模

当我们的目标是理解X和Y之间的关系,比如Y是如何作为X的函数而变化时,ƒ不能被视为“黑箱”,因为我们无法在不知道函数形式的情况下理解X对Y的影响ƒ。

几乎总是如此,在推理建模时,使用参数化方法来估计ƒ。参数化是指通过假设参数形式的ƒ并通过假设的参数来简化对ƒ的估计的方法。这种方法有两个一般步骤:

  1. 假设ƒ的函数形式。最常见的假设是ƒ是关于X的线性函数:

拯救数据科学的“半贝叶斯人”

2.使用数据拟合模型,也即找到参数值β0、β1、…、βp,使得:
拯救数据科学的“半贝叶斯人”

最常用的拟合模型的方法是普通最小二乘法(OLS)。

灵活性/可解释性的权衡

你可能已经在想:我们怎么知道ƒ是否具有线性形式?因为ƒ的真实形式是未知的,我们也不知道,如果我们选择的模型与真实的ƒ相差太远,那么估计就会有偏差。那为什么我们要先做出如此肯定的假设呢?这是因为模型的灵活性和可解释性之间存在内在的权衡。灵活性是指模型可以生成的用以适应ƒ的多种不同的可能函数形式的形状范围,因此模型越灵活,它产生的形状就能符合得越好,预测精度就越高。但是更灵活的模型通常更复杂并且需要更多参数来拟合,并且ƒ的估计通常变得太复杂以至于任何预测因子的关联都难以解释。另一方面,线性模型中的参数相对简单且可解释,即使它在准确预测方面做得不是很好。这是ISL中的一张图表,它说明了不同统计学习模型中的这种灵活性-可解释性之间的权衡:
拯救数据科学的“半贝叶斯人”

正如你所看到的,具有更好预测精度、同时也更灵活的机器学习模型(例如支持向量机和Boosting方法)的可解释性非常低。对ƒ的函数形式进行较肯定的假设使模型更具解释性,推理建模在这个过程中也放弃了对预测准确性的追求。

因果识别/反事实推理

但是,请等一等!即使用了能很好符合并且高度可解释的模型,你仍然不能将这些统计数据用作证明因果关系的独立证据。这是因为,“相关性不是因果关系”啊!这里有一个简单的例子:假设你有一百个旗杆及其阴影的长度和太阳位置的数据。你知道阴影的长度是由杆的长度和太阳的位置决定的,但是即便你将杆的长度设置为因变量而把阴影长度作为自变量,你的模型仍然会十分符合统计显著性系数。显然,你不能说杆子的长度受阴影长度影响。这就是为什么我们不能仅通过统计模型进行因果推理,我们还需要背景知识和理论来证明我们的结论。因此,因果推理的数据分析和统计建模通常要受到理论模型的严格指导。

即使你确实有一个坚实的理论依据说X导致Y,确定因果关系仍然非常棘手。这是因为,评估因果效应涉及要识别在没有发生X的“反事实世界“里会发生什么,这显然是你观察不到的。

这还有另一个简单的例子:设想一下你要确定维生素C对健康的影响。你有某人是否服用维生素的数据(如果他们这样做则X = 1;否则为0),以及一些二元化的健康状况(如果他们健康则Y = 1;否则为0),如下所示:
拯救数据科学的“半贝叶斯人”

Y1代表服用维生素C的人的健康状况,Y0代表那些不服用维生素C的人的健康状况。为了确定维生素C对健康的影响,我们要估计平均治疗效果:

= E(Y₁)- E(Y₀)

但是为了做到这一点,我们需要知道不服用维生素C、但原本有服用维生素C的人的健康状况,反之亦然(或E(Y0 | X = 1)和E (Y1 | X = 0)),表中的星号表示不可观察的反事实结果。没有这些输入,我们就不能一致地评估平均治疗效果(θ)。

更糟糕的是,想象一下这种情况:健康的人往往服用维生素C,不健康的人则不会。在这种情况下,即使维生素C实际上对健康没有任何影响,恐怕也会显示强烈的治疗效果。在此,先前的健康状况被称为影响维生素C摄入和健康状况(X和Y)的混淆因素,这导致对估计的偏差。

产生的相合估计的最安全的方法是通过对治疗进行随机化实验,使X独立于Y。当随机分配治疗实验时,未治疗组结果的均值可以作为代表治疗组的反事实结果的无偏值,并可以保证这样做消除了混淆因素。A/B测试就以这个观点为指导。但是随机实验并不总是可行的(甚至可能是不道德的,比如如果我们想要研究吸烟或吃太多巧克力饼干对健康影响的话),在这些情况下,必须通过观察常常是非随机实验的数据来评估因果效应。有许多统计技术通过构建反事实结果或模拟观测数据中的随机治疗分配来识别非实验环境中的因果效应,但可以想象,这些类型的分析结果往往不是非常稳健或可重复。更重要的是,这些方法的造成障碍的层面并不是为了提高模型的预测准确性而设计的,而是为了通过结合逻辑和统计推断来提出因果关系的证据。

评价预测模型是否成功比因果模型要容易得多 ——预测模型有标准的性能度量,但评估因果模型的相对成功要困难得多。但即使因果推理很棘手,也并不意味着我们应该停止尝试。预测模型和因果模型有着非常不同的目的,需要非常不同的数据和统计建模过程,通常这两点同时发生。这一关于电影业的例子说明了这一点:电影制片厂使用预测模型来预测票房收入,以预测电影发行的票房结果,评估其电影放映组合的金融风险/回报等。但预测模型在理解电影市场的结构和动态并为投资决策提供信息方面不是很有用。这是因为在电影制作过程的早期阶段(通常是发布日期之前的好几年),当做出投资决策时,可能的票房结果的方差非常高,因此基于早期阶段输入数据的预测模型的准确性要大为降低。预测模型在电影发行日期附近才是最准确的,然而这个时候绝大多数制作决策已经被制定,预测也就失去了行动指导力。另一方面,因果推理建模允许制片商了解到,不同的生产特征如何影响生产过程早期阶段的潜在收入,因此对于帮助制定其策略至关重要。

我们真的过分强调预测嘛?

从定量研究文献的现状来看,不难看出为什么Chomsky感到不安 – 预测模型现在主导着学术界和业界。对学术预印本的文本分析发现,在增长最快的定量研究领域中,近十年来越来越关注预测。例如,在AI中,提及与“预测”相关的术语的论文数量增长了2倍以上,而提及与“推理”相关的术语的论文数量自2013年以来已经下降了一半。现今的数据科学课程在很大程度上忽略了因果推理方法,并且数据科学业界大多期望从业者专注于预测模型。即使像Kaggle和Netflix大奖赛这样高调的数据科学竞赛也总是专注于改进预测性能指标。

另一方面,仍有许多领域没有对经验预测给予足够的重视,尽管它们可以从机器学习和预测建模方面的进步中受益。

但是,把目前的状况描述为“Chomsky队”和“Norvig队”之间的文化战争似乎是一个错误的选择 —— 谁说我们只能二选一的呢,在很多时候这两种观点会相互交流相互促进。

为了让机器学习模型更易于理解,我们能做得还有很多。比方说,我对斯坦福大学Susan Athey在因果推理方法中应用机器学习技术的工作尤其感兴趣。
拯救数据科学的“半贝叶斯人”

最后,我想以Judea Pearl的大作《The book of why》中的结论做结尾。Pearl曾于20世纪80年代领导了AI研究工作,以便让机器可以使用贝叶斯网络进行概率推理;但自那时起他便成为AI只关注概率关联风气的最大批评者,认为这样会阻碍这个领域的发展进步。

与Chomsky的观点相仿,Pearl认为“深度学习取得的所有璀璨成就仅仅相当于数据拟合曲线”,而直到今天AI仍在做与机器30年前就会做的同样的事情(预测和诊断/分类),现在只是表现得稍好一点,但预测和诊断“仅仅是人类智慧的一角。”

他认为,制造真正的能像人类一样思考的智能机器的关键,是教会机器思考因果关系,这样机器就可以提出反事实问题、设计实验,并找到科学问题的新答案。他过去三十年的工作重点是为机器建立形式语言,以便使因果推理成为可能;这类似于他在贝叶斯网络上所做的工作,其能使机器建立概率关联。

相关报道:

https://towardsdatascience.com/predicting-vs-explaining-69b516f90796

本文为专栏文章,来自:大数据文摘,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/73638.html 。

(1)
大数据文摘的头像大数据文摘专栏
上一篇 2019-09-14 04:43
下一篇 2019-10-13 20:04

相关文章

关注我们
关注我们
分享本页
返回顶部