如何成为一名卓越的数据科学家 ——桃树七剑之二：数据准备

关于作者：杨滔，桃树科技（TaoData）创始人，专注于下一代人工智能产品的研发、应用与商业化。拥有超过十年机器学习研究与应用经验。奥克兰大学机器学习博士，悉尼科技大学博士后。曾任阿里巴巴集团数据科学家，建立淘宝网数据科学团队，首创聚划算爆款模型。曾任F团首席科学家，建立F团数据化运营体系。

在桃树数据科学七剑中，当问题被充分定义之后，数据科学家便可以进入数据科学中最考验核心技术的一步——数据准备。（桃树数据科学七剑开篇及问题定义相关讨论，请参阅桃树科技公众号历史文章。）

尽管大数据时代为数据科学家积累了大量数据原材料，如何用好这些数据材料仍旧是一个巨大的挑战。

决定数据科学全流程是否可以大规模复制的核心因素，是原始数据是否可以自动转化为机器可用于建模学习的特征数据。

一个卓越的数据科学家，不仅需要在一个一个大数据的项目中为机器学习算法准备高质量数据，还需要最小化从原始数据到数据价值的摩擦力，让数据准备乃至整个数据科学流程自动化。

数据到底是什么？

以前，人们以为数据就是堆积在excel表格中或数据库中的一堆数字。人们试图去追溯数据的源头，希望在数据的最上游把控数据质量。

实际上，人是所有数据的源头。

经验主义哲学之父大卫.休谟告诉我们，这世界一切的经验材料，无不源于人对这个世界的印象（Impressions）。人们把从经验中获得的印象记录下来，这才有了数据。

这些数据的形态包括文字、数字、图片、语音、视频和各种行为记录，其中大部分原始数据是非结构化的。

经验主义哲学告诉我们，人所有的知识都源于经验。没有任何知识是先验成立的，人类一切的知识都是从大量经验材料的关联关系中归纳而来。这些经验材料，也就是我们所说的原始数据。

基于经验主义认知论的原理，我们是否可以将这些数据材料直接灌输给机器，让机器永不停歇地从数据中学习，从而最终获取人类的认知能力？

数据面前，人与机器的不同

理论很直接，但道路往往是曲折的。

难处在于：人和机器用于学习的数据材料是截然不同的。人可以轻易地从非结构化数据中学习，而机器只能直接从结构化数据中学习。

如果不能把原始数据结构化（把原始数据转化为特征数据），机器学习算法便无法从数据中发现任何规律。

然而，如果我们可以让机器直接从非结构化数据中学习，或者说如果机器可以自动将原始数据转化为特征数据，则机器智能便可以在许多复杂决策中接近人的智慧。

传统机器学习算法的局限在于假设数据已经准备好了，算法在完美的数据中不断提升其预测准确率和计算效率。但是，现实中最大的问题是，数据其实并没有准备好。

最近火热的深度学习技术，在图像识别和语音识别领域使得算法准确率得到巨大提升，其本质原因也是在特征工程（数据准备）这个环节做出了巨大改进。

但是，深度学习技术的大部分成功应用仍局限于“浅层决策”。在深度学习现有成功案例（图像识别和语音识别）中，几乎所有问题都是人可以轻易解决的。在这里也许你会想到深度学习明星AlphaGo。其实AlphaGo所采用的是经过改造的深度学习技术，即深度学习与加强学习的组合技术，若仅依靠深度学习技术，AlphaGo是无法在围棋这种涉及复杂决策的活动中战胜人类的。

在许多复杂决策问题（例如，信用风控评级、犯罪预警）中，深度学习仍有很大的进步空间。

在复杂决策问题中，数据并没有全部覆盖在一个图片或一段音频中，数据范围本身就是需要定义的，并且业务经验在决策中仍起到很大作用。

涉及复杂决策的那些问题，人类专家都不一定能解决好，对于需要人类来协助学习的机器来说，更是难上加难。如何从原始数据提炼核心特征数据，往往是数据科学家最大的技术挑战。

一个优秀的数据科学家，擅长基于业务经验将原始数据转化为有价值的特征数据；而作为一个卓越的数据科学家，则需要建立从原始数据到特征数据的技术体系，这个体系可以将原有业务经验充分覆盖，甚至可以超越原有经验的局限。

如何捕捉深层数据

我们的主题是如何成为卓越的数据科学家，接下来我将深入技术层面，解析卓越的数据科学家是如何准备数据的。

在许多复杂决策问题中，数据科学家不仅需要对数据进行清洗、关联和整理，更需要捕捉到原始数据背后的“深层数据”。

深层数据的提炼，一般源于三个维度：时间、场景和数据彼此之间的交叉关系。与图像识别和语音识别不同的是，复杂决策中许多事物的属性都随时间和场景的变化而变化。

一个人今天的需求和明天的需求可能完全不同。在不同的场景中，事物的状态也会完全不同。数据科学家往往需要捕捉到事物在一段时间内和一系列场景中的汇总属性和变化趋势。

数据彼此之间的交叉关系往往能衍生出更具有信息量的新数据。信息，往往源于对比。没有对比，就没有信息。在复杂决策中起重要作用的数据，往往都是几个原始数据之间的对比关系。

如果我们在许多项目中提炼数据科学家拓展数据特征的方式，便会发现，数据特征都是从原始数据中基于“时间、场景、交叉关系”三种方式来衍生出来的。

当原始数据到特征数据的进化过程被定义好，数据准备的过程就可以自动化了。同时，让数据进化到哪一个阶段，是预测准确率和计算效率之间的平衡，其中的平衡参数可以由人来灵活设定。

数据准备这一环节本质上就是解决传统机器学习技术和数据原材料之间的鸿沟，让机器可以直接从非结构化数据中建模学习。一旦数据被结构化，具备大规模分布式计算能力的机器便拥有了比人更加强大更加精细的学习能力。

一旦数据准备过程被标准化，数据科学家的职业特性也将发生重大改变。卓越的数据科学家不是让自己越来越强大，而是让可以从数据中学习的机器越来越强大。

许多数据科学家掉在各种各样复杂技术的坑中，他们从理想的天堂中被扔出去，还会用算法创造一个理想的地狱。其实，数据科学家应该是一个旁观者，科学体系一旦被设立，他就应该冷静地观察机器是如何让数据不断进化的。

在现实操作中，大部分数据科学家80%以上的时间都在准备数据。有趣的是，在一些数据科学家眼中，与客户沟通被认为是不务正业，写PPT被认为是忽悠，研究算法被认为是炫技，只有翻来覆去地提取数据才被认为是踏踏实实的好同志。

还有一些数据科学家的“绝活”，是在熟悉的业务场景中积累业务经验，并基于经验提得一手好数据。如果我们穿过未来看现在，这绝活其实并不太值钱。

手艺驱动的数据科学家很快会被时代淘汰，或者，被可以从非结构化数据中学习的机器所超越。

擅长从非结构化数据中学习的机器，并不是只会消耗计算资源的暴力猛兽。人们会逐渐发现，数据科学是关于数据准备的科学。所以，关于数据准备的算法才是数据科学全流程中最关键的技术环节。

卓越的数据科学家并不是“暴力计算”的信徒。让原始数据进化为特征数据的过程，虽然包括暴力计算的性质，但仍旧需要算法来为暴力计算选择最优的暴力方向。

数据准备与算法优化不再是孤立的环节，数据准备与算法优化是互相交互，并为彼此提升效率的两个步骤。

在数据准备环节，机器使用一定程度的“暴力资源”抽取非结构化数据背后的结构化特征；在算法优化环节，机器使用算法来评估现有特征中的高质量数据，从而调整机器的暴力计算方向。

什么是关键数据？

“什么才是大数据背后的关键数据”——这是大数据时代人们关注的重点之一。人们常以为这是有经验的数据科学家的关键职能之一。

其实不然。

数据是否为关键数据，取决于问题定义——关键的定义是什么，也取决于数据准备——有些数据经过“时间、场景、交叉关系”加工处理后才变得关键，还取决于算法——算法才是数据的使用者和评估者。

数据科学家的职责既不是让自己陷入数据提取的手艺性工作中去，也不是依赖经验主观定义最终用于决策的关键数据，而是建立从原始数据自动进化为特征数据，并让机器学习算法来评估关键数据的机制。

数据准备往往是数据科学全流程中最消耗计算资源的一个环节，而算法优化环节包括对关键数据的评估与筛选。

数据准备与算法优化的螺旋式上升过程，可以让机器高效率地找到算法可以用到的关键数据，是提升数据科学应用效率的关键。（关于算法优化，我将在随后的桃树数据科学七剑中的第三剑中详细展开。）

将“弱数据”变为“强特征”

当数据准备过程可以由机器来自动化处理，算法便可以让一连串“弱数据”被合成为“强特征”。当机器来负责评估什么是关键数据的时候，一些不起眼的数据也可以成为关键数据。这是机器所独有，让人类，包括卓越的数据科学家，也望尘莫及的总结能力。

虽然互联网积累了海量数据，但是其中大部分数据都为“弱数据”。所谓弱数据，就是单独从这一个数据很难提炼出有用的信息。互联网覆盖用户行为方方面面，然而互联网产品往往只能反映用户在特定场景下的行为。

我们很难通过互联网数据挖掘到用户的本质属性。然而，当大量弱数据彼此组合关联然后衍生为新数据时，这些合成数据便可以成为解决问题的关键数据。

我们在业界已经看到将弱数据成功应用的案例。美国公司ZestFinance是专注于让弱数据产生强信息的一家征信公司。ZestFinance基于大量互联网行为数据，为没有征信评级的普通用户提供信用打分，弥补了传统征信体系中的空缺。

数据和算法哪个更重要？这是是一个先有鸡还是先有蛋的问题。缺少数据的机器彷徨失措，没有机器的数据无处安放。只有当你拥有一个哪怕最笨拙的机器时，你才可以去寻找数据；也只有当你拥有哪怕小得可怜的数据时，你才需要去研究算法。鸡和蛋往往是同时出现的，前提是你找到了创造它们的上帝。

卓越的数据科学家 vs. 卓越的数据科学体系

如果机器可以自动化从海量的非结构化数据中逐层提炼结构化数据；

如果数据准备的过程可以由算法来缓解暴力计算的压力；

如果机器可以基于设定好的目标量化评估什么是关键数据……

那么企业内部数据与外部数据的边界将会逐渐消失。机器将以源源不断的海量数据为食物，变得越来越强大。

今天，许多外部数据之所以很难被企业大规模采购，并不是外部数据没有价值，而是外部数据的价值没有被量化评估。今天市场上的外部数据，更像是90年代的小商贩贩卖的盗版光盘。正因为数据没有被科学定价，外部数据的价值并没有被充分挖掘。

卓越的数据科学家不仅需要关注问题的定义，同样需要关注在当前问题下如何准备数据，如何让数据准备的过程自动化，如何让机器参与到数据准备的过程中，如何让成群结队的数据追着机器跑。

数据科学家首先需要颠覆自己的职业，才能颠覆别人的职业。

数据科学家首先需要让自己的知识贬值，才能让别人的技能增值。数据科学家首先需要让机器学习的能力被泛化，才能让人人都成为数据科学家。让人人都具备数据科学家的能力，这才是数据科学家真正的卓越之处。

来源：桃树科技授权发布

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

如何成为一名卓越的数据科学家 ——桃树七剑之二：数据准备

相关文章