数据科学极简史（一）

数据科学家如何变得性感的故事，大致也就是作为成熟学科的统计学如何与新兴学科计算机科学发生关系的故事。“数据科学”这个术语的出现较晚近，用来指代一个需要解读大量数据的职业。但解读数据这件事的历史很长，它已经被科学家、统计学家、图书馆员、计算机科学家以及其他人士讨论多年。下文的时间线追溯“数据科学”一词的演化，以及它的应用、对它进行定义的尝试和一些相关的术语。

1962年John W. Tukey在《数据分析的未来》（“The Future of Data Analysis”）中写道：“长久以来我以为我是一名统计学者，对于从特例中获得关于总体的推断抱有兴趣。但当我目睹了数理统计学的发展，我产生了猜想与怀疑…我开始感到我根本的兴趣在于数据分析…数据分析，以及与之相关的一部分统计学，必须…担负更多科学的特性而非数学的特性…数据分析本质上是一门经验科学…预设程序的电子计算机…究竟有多重要呢？在许多情况下，答案是令人惊讶的：重要但不是至关重要，而在其他情况下计算机无疑是至关重要的。”1947年Tukey创造了“比特（bit）”这个术语，这个词在1948年被Claude Shannon used用于《传播的数学理论》（“A Mathematical Theory of Communications”）一文中。1977年，Tukey出版了《探索性数据分析》（Exploratory Data Analysis），他在书中提出，应该更重视利用数据做出哪些假设需要被测试的建议，以及，探索性的数据分析和论证性的数据分析“能够且应该并驾齐驱”。

数据科学极简史（一）

1974年Peter Naur在瑞典和美国出版了《计算机方法的简要调查》（Concise Survey of Computer Methods）。这是一项有关当时使用的数据处理方法的调查，其中包含许多种应用。此书遵循国际信息处理联合会的《数据处理概念与术语指南》（IFIPGuide to Concepts and Terms in Data Processing）中对“数据”的定义：“（数据是）对于事实或想法的一种规范化表现，它须能以某种形式被传播或操作。此书的前言中提到，在1968年一份题为《数据学：数据和数据处理的科学及其在教育中的地位》的课程计划曾在国际信息处理联合会展示。Naur为数据科学提供了如下定义：“在数据形成后，处置数据的科学。而数据与其所代表的东西间的关系属于其他领域与科学的范畴。”

1977年，国际统计计算联合会（The International Association for Statistical Computing(IASC)）作为国际统计研究院（ISI）的一个分支成立。“国际统计计算联合会的任务是把传统统计方法、现代计算机技术和各领域专家的知识连接到一起，以将数据转化为信息和知识。”

数据科学极简史（一）

1989年Gregory Piatetsky-Shapiro组织并主持了第一届数据库知识发现（Knowledge Discovery in Databases (KDD)）研讨会。1995年，它成为了国际计算机年会有关知识发现与数据挖掘的SIGKDD 会议。

1994年9月，商业周刊发表了一篇关于“数据库营销”的商业报道：“企业收集了大量有关你的信息，并使用这些知识提炼成营销信息精确瞄准你…八十年代对扫码器的热潮在大范围的失望中结束：许多公司被数据总量淹没却无法获得有用信息…不过，许多公司相信，除了勇敢站在数据库营销的前线以外他们别无选择。”

1996年国际分类协会联盟（International Federation of Classification Societies(IFCS)）在日本神户举行双年会。“数据科学”这个术语首次被包含在会议的标题里（“数据科学，分类和其他相关方法”）。联盟于1985年由六个国别/语言的分类组织共同成立，其中之一的“分类协会”（The Classification Society）成立于1964年。这些分类协会在其出版物中大量使用数据分析、数据挖掘、数据科学等术语。

数据科学极简史（一）

1996年Usama Fayyad、Gregory Piatetsky-Shapiro、Padhraic Smyth 出版了《从数据挖掘到数据库中的知识发现》（“From Data Mining to Knowledge Discovery in Databases”）。他们写道：“过去，从数据中寻找有用模式这件事曾被赋予很多名字，包括数据挖掘、知识提取、信息发现、信息收获、数据考古、数据模式处理…在我们看来，KDD（数据库中的知识发现）指代从数据中获得有用知识的整个过程，而数据挖掘指代其中一个具体环节。数据挖掘是应用特定算法从数据中提取模式…KDD过程中的其他步骤，例如数据准备、数据选择、数据清洗、与合适的已知知识的结合、对挖掘结果的正确解读对于保证从数据中获取有用知识都很重要。盲目应用数据挖掘方法（在统计文献中被批评为“数据挖泥”(data dredging)）可能是危险的，会得出无用的发现和无效的模式。”

1997年C. F. Jeff Wu教授（现就职于乔治亚理工大学）在密歇根大学统计系H. C. Carver主席的就职典礼上倡议，统计学应被重命名为数据科学，统计学家应被重命名为数据科学家。

1997年《数据挖掘与知识发现》（Data Mining and Knowledge Discovery）期刊发行。这两个术语的顺序意味着“数据挖掘”地位的上升，并成为更流行的描述“从大数据库中提取信息”的方式。

1999年12月，沃顿商学院Knowledge@Wharton的《从数据中挖掘知识的金块》引用了Jacob Zahavi 的说法：“传统统计方法在小数据集上工作良好。但今天的数据库有上百万行和大量的列…可拓展性成了数据挖掘的一个大问题。另一个技术挑战是开发出能更好分析数据、发现非线性关系和元素间联系的模型…对于网站决策可能需要特殊的数据挖掘工具。”

2001年William S. Cleveland出版了《数据科学：一份扩展统计领域技术领域的行动方案》（“Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics”）。这份计划“要扩大统计学领域的技术工作主要领域。这份计划雄心勃勃包含本质性变化。变化后的领域被称为‘数据科学’。”Cleveland把这个新领域定位在计算机科学与当代数据挖掘工作中：“…数据分析师收益有限。因为计算机科学家思考和分析数据的方法有限，就如同统计学家关于计算环境的知识有限。知识的融合会带来巨大的生产力革新。这意味着统计学家应多注意有关知识的计算，就如同过去数据科学对数学注意 … 数据科学系应该由致力于提升数据计算的成员和与计算机科学家合作的成员组成。”

2001年Leo Breiman出版了《统计建模：两种文化》（“Statistical Modeling: The Two Cultures” ）：“在使用统计模型从数据中提取结论的过程中有两种文化。一个假定数据是由一个特定分布模型生成的。另一个使用算法模型，并把数据结构看作未知的。统计学界普遍致力于仅仅使用针对数据的模型。这种投入产生了无意义的理论、值得怀疑的结论，并让统计学家无法触及大量现实问题。算法模型，在理论与实践中，在统计学之外快速发展。它既可以被应用于庞大复杂的数据集，也可以在小数据集上建立精确信息量大的模型。如果我们这个领域的目标是使用数据解决问题，那么我们需要摆脱对纯粹基于数据模型的依赖，并使用更多样的工具。”