性感事物方面的权威《哈佛商业评论》宣布,“数据科学家” 是二十一世纪最性感的职业。所谓性感,既代表着难以名状的诱惑,又说明了大家都不知道它干的是什么。
不管老板懂不懂数据科学家是干什么的,反正最近几年这个岗位的需求数正在快速攀升
Indeed.com 的数据可以为证
但是其性感在什么地方?什么是数据科学家?他们是科学家吗?还是工程师?程序员?抑或是一个商业决策与创新者的新血统?
Indeed.com 的数据没有反应出来的一个事实是,尽管这个职业对应的学科在学术界经过长期的酝酿,但终究没有成立为一个新的学科。而这段时间很长的学术孵化期,也许跟今天的数据科学实践有着很大的关系。
我们首先来简要回顾一下这段历史。早在上世纪六十年代,Peter Naur 就首次提议要用 “数据科学(data science、Datalogy)” 来替代 “计算机科学(computer science)”,后来在上世纪九十年代中期为国际分类社团联盟所用。2001年,William S.Cleveland 提议将其设立为一个新的学科,吸收 “计算在数据方面取得的进展” 作为统计学的延伸。《数据科学(
Data Science Journal)》及《
The Journal of Data Science》分别于 2002年 与 2003年 发行.2005年,国家科学委员会发表了《数字数据收集万岁:促进二十一世纪的研究与教育》,文中将数据科学家定义为 “信息与计算机科学家,数据库与软件工程师及程序员,学科专家,成功管理数字数据收集的关键人物。”
到了本世纪头十年的中期,数据科学不再屈尊于仅列为其他学科的细目清单,开始走出学术殿堂。从学术迈向新职业走出的这半步是 Troy Sadkowsky 于 2009年 完成的。他在澳大利亚的一个学术性岗位工作,但却有一个 “科学性程序员” 的头衔,其职责是开发支撑大规模、“大数据” 科学性研究的应用。2009年 一月,数字化数据跨机构工作组发表了一份名为《驾驭科学与社会数字化数据之力》的报告,Sadkowsky 从中了解到 “数据科学家” 这个词,认为该词是自己所从事工作的最好描述。2009年6月,他在 LinkedIn 建立了一个数据科学家小组作为其 datasceintists.com 网站的辅佐。
但是数据科学从学术向行业的大规模迁移此前早就在美国发生了,那时候 Web 公司正在开发大数据技术,需要定量分析员对其收集得海量数据进行挖掘利用。那些不愿呆在象牙塔里的数量分析专家都会跑到华尔街。不过 2008年 的时候这个地方的诱惑力下降了。Greylock Partners 的数据科学家 D.J. Patil 跟 Jeff Hammerbacher 一起在 Facebook 和 LikedIn 上建立了数据与分析小组,这一举动被视为是数据科学走向职业化的标志,小组的职能是致力于对业务能够产生即时的、大规模影响的数据应用。所谓数据科学家就是运用数据和科学创造新东西的人。
而数据科学家这个职位的头衔则是 2009年 由 Natahn Yau 首次提及的,他认为数据科学家就是能够从大型数据集中析取出数据,并提供某些可供非数据专家使用的东西的人。
数据科学家、创业家 Mike Driscoll 则认为数据极客有三个性感之处:建模、转换、可视化。而一种比较有诗意的表述方式是:数据科学家好比是哥伦布遇上科伦坡,目光如炬的探险家与怀疑一切的大侦探的合体。
而在《数据科学家:二十一世纪最性感的职业》一文中,设计 LinkedIn 的 “你可能认识的人” 功能的数据科学家 Jonathan Goldman 的工作也许是对数据科学家工作方式的最好诠释:首先构建理论、印证预感,然后寻找出模式,对应该推出某人的哪一个网络做出预测。文章最后对数据科学家的工作进行如下概括:
数据科学家做的,就是在数据中遨游的同时进行探索,其显著特点是强烈的好奇—他们渴望寻找问题核心,追究问题实质,并把这些东西提炼为一组非常清晰、可以验证的假设。这往往会让人联想到这些都是任何一个领域最有创意的科学家所具备的特质,很显然,科学家这个头衔适合于这一新兴角色。他们实现价值提升并不是靠做报表或者 PPT 给高管,而是靠在面向客户的产品与流程方面所做出的创新。
不过,这一大段的阐述仍然不够简洁明了,在上述观察的基础上我们来给出一个数据科学家的简明版定义:
数据科学家就是采用科学方法、运用数据挖掘工具寻找新的数据洞察的工程师。
科学办法就是构思假设、测试想法、精心设计实验、经由他人验证,这些是他们从统计身上掌握的知识,经科学训练出来的经验。而工具的运用则是来自其工程经验,或者更确切地说来自于其计算机科学与编程背景。最好的数据科学家是产品与流程的创新者,有时候还是新的数据挖掘工具的开发者。
何谓性感,这就是。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。