数据科学家同样是一个很好的职业。举例来说,这是一个能够给组织带来战略性优势的新角色(同时,不是很多人都会接受相应的训练)。根据Indeed.com的数据,对于具有相同工作年限的求职者,数据科学家所能获得的薪水相当丰厚,在一般情况下都好于其他的IT职业。此外,数据科学家还有机会发展自己各方面的技能,使自己成为一个多面手,能够有机会与行业或是科技界的各种各样的人打交道。尤其在金融风暴时期,技术专才求职会变得特别困难,而经受过数据科学的训练就凸显出其价值了。
那数据科学与大数据之间又有何关系呢?
我们今天面临着诸多来自大数据和其他数据分析带来的困难,而数据科学正是对这些挑战的回应。这里我们简要剖析了一下大数据,但那仅仅是“冰山的一角”。事实上,围绕着大数据,能说的太多了,单凭本文仍无法得其全貌。但是,你能够通过本文认识到大数据在今时今日的重要性。更重要的是,能让你拨开大数据的迷雾(过去几年里日益弥散的炒作),让你明白数据科学的重要性。
大数据是当今商业的基础资产。大数据以及大数据相关的技术能够得到这么广泛地利用绝不是巧合,现今的诸多行业要么正用着大数据,要么准备要去用大数据。尽管关于大数据的各种炒作甚嚣尘上,但大数据并不是昙花一现。对这些资源善加利用会带来诸多优势,而目前这种资源的日益丰富也是值得关注的信号,不仅要用,而且要快!也许在某些行业里,大数据还不能带来价值,因为这些行业的数据非常混乱,甚至不存在数据。而那些拥有数据并对数据善加利用的人,会在当今竞争激烈的经济环境下占得先机并立于不败之地。
一、深挖大数据
大数据含有与我们身边的业务难题息息相关的丰富信息。举例来说,如果你是一个电商公司的经理,你就可以在你公司网站上收集到关于你客户和访客的丰富信息,若能对此善加利用,你就能够增加公司的销售额、提升网站设计并改善客户服务,它还能为你提供市场策略和提升公司的整体策略的建议。这些都是由居住在你的服务器中的0和1实现的。你只需要从你的资源中分出一小部分,并从这些数据中间提炼出信息。这当然不是一桩赔本买卖,我们稍后会再回到这个例子。尽管有些网络数据披着大数据的外衣,但并不是每一种数据融合都可以叫做大数据。这主要是因为大数据的4个V特性。
图1 大数据的4个V特性
如我们之前所看到的,它们有如下几个特性。
- 体量(Volume):大数据由大量数据组成,从几个TB到几个ZB。这些数据可能会分布在许多地方,通常是在一些连入因特网的计算网络中。一般来说,凡是满足大数据的几个V的条件的数据都会因为太大而无法被单独的计算机处理。单单这一个问题就需要一种不同的数据处理思路,这也使得并行计算技术(例如MapReduce)得以迅速崛起。
- 高速(Velocity):大数据是在运动着的,通常处于很高的传输速度之下。它经常被认为是数据流,而数据流通常是很难被归档的(考虑到有限的网络存储空间,单单是高速就已经是一个巨大的问题)。这就是为什么只能收集到数据其中的某些部分。如果我们有能力收集数据的全部,长时间存储大量数据也会显得非常昂贵,所以周期性的收集数据遗弃一部分数据以节省空间,仅保留数据摘要(如平均值和方差)。这个问题在未来会显得更为严重,因为越来越多的数据正以越来越快的速度所产生。
- 多样(Variety):在过去,数据或多或少是同构的,这种特点也使得它更易于管理。这种情况并不出现在大数据中,由于数据的来源各异,因此形式各异。这体现为各种不同的数据结构类型,半结构化以及完全非结构化的数据类型。结构化数据多被发现在传统数据库中,数据的类型被预定义在定长的列字段中。半结构化数据有一些结构特征,但不总是保持一致(举例来说,看一看JSON文件),使得这种类型难以处理。更富于挑战的是非结构化数据(例如纯文本文件)毫无结构特征可言。在大数据中,更常见的是半结构化数据,而且这些数据源的数据格式还各不相同。
在过去的几年里,半结构化数据和结构化数据成为了大数据的主体数据类型。
- 准确(Veracity):这是一个在讨论大数据时时常被忽略的一个属性,部分原因是这个属性相对来说比较新,尽管它与其他的属性同样重要。这是一个与数据是否可靠相关的属性,也就是那些在数据科学流程中会被用于决策的数据(而这不同于与传统的数据分析流程)。精确性与信噪比(signal-to-noise ratio)有关。例如,在大数据中发现哪些数据对商业是真正有效的,这在信息理论中是个十分重要的概念。由于并不是所有的数据源都具有相等的可靠性,在这个过程中,大数据的精确性会趋于变化。如何增加可用数据的精确性是大数据的主要挑战。注意,即使有些数据拥有这4种属性中的一种或多种,也不能被归类为大数据。大数据拥有以上全部4种特性。大数据是一个重要课题,因为它并不容易处理,即使是对于一台超级计算机,也很难独自有效地展开分析。
在我们最开始的案例中,一个你会面临的典型数据集可能会有以下性质。
数据量会非常大,并伴随着更快的增长趋势,特别是如果你的网站在监控访问者的各方面行为时。这些数据会很轻易地在一年之内达到几个TB。
由于访问者来来去去以及不断有新的访问者加入,数据会持续流动。这会变成在你服务器上连续的网络活动,也就是从网站中涌入你的服务器日志的数据流。
这些从访问者身上收集来的数据会有很大的不同,从简单的网站统计数据(例如在每一页上所花费的时间、访问总时间、访问了哪些页面,等等)到在网站中输入的文字(假设你有一些评论系统,例如大多电商网站)以及其他类型的数据(例如,消费者对各类商品的评分以及交易记录, 等等)
很自然地,并不是你在服务器上所观察到的一切都是值得信任的。有一些访问可能来自于黑客的机器人或者是来自于一些用户的不良目的,而有部分访问者可能是你的竞争者,正在暗中观察你!一些访问者会在他们的评论中写错别字,或是因为一些原因留下一些随意的或是无用的信息。即使你有一些过滤系统,你的网站上不时地收到一些无效数据也是不可避免的。
基于以上所有的观察,你还认为你在公司处理着大数据吗?为什么?如果你理解了上面说的这些概念,你应该自信并正面回答这些问题。每一个描述这个公司的数据情形的要点都与这几个V中的某一个有关。
二、大数据产业
很自然地,并不是所有的行业都会被大数据运动施以相同的影响。基于这些公司在多大程度上依赖他们的数据以及数据会给予他们多大程度上的回报,他们可能视大数据为一座金矿,或者一项可有可无的投资。根据最近的统计,下面一些行业已经从中受益,或资产中的大部分即将受益于大数据。
- 零售业(特别是在提高生产力方面)
- 电信业(特别是在提高收益方面)
- 咨询业
- 医疗护理
- 航空运输
- 建筑业
- 食品加工
- 钢铁以及广义上的制造业
- 工业设备
- 汽车产业
- 客户关怀
- 金融服务
- 出版业
- 物流行业
注意,收益并不总是直接与盈损有关,但绝对具有不可忽略的商业价值。例如,通过在健康护理行业部署大数据技术,医生可以调取过往资料以更好地了解病人的情况,从而做出更好的诊断,并提供更好的护理服务。这最终可以产生更有效率的医疗体系,并通过智慧地使用由数据导出的有价值的信息来降低医疗成本。
另一个案例来自于客户关怀,在这里大数据可以帮助改善糟糕的用户体验。通过有效地利用大数据技术,公司可以接近实时地得到用户喜好以更好地了解客户。这可以帮助调整从业者对待这些客户的策略,并给予他们一个提升未来服务的更佳的视角。
注意,仍有大量的行业具有从大数据中获得价值的潜力,但是基于他们现在的状态,这也许并不是一个值得他们投资的选项。例如说,艺术产业是一个难以在大数据中做大的行业,这源于他们所具有的数据只限于艺术品描述以及一些艺术品的数字化形式。但是,这也很可能在未来会改变,这取决于艺术家们如何采取下一步行动。举例来说,如果某一个画廊开始使用传感器来观察某一件画作前的人数,并且与其他的数据合并在一起(例如,有多少人也买了同样展出这件作品的其他展览的票),他们可以慢慢地建立起一个大数据库,包含传感器信息、票务销售信息,甚至是顾客们对画廊博客中对各种画作的评论。
所有这些都是隐晦地告诉人们哪些艺术品更有人气,从而产生了许多有用的信息。同样这些信息,对于画廊来说,也可以提供最合适的画展的票价。这些都很棒,但哪些会真正对你产生价值呢?你看,更高的利润空间以及更显著的生产力提高并不会自己发生。那种认为安装一个大数据包然后再分配一些任务给员工(即使是受过训练的员工)就可以获得显著收益的想法是很幼稚的。为了利用大数据,公司需要雇用那些可以成功地把表面上看起来混乱的数据变成有效(可操作)信息的员工。所有的数据科学家都会被要求去解决这样的问题,同时,这也是推动数据科学领域发展的众多驱动力中的一个。
三、数据科学的诞生
数据科学领域起源于揭示大数据中潜在的价值,以及克服之前提及的4个V的挑战。这在过去是可以通过组合先进的现代计算设备达到的。特别地,并行计算、复杂数据分析流程(主要是通过机器学习)以及低成本的强劲计算能力使这种需求变成可能。此外,在不远的将来,不断加快的IT基础架构以及技术进步将使我们可以产生、收集以及处理更多的数据。通过这些,数据科学可以凭借智能化应用以及发展和使用这些技术的创新能力在技术层面上处理大数据难题。这也就是说,大数据在一定程度上是可以被管理并至少能够提供一些有价值的信息,而这则是大数据是值得花时间精力投入进去的原因。
认识到数据科学并不是一种时尚是很重要的,而是在未来会得到迅速发展的领域。如果你曾是互联网时代的一个IT专家,你可能会觉得大数据仅仅是一个风潮或是一个奢侈品,但那些真正发现大数据的真实和潜在价值的人是可以从中发现其盈利的可能的。
想象一下成为第一批学习HTML、CSS和JavaScript的人,或者是第一个制作数字图像用于网站设计的人。这就像拿着一张得奖的彩券,尤其是如果你对自己的工作非常在行的话。这就是今天的数据科学。如果没有那么多人分享大数据的收益,它现在也不会这么出名。当然,大多数从业者和众多学生并没有注意到数据科学到底意味着什么。
如果你理解了前文所述及的大数据的各种事实,你就应该能理解数据科学是用来应对日趋严峻的问题的解法。如我早前所说的那样,这个问题反映了大数据的4个V属性,使传统方法陷入困境的属性。由于技术发展,在未来10年,数据科学也必然会变得更加健壮完善、更加多样。已有一些研究项目在全球出现,也同时有许多业内知名的研究者发表关于数据科学主题的论文。这并不是巧合,它表明了基础架构知识以及如何操作的发展趋势,而这些也会滋养这个领域的发展。至于数据科学的诞生时间已经不可考了(有一些人在这个领域的研究已经超过好几十年了),但第一次在正式会议中吸引关注是1996年在IFCS发表的《数据科学、分类以及相关方法》(Data Science,Classification and Related Methods)。直到2005年,“数据科学家”这个名称才第一次出现在文章中。特别是,在文章发表的那年,数据科学家被定义为“信息和数据科学家、数据库及软件工程师以及程序员、学科专家、博物馆馆长和专业注解者、图书馆管理员、档案管理员以及其他一些对成功管理数字化数据集的关键人物”。在2009年6月,数据科学家这一职务的重要性变得更加明显,正如Nathan Yau在FlowingData发表的文章《数据科学家的崛起》(Rise of the Data Scientist)一文中说的那样。自此,在数据科学方面的文章和引用得以快速增长。看看现在有多少会议是以这个名义组织的,这不只发生在学术界,同样也发生在工业界。不仅如此,由于许多在各自领域处于领导者的大公司(如亚马逊)都在各自的工作流程中使用了数据科学,这个趋势很可能会持续下去。同样,由于数据科学家这个职位适合于千变万化的数据世界需求,它也正变得包含许多新特征(如前沿数据分析技术的应用),而不再是一些原始需求了。
四、要点
- 大数据是一个最近发生的现象,具有大规模的数据、快速移动、各种各样的从结构化到非结构化的数据结构(以及在两者中间的其他结构),以及各不相同的可靠性的特点。这常常被引用为大数据的4个V的维度:体量、高速、多样以及精确性。
- 由于这4个V的维度,处理大数据是一个极具挑战性的难题。数据科学是我们对于大数据挑战的应对之法。
- 数据科学家是那些将数据整理出规则的人。通过利用最新的技术和原理,他们可以从中导出可操作的信息,通常是推出一个数据产品。
- 大数据在各行各业都会产生;利用它们可以在包括提速生产力以及增加收益方面产生可观的效果。
- 数据科学诞生了有超过20年的历史,但直到最近才起飞,这源于相关技术的开发(并行计算、智能数据分析方法以及低成本的强大计算能力)。
- 数据科学家的职务第一次在文章中出现是在2005年,而它在2009年开始变得炙手可热。在哈佛商业评论的一篇文章中,数据科学家被称为21世纪“最迷人”的职业。
- 数据科学被认为还有继续发展的空间,包括在商业价值、技术、可用知识和原理,以及在未来几年的人气方面。
以上内容节选自《数据科学家修炼之道》。
来源:异步社区
链接:http://www.epubit.com.cn/article/485
作者:Zacharias Voulgaris 博士在希腊出生并长大。在读完了克里特理工大学5 年的工程学位后,他攻读了伦敦城市大学的信息系统与技术的硕士学位。之后,在伦敦大学伯贝克学院的 G.Magoulas 教授与B.Mirkin 教授的联合指导下,他获得了博士学位。此后,他受聘于乔治亚理工大学并成为研究员,一直从事数据科学家的相关工作。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。