2016年大数据大事记

2017年已经来临，让我们盘点一下2016年大数据分析领域发生的大事件，摸清过去一年的脉搏，展望未来一年的趋势。

至少可以说，2016年是大数据风起云涌的一年。没人知道2017年将发生什么，但这不会阻止我们对新的一年作出各种预测。以下是最具有轰动效应的一些项目、事件和趋势，它们使2016年成为了大数据年。

商业智能（BI）领袖衰落

2016年2月，红极一时的BI和可视化工具提供商Tableau发布财报，业绩令人大失所望，其市值在一天之内被腰斩。这预示着2016年的BI市场将动荡不安。几个月后，风暴再起，Qlik Technologies的股价暴跌一半多，在2016年6月被Thoma Bravo以大约30亿美元的价格收购。

虽然Tableau和Qlik一直都是一流的工具，但它们曾经一马当先的领先距离已经大幅缩小，因为微软（Microsoft）、Microstrategy、Alteryx、Birst、Domo、Sisense、Gooddata和其他公司纷纷推出了价格更低、性能强大的BI工具。市场调研公司Gartner的《2016年BI和分析平台魔力象限》报告记录了不少于24家公司（其中甚至还没加上BI新星Zoomdata）。Gartner表示，BI市场已经达到“临界点，需要我们从新的角度来思考”。

人工智能（AI）崛起
谷歌（Google）旗下的DeepMind公司开发了AlphaGo系统，在围棋比赛中战胜人类顶尖棋手。按照英伟达（Nvidia）一位产品经理的话说，这场人机大战堪称AI技术的“宇宙大爆炸”时刻。从Siri和Alexa等AI驱动的聊天机器人，到自动驾驶汽车，无数消费者渐渐意识到AI带来的巨大好处。

我们也看到了新的AI服务面世，包括2016年11月互联网巨头亚马逊（Amazon）在AWS re:Invent大会上发布的Amazon AI。2016年10月，加州大学伯克利分校宣布，曾经发明Apache Spark等多项大数据技术的AMPLab实验室将被替换为RISELab实验室，后者将致力于AI和自动驾驶汽车等应用。这为AI正在吞没和超越大数据概念的想法提供了更多佐证。

Hadoop十岁了

2016年1月底的一天是首个Hadoop生产集群在雅虎（Yahoo）诞生的十周年纪念日。雅虎工程师们最初只希望这个10节点的集群能够持续运行一整天，根本没想到Hadoop后来会成为大数据计算的代表，每家财富100强企业必备的IT工具。

Hadoop的成功无疑超出了道格·卡丁（Doug Cutting）的期望，这位Cloudera公司架构师和迈克·加法雷拉（Mike Cafarella）共同创造了Hadoop。在Strata + Hadoop World大会上一场广泛性的演讲中，卡丁说出了自己内心的疑惑：我们是否已经达到了“Hadoop顶峰”？未来十年的Hadoop会是什么样子？考虑到大数据界对Hadoop第三版（将使存储能力翻倍并引入纠删码）的开发兴趣寥寥，大数据技术又发展神速，因此很难说2026年的Hadoop会是什么样子，或者没什么变化也说不定。

Apache Spark大行其道

作为经济实惠的分布式计算开源框架，Hadoop无疑引起了技术人士的关注，他们以前使用昂贵的专有软件来处理庞大的数据集，费钱又费力。但如果说Hadoop的Java明星光环已经开始淡去，那么正在取代它的则是另一项可能更有前途的技术，那就是Apache Spark。

Apache Spark在大数据阶梯上的极速蹿升是一个非常值得注意的现象，不仅IBM等大公司纷纷拥抱该技术，而且几乎所有的BI和可视化工具提供商都使用这项基于内存的技术来进行批处理、交互处理和流处理。有些人认为，Spark在应用和受欢迎程度方面终将超越Hadoop，甚至已经超越。

Flink和Beam诞生

Spark基本上已经取代了Hadoop的批处理引擎MapReduce，更别说Spark的SQL、机器学习和流处理能力。但永不满足的大数据界希望改进这套得到Databricks公司支持、用Scala语言编写的多用途框架。于是Apache Flink和Apache Beam应运而生，成为了Spark在大数据框架之战中的劲敌。

2016年3月，Cloudera公司的卡丁向Data Artisans公司的Flink项目表达了敬意。当时他说：“Flink在架构设计上可能要比Spark好上那么一点点。”与此同时，基于谷歌Cloud Dataflow API的Apache Beam受到了Talend公司一位法国大数据架构师的支持。Beam雄心勃勃，想要用同一组API统一所有的大数据应用开发，并通过“Runner”这种执行引擎支持Spark、Flink和Google Dataflow。

历史性的民调失灵

毫无疑问，当今的政治民意调查已经成为应用统计（也就是“大数据分析”）的一个运用领域。以前，严谨的民意调查只需要通过白页上的选民名字和电话号码就可以进行。但现在，民意调查机构如果想从形形色色的选民中获取具有代表性的样本，就必须建立细致的权重模型。

民意调查机构未能就2016年6月的“英国脱欧”公投准确评估选民情绪。如果说这还只是让人感到意外的话，那么唐纳德·特朗普（Donald Trump）在11月份的总统选举中击败希拉里·克林顿（Hillary Clinton），与几乎所有的政治民意调查结果截然相反（只有一项调查例外），则可以说是大数据分析在2016年甚至可能是近十年来的最大惨败。

大数据黑客入侵

数据明显具有价值，无论保险公司和会计师怎么说。所以坏人会想要窃取个人和企业的数据也真的去窃取了，完全不足为奇。2016年发生了多起引人注目的数据泄露事件，比如美国民主党全国委员会的电子邮件服务器被攻陷，雅虎10亿用户的数据被黑。而这还没算上雅虎曾在2016年9月承认，黑客入侵了该公司5亿用户的账户。

IdentityForce制作的“2016年网络安全耻辱墙”上还包括：美国司法部（3万名DHS和FBI职员的数据失窃）；美国国税局（70万名纳税人的记录泄露）；威瑞森（150万客户的记录泄露）；甲骨文（33万台MICROS收银机被入侵）；Dropbox（承认6,800万个账户被入侵）；AdultFriendFinder.com（4.12亿用户的记录泄露）。

新的数据初创公司

2016年对大数据的风险投资较2015年减少了大约10%，但这没有阻止科技创业者成立新公司，希望挖到大数据金矿。2016年的新来者包括：

·SnappyData，致力于统一Spark和Pivotal的GemFire数据网格；

·Panoply，为AWS Redshift 用户开发ETL 软件；

·Cosmify，利用机器学习挖掘客户信息；

·Bonsai，这家AI公司在Strata + Hadoop World大会上赢得了创业展示比赛；

·Armorway，利用深度学习实现网络安全；

·Leyvx，将Flash和Spark结合起来；

·Jask，利用AI进行网络安全分析；

·Alluvium，致力于缩小“机器与人”的差距；

·Pachyderm，这家容器公司在Strata + Hadoop World大会上赢得创业展示比赛；

·Skry，区块链智能供应商；

·Wavefront，利用大数据来监控IT。

实时Kafka

人人都喜欢的大数据总线Apache Kafka在2016年如鱼得水，这要归功于对分析高速移动数据的新要求。Kafka才面世五年，但这部由LinkedIn开发的消息队列系统已经成为管理流数据和实时数据管道的事实标准。

Kafka由杰伊·克雷普斯（Jay Kreps）和尼哈·纳赫德（Neha Narkhede）创造，得到了两人领导的Confluent公司团队的支持，是2016年最受欢迎的大数据项目之一。由于人们对实时分析的兴趣高涨，这个开源项目的采用率正在飙升。随着批处理范式不断与实时数据处理相融合，如果克雷普斯的Kappa架构超越目前流行的Lambda架构，请不要感到惊讶。

开源数据项目

并非所有的大数据产品都是由盈利性企业开发。最有前途的新技术很多都是开源项目。2016年引人注目的开源大数据项目包括：

·ApacheArrow：该项目由MapR Technologies公司的一位Drill架构师带头，旨在建立一个通用数据层，兼容各种各样的大数据工具和引擎，比如Drill、Spark、Impala、Cassandra和Parquet；

·Alluxio：这是基于内存的文件系统（原名Tachyon），与Apache Spark和Apache Mesos一样，也出自AMPLab实验室，现在得到一家同名公司的支持；

·ApacheBeam：这是很有前途的大数据框架，其目标之一是用同一组API进行实时交互的批处理，并且通过“Runner”支持Spark、Flink和Google Dataflow；

·CrateDB：遵守Apache 2.0协议，是可扩展的SQL数据库（有些人称之为NewSQL数据库），用于实时机器分析；

·ApacheKylin：这个基于Hadoop的开源引擎提供联机分析处理（OLAP）能力，在2016年全年都是Apache软件基金会（ASF）的顶级项目（TLP）；

·ApacheGeode：2016年11月，ASF把分布式内存数据库Geode 提升为TLP 级别。

大数据用于社会公益

现在，大数据分析已经遍地开花，既存在于我们购买的产品中，也存在于我们使用的网络服务和我们通信的方式中。但值此辞旧迎新之际，我们必须提醒自己要从人性的角度出发，静下心来好好想想如何终结人类的苦难。

为此，我们应该看到大数据对社会进步的积极作用，而不只是赚钱。在2016年，大数据被Polaris等团体用来打击人口贩卖，把罪犯绳之于法。撰写“巴拿马文件”调查报告的记者使用云分析和图形数据库等大数据技术，来剖析和披露离岸避税行为。

大数据为公众健康作出贡献的例子不胜枚举，包括美国疾病预防控制中心利用机器学习来阻止阿片类物质引发的HIV爆发，Spark和Hadoop加快癌症研究，拓扑数据分析促使研究人员重新思考“干扰变量”对治疗外伤性脊髓损伤意味着什么。