大数据与机器学习2016年中盘点

前言：

转眼间，公元2016年已经过半。人类在大数据和机器学习领域又取得了诸多进展，让我们共同回顾一下。

本文将分以下几个部分进行盘点。

一、里程碑事件
二、开源项目（国际篇）
三、业界动态（国际篇）
四、开源项目（国内篇）
五、业界动态（国内篇）
六、下半年展望
七、周报集锦

里程碑事件

Hadoop 10岁了！

Hadoop诞生10年了。2006年1月28日，Doug Cutting和Mike Cafarella从他们的开源网络爬虫项目（Apache Nutch）中分离出分布式文件系统以及MapReduce设施，把它当作一个子项目，并称其为Hadoop。Doug Cutting发表了Apache Hadoop at 10，他动情地回顾了自己与Hadoop故事，并提出了对未来的展望。

开源项目（国际篇）

Facebook

4月为Facebook Messager发布了基于bot的开发者平台：聊天机器人的目标是最终取代应用。用户不再需要在自己的设备上安装各种应用，而是使用Messenger来和各种的聊天机器人交互，从而完成各种任务，目前这些任务都是通过触屏界面由各种应用完成的。聊天机器人主要是依赖语音信息以及人工智能来完成指令
5月第一次正式介绍了FBLearner Flow，这是一个可以为全公司员工管理机器学习模型的机器学习软件。换句话说，这是一个可以自己制造人工智能的人工智能，你可以理解为传说中的人工智能母体
6月
- 开源深度学习框架 Torchnet，相比其他巨头自己搭建的深度学习框架，Torchnet 更加开放，也将大幅推进深度学习的应用普及
- 发布文本理解引擎DeepText，Facebook表示，DeepText能够以“接近人类的精确度”，理解人们的聊天内容。另外，依托后台的计算能力，这一工具每分钟能够分析、识别数千条网友评论或是聊天内容。在语种方面，这一工具已经能够分析20多种语言

Linkedin

3月开源数据挖掘软件WhereHows：从商业角度讲，WhereHows的目标是从分布式的多种元数据中进行挖掘
4月开源Hadoop 和Spark的性能监控和调优工具——Dr. Elephant：LinkedIn宣布开源Dr. Elephant，Dr. Elephant能够很好地帮助用户理解、分析和优化Hadoop和Spark的工作流。LinkedIn在去年第八届Hadoop Summit上第一次在社区呈现。
6月
- 开源分布式对象存储系统 Ambry，Ambry是一个是不可变对象的存储系统，非常易于扩展，它能够存储KB到GB大小的不可变对象，并且能够实现高吞吐和低延迟，该系统支持跨数据中心的双活部署，并且存储成本低廉。它特别适于存储各种媒体内容
- 开源机器学习库Photon：Photon机器学习支持Apache Spark，通过结合Spark快速处理海量数据的能力和强大的模型训练和诊断工具，Photon机器学习提供给研究型工程师更多的信息来决策使用哪类推荐系统算法

Amazon

5月开源深度学习框架DSSTNE：亚马逊对于这套软件的性能很有信心，声称在亚马逊的云计算平台上，DSSTNE 比谷歌等竞争对手的计算速度快了 2.1 倍

Google

2月发布TensorFlow Serving开源项目——更快的将深度学习模型产品商业化：Google软件工程师Noah Fiedel在博文中介绍，“TensorFlow Serving是一个高性能、开源的机器学习服务系统，为生产环境及优化TensorFlow而设计。它更适合运行多个大规模模型，并支持模型生命周期管理、多种算法实验及有效地利用GPU资源。TensorFlow Serving能够让训练好的模型更快、更易于投入生产环境使用
3月发布云端机器学习和Tensor Flow的Alpha测试版本：Google发布了alpha版本的TensorFlow（TF）集成云端机器学习服务，为回应不断增长的大规模在Google云端平台（GCP）运行Tensor Flow库的需要
5月开源全球最精准自然语言解析器SyntaxNet：Google已经发布了开源的SyntaxNet自然语言神经网络框架，以帮助机器更好地理解自然语言。SyntaxNet中包括了Parsey McParseface，后者是一种专门用于“解剖”英语的语言解析器。Google称之为世界上最准确的语言解析器，并且已经放出了允许人们借助自有数据来训练SyntaxNet的全部代码

Twitter

5月
- 正式开源Heron：去年，Twitter对外宣布了新的分布式流计算系统Heron，随后消息称Twitter已经用Heron替换了Storm。据文中介绍，Heron支撑Twitter的所有实时分析业务已经有两年多了。它替代了之前使用的Apache Storm系统。Heron有很多架构方面的改进，而且向后兼容Storm生态系统
- 开源分布式高性能日志复制服务DistributedLog：DL是一个高性能的日志复制服务，提供了持久化、复制以及强一致性的功能，这对于构建可靠的分布式系统都是至关重要的，如复制状态机（replicated-state-machines）、通用的发布/订阅系统、分布式数据库以及分布式队列

其他开源

Apache Beam将统一大数据平台的开发：一直以来，大数据开发涉及到各种框架，比如，Hadoop、Storm、Spark和Flink等，基于这些框架的开发要求的技术栈都各不同，这对开发者来说开发成本比较高，在Beam的统一下可以实现写一个程序既能在Hadoop中运行又可在Spark中运行
Apache Apex成为Apache顶级项目：Apache Apex是基于Hadoop的流处理和批处理引擎，目前成为Apache顶级项目
Microsoft开源其深度学习工具包CNTK：CNTK是一个统一的深度学习工具包，它通过一个有向图将神经网络描述为一系列计算步骤。在有向图中，叶节点表示输入值或网络参数，边表示输入之上的矩阵运算。CNTK使得实现和组合前馈型神经网络DNN、卷积神经网络（CNN）和循环神经网络(RNNs/LSTMs)变得非常容易。实现了支持跨多个GPU和服务器自动分化和并行化的随机梯度下降（SGD）学习
雅虎开源可以提升流操作速度的DataSketches：就像在Venture Beat上所宣布的那样，雅虎开源了DataSketches，这是一个用Java编写的随机流算法库。DataSketches允许进行通常来说开销很大的操作，像计算变量不同的值在流中出现的次数，而且消耗的时间少，占用的内存小，误差可预测
雅虎开源CaffeOnSpark：基于Hadoop/Spark的分布式深度学习：雅虎认为，深度学习应该与现有的支持特征工程和传统（非深度）机器学习的数据处理管道在同一个集群中，创建CaffeOnSpark意在使得深度学习训练和测试能被嵌入到Spark应用程序
OpenAI发布开源人工智能研究工具集OpenAI Gym：该工具集用于开发和对比强化学习（RL）算法，这是现代机器学习研究的基础
DeepDetect——机器学习框架的API统一：DeepDetect是一个专为深度学习的开源API和服务。它的API简单直观、易用、通用和易扩展
联合国平行语料1.0版发布：联合国平行语料1.0版发布，包括阿英西法俄中六种语言，总共15个语言对，语料包含了1990-2014年的数据，规模都在1500万个句对以上

业界动态（国际篇）

人工智能再显身手，谷歌AlphaGo战胜李世石：Google旗下DeepMind出品的AlphaGo连胜三局（五局三胜制）战胜韩国职业棋手围棋九段李世石。这将是人工智能领域的又一里程碑事件
微软大手笔收购LinkedIn让谷歌压力山大，这个搜索巨头将选择如何应对？：收购LinkedIn后，微软相当于为自己的软件推销策略找到了一个能够加快“变现”的强大助力——一个容纳了超过400万用户的社会数据集
eBay大数据新动作：收购瑞典大数据公司：为了更好地组织产品数据以及使平台上产品更容易找到，eBay公司收购了一家专注人工智能，机器学习和大数据分析的瑞典公司
亚马逊AWS推出人工智能服务：与微软谷歌竞争：亚马逊举行发布会宣布，旗下云服务Amazon Web Services（以下简称“AWS”）增加人工智能服务，可以让开发者在应用中增加预测和分析功能
谷歌在欧洲创建新的人工智能团队，专注机器学习：谷歌在一篇博文里宣布，他们在欧洲建立了一个的新的人工智能研究团队，专注机器学习（ML）。欧洲的 Google Research （一个团队），以位于瑞士苏黎世的谷歌办公室为基地，这里也是美国以外谷歌最大的工程办公室的故乡
Microsoft 2016年Build大会：纳德拉将赌注押在人工智能上：在此次大会上，纳德拉的主题演讲以Cortana和人工智能为中心展开。他介绍了微软的Bot框架（Microsoft Bot Framework）和新的认知服务（Cognitive Services）等最新进展
Facebook 帝国：手握十年路线图，AI及VR将成两大支柱：规划展示了工程 + 研究的取向，可以预计Facebook会通过一些工程类的落地项目，不断积累数据、资金和用户，催生人工智能和虚拟现实产品，并最终改变人机交互形式
Google I/O 2016——人工智能真正的起点：这次发布会可以说是有史以来内容分布最广的一届，覆盖了人工智能、物联网、车载系统、搜索、广告、软件、移动系统和虚拟现实等多个热门的方向和领域
Twitter收购Magic Pony Technology，利用神经网络优化图片和视频：Twitter 在强化机器学习技术方面又迈出了重要一步，他们收购了Magic Pony Technology公司，帮助其在各渠道App上更好地提供图片和视频内容服务
Salesforce 收购人工智能创业公司 MetaMind：MetaMind 的通用平台能预测语言、视觉和数据库任务的结果
谷歌搜索集成RankBrain算法优化网页排名：据搜索引擎研究网站Search Engine Land报道，近日搜索引擎巨头Google为自家搜索服务深度集成了新型算法RankBrain。RankBrain算法是Google基于机器学习人工智能技术开发出来的最新算法，真正解决“看起来比较复杂、陌生或有歧义的语句搜索”，专门用来优化搜索引擎的网页排名
现在Google制造自己的芯片，Intel要发疯：Google的目标始终未变：空前的高效。为了让AI技术跃上一个新高度，他们需要一种能在更低能耗前提下，用更短时间完成更多任务的芯片。但这个芯片所产生的效果已经超越了Google帝国本身，甚至让Intel和nViaia这样的商业化芯片制造商的未来受到威胁，尤其是考虑到Google对于未来的愿景
英伟达20亿美元豪赌人工智能：20亿美元是什么概念？英伟达去年全年的营业收入也才50亿美元出头，所以英伟达用了几乎一半的全年收入投入到这一款芯片的研发中，这背后的原因是，英伟达看中了人工智能领域未来的发展
AWS发布关系型数据库迁移服务：这个按需使用的云服务支持实时的迁移场景，借助无模式的转换工具，在迁移过程中，用户可以使用该服务切换数据库平台
数据分析初创企业ThoughtSpot获5000万美元C轮融资：ThoughtSpot是一家商业智能软件提供商，总部位于加州PaloAlto，由准备上市的云计算公司Nutanix的联合创始人Ajeet Singh成立于2012年。ThoughtSpot号称是全球第一款关系型搜索引擎
新加坡大数据公司Lynx Analytics拿到1000万美元投资，但是他们早就盈利了：Lynx Analytics目前主要为企业提供大数据分析，运用图论理论将各种信息来源汇聚一起并施加分析，从而帮助企业精准刻画出其消费者画像，进而帮助企业推出客户所喜爱的产品并进行针对性地营销
谷歌新研究项目Magenta：利用人工智能创作艺术：Magenta用来探索利用人工智能来创作艺术，同时为开源人工智能平台TensorFlow的用户简化这一过程
网站和移动应用数据分析公司Amplitude完成1500万美元B轮融资：Amplitude是一家网站和移动应用数据分析公司，旨在帮助客户更好地驱动用户留存、活跃和转化
谷歌人工智能系统TensorFlow开始支持iOS：继2015年11月9日Google发布人工智能(AI)系统平台TensorFlow并宣布开源后，近日谷歌再次针对iOS系统平台发布了特别版TensorFlow。据称，特别版TensorFlow将首先登陆iPhone，届时iPhone将可以运行更为复杂的应用
内存数据库MemSQL获3600万美元C轮融资：MemSQL是一种分布式内存数据库，可提供对大数据的实时分析功能，能同时支持 SQL 与 JSON 非结构化数据，像Apache
Spark,、Kafka一样，MemSQL也支持大数据的实时分析。不过不同的是尽管MemSQL提供有免费版本的数据库，但它本身是不开源的

综合

Hadoop Summit 2016：2016年4月，都柏林的Liffey河畔，Hadoop Summit 2016在Convention会展中心盛大开幕。大会主要议程历时2天，有100多场演讲，与会者超过1400人。主要内容包括Apache Committer洞察、数据科学、运营管理、开发技术、数据商务、物联网、Hadoop未来几大系列。我们为您做了一些梳理，参见：Hadoop Summit 2016欧洲峰会开幕Keynote回顾，Hadoop Summit 2016会场回顾（二），Hadoop Summit 2016会场回顾（三），Hadoop Summit 2016会场回顾（最终篇）
Spark Summit 2016：Spark峰会是Spark领域内规模最大、最具影响力的工业会议。2016年的Spark峰会上，众多业界大咖为我们带来了Spark 2.0、机器学习、人工智能等方面的精彩演讲。参见：《Spark旧金山峰会侧记》
Google, Facebook, Amazon, Apple的人工智能之争——收购AI开发团队：在过去的三年内，已经有超过六成的人工智能开发公司陆续获得了赞助。就仅仅在 2016年，已经出现了4次重要的大型公司竞购
我们盘点了YC 投资的15个人工智能项目，发现了这3个特点：2016 年 YC 开始砸向人工智能了，我们盘点了 YC 投资的 15 个人工智能企业，并试图从中发现产业的趋势

开源项目（国内篇）

国内方面，目前在大数据和机器学习方面的开源较少，潜力巨大。比较令人振奋的大事是，去年阿里巴巴正式加入Apache基金会，并将JStorm项目捐赠给后者。Apache Storm 2.0将基于JStorm。JStorm是中国第一个进入Apache核心产品的开源项目，对于中国的开源发展来说意义重大。

百度开源其人工智能系统：Warp-CTC：该系统是一种在CPU和GPU上快速的CTC的并行实现。这项举动举动对于促进机器学习、人工智能领域的技术研究与发展与有重要意义
华为Carbondata成为 Apache Incubator（孵化器）项目》：Carbondata的目标是创建一种新的Hadoop文件格式，只用一份数据，满足多样化的数据查询需求，包括顺序读，OLAP查询，随机读

业界动态（国内篇）

巨头抢滩无人驾驶 “按捺不住”的百度将在美国测试无人车：百度首席科学家吴恩达接受采访时称，百度很快就将在美国测试无人驾驶汽车，希望能在2018年前推出无人驾驶商用车型
京东成立JDX事业部包含无人机及仓储机器人项目：京东JDX事业部囊括京东全自动物流中心、京东无人机、京东仓储机器人及京东自动驾驶车辆送货等一系列智能物流项目，对行业前沿、高端的智能设备、智慧系统进行研究与创新
滴滴机器学习研究院升级为滴滴研究院何晓飞任院长：目前，滴滴研究院的研究方向包括：机器学习、计算机视觉、人工智能、数据挖掘、最优化理论、分布式计算等
科大讯飞4.96亿元收购乐知行，推动大数据与人工智能结合：公开资料显示，北京乐知行软件有限公司成立于 2011年，是一家为中小学教育提供教育信息化整体解决方案的提供商。该公司利用云计算、大数据和移动联网技术，建立包括了数字校园、教育云平台、互联网教育和教育物联网在内的四大产品体系
华谊嘉信1.48 亿美元收购Smaato，打造“大数据+大内容”营销体系：届时，公司将借助其多年来在移动广告领域的经验与优势，以及Smaato拥有的实时竞价技术和全球投放数据资源，全面推动华谊嘉信大数据营销与数字营销战略，打出“大数据+大内容”组合拳
达观数据获真格领投1000万天使投资，专注企业大数据服务：达观数据创立于2015年，是一家专注于大数据技术的高科技公司，为企业提供最专业的数据采集和深度挖掘、用户画像、智能推荐、搜索等SaaS服务，帮助企业实现基于大数据的营销，降低企业成本提高企业效益
中国厂商星环科技被Gartner列为国际主流Hadoop发行版厂商：国际著名咨询机构Gartner发布了Hadoop发行版市场指南《Market Guide for Hadoop Distribution》1。星环科技入选为六家Hadoop发行版软件代表厂商之一
京东金融投资大数据公司数库：数库是一家金融产业大数据服务公司，致力于解剖非结构化或半结构化大数据，为个人金融投资、企业决策、产业升级提供了全面和精准化的服务
“神策数据”获400万美元A轮，由红杉领投：神策数据面向中小企业提供私人定制方案，帮助企业做用户行为的深度分析
第三方云推送平台“极光推送”完成千万美金C轮融资：成立于2011年的“极光推送”是一家移动大数据服务平台，主要利用大数据、云计算技术为用户提供移动消息推送服务，是一家第三方平台