大数据与机器学习2016年中盘点

转眼间,公元2016年已经过半。人类在大数据和机器学习领域又取得了诸多进展,让我们共同回顾一下。

前言

转眼间,公元2016年已经过半。人类在大数据机器学习领域又取得了诸多进展,让我们共同回顾一下。

本文将分以下几个部分进行盘点。

  • 一、里程碑事件
  • 二、开源项目(国际篇)
  • 三、业界动态(国际篇)
  • 四、开源项目(国内篇)
  • 五、业界动态(国内篇)
  • 六、下半年展望
  • 七、周报集锦

里程碑事件

Hadoop 10岁了!

Hadoop诞生10年了。2006年1月28日,Doug Cutting和Mike Cafarella从他们的开源网络爬虫项目(Apache Nutch)中分离出分布式文件系统以及MapReduce设施,把它当作一个子项目,并称其为Hadoop。Doug Cutting发表了Apache Hadoop at 10,他动情地回顾了自己与Hadoop故事,并提出了对未来的展望。

开源项目(国际篇)

Facebook

  • 4月 为Facebook Messager发布了基于bot的开发者平台:聊天机器人的目标是最终取代应用。用户不再需要在自己的设备上安装各种应用,而是使用Messenger来和各种的聊天机器人交互,从而完成各种任务,目前这些任务都是通过触屏界面由各种应用完成的。聊天机器人主要是依赖语音信息以及人工智能来完成指令
  • 5月 第一次正式介绍了FBLearner Flow,这是一个可以为全公司员工管理机器学习模型的机器学习软件。换句话说,这是一个可以自己制造人工智能的人工智能,你可以理解为传说中的人工智能母体
  • 6月
    • 开源深度学习框架 Torchnet,相比其他巨头自己搭建的深度学习框架,Torchnet 更加开放,也将大幅推进深度学习的应用普及
    • 发布文本理解引擎DeepText,Facebook表示,DeepText能够以“接近人类的精确度”,理解人们的聊天内容。另外,依托后台的计算能力,这一工具每分钟能够分析、识别数千条网友评论或是聊天内容。在语种方面,这一工具已经能够分析20多种语言

Linkedin

  • 3月 开源数据挖掘软件WhereHows:从商业角度讲,WhereHows的目标是从分布式的多种元数据中进行挖掘
  • 4月 开源Hadoop 和Spark的性能监控和调优工具——Dr. Elephant:LinkedIn宣布开源Dr. Elephant,Dr. Elephant能够很好地帮助用户理解、分析和优化Hadoop和Spark的工作流。LinkedIn在去年第八届Hadoop Summit上第一次在社区呈现。
  • 6月
    • 开源分布式对象存储系统 Ambry,Ambry是一个是不可变对象的存储系统,非常易于扩展,它能够存储KB到GB大小的不可变对象,并且能够实现高吞吐和低延迟,该系统支持跨数据中心的双活部署,并且存储成本低廉。它特别适于存储各种媒体内容
    • 开源机器学习库Photon:Photon机器学习支持Apache Spark,通过结合Spark快速处理海量数据的能力和强大的模型训练和诊断工具,Photon机器学习提供给研究型工程师更多的信息来决策使用哪类推荐系统算法

Amazon

  • 5月 开源深度学习框架DSSTNE:亚马逊对于这套软件的性能很有信心,声称在亚马逊的云计算平台上,DSSTNE 比谷歌等竞争对手的计算速度快了 2.1 倍

Google

  • 2月 发布TensorFlow Serving开源项目——更快的将深度学习模型产品商业化:Google软件工程师Noah Fiedel在博文中介绍,“TensorFlow Serving是一个高性能、开源的机器学习服务系统,为生产环境及优化TensorFlow而设计。它更适合运行多个大规模模型,并支持模型生命周期管理、多种算法实验及有效地利用GPU资源。TensorFlow Serving能够让训练好的模型更快、更易于投入生产环境使用
  • 3月 发布云端机器学习和Tensor Flow的Alpha测试版本:Google发布了alpha版本的TensorFlow(TF)集成云端机器学习服务,为回应不断增长的大规模在Google云端平台(GCP)运行Tensor Flow库的需要
  • 5月 开源全球最精准自然语言解析器SyntaxNet:Google已经发布了开源的SyntaxNet自然语言神经网络框架,以帮助机器更好地理解自然语言。SyntaxNet中包括了Parsey McParseface,后者是一种专门用于“解剖”英语的语言解析器。Google称之为世界上最准确的语言解析器,并且已经放出了允许人们借助自有数据来训练SyntaxNet的全部代码

Twitter

  • 5月
    • 正式开源Heron:去年,Twitter对外宣布了新的分布式流计算系统Heron,随后消息称Twitter已经用Heron替换了Storm。据文中介绍,Heron支撑Twitter的所有实时分析业务已经有两年多了。它替代了之前使用的Apache Storm系统。Heron有很多架构方面的改进,而且向后兼容Storm生态系统
    • 开源分布式高性能日志复制服务DistributedLog:DL是一个高性能的日志复制服务,提供了持久化、复制以及强一致性的功能,这对于构建可靠的分布式系统都是至关重要的,如复制状态机(replicated-state-machines)、通用的发布/订阅系统、分布式数据库以及分布式队列

其他开源

  • Apache Beam将统一大数据平台的开发:一直以来,大数据开发涉及到各种框架,比如,Hadoop、Storm、Spark和Flink等,基于这些框架的开发要求的技术栈都各不同,这对开发者来说开发成本比较高,在Beam的统一下可以实现写一个程序既能在Hadoop中运行又可在Spark中运行
  • Apache Apex成为Apache顶级项目:Apache Apex是基于Hadoop的流处理和批处理引擎,目前成为Apache顶级项目
  • Microsoft开源其深度学习工具包CNTK:CNTK是一个统一的深度学习工具包,它通过一个有向图将神经网络描述为一系列计算步骤。在有向图中,叶节点表示输入值或网络参数,边表示输入之上的矩阵运算。CNTK使得实现和组合前馈型神经网络DNN、卷积神经网络(CNN)和循环神经网络(RNNs/LSTMs)变得非常容易。实现了支持跨多个GPU和服务器自动分化和并行化的随机梯度下降(SGD)学习
  • 雅虎开源可以提升流操作速度的DataSketches:就像在Venture Beat上所宣布的那样,雅虎开源了DataSketches,这是一个用Java编写的随机流算法库。DataSketches允许进行通常来说开销很大的操作,像计算变量不同的值在流中出现的次数,而且消耗的时间少,占用的内存小,误差可预测
  • 雅虎开源CaffeOnSpark:基于Hadoop/Spark的分布式深度学习:雅虎认为,深度学习应该与现有的支持特征工程和传统(非深度)机器学习的数据处理管道在同一个集群中,创建CaffeOnSpark意在使得深度学习训练和测试能被嵌入到Spark应用程序
  • OpenAI发布开源人工智能研究工具集OpenAI Gym:该工具集用于开发和对比强化学习(RL)算法,这是现代机器学习研究的基础
  • DeepDetect——机器学习框架的API统一:DeepDetect是一个专为深度学习的开源API和服务。它的API简单直观、易用、通用和易扩展
  • 联合国平行语料1.0版发布:联合国平行语料1.0版发布,包括阿英西法俄中六种语言,总共15个语言对,语料包含了1990-2014年的数据,规模都在1500万个句对以上

业界动态(国际篇)

综合

开源项目(国内篇)

国内方面,目前在大数据和机器学习方面的开源较少,潜力巨大。比较令人振奋的大事是,去年阿里巴巴正式加入Apache基金会,并将JStorm项目捐赠给后者。Apache Storm 2.0将基于JStorm。JStorm是中国第一个进入Apache核心产品的开源项目,对于中国的开源发展来说意义重大。

业界动态(国内篇)

下半年展望

大数据

最值得期待的莫过于Hadoop 3.0和Spark 2.0正式版的发布。
参见:Hadoop 3.0新特性预览Spark 2.0 预览:更简单,更快,更智能

人工智能

随着国内外科技巨头在人工智能“军备竞赛”的日趋白热化,我们有理由相信,下半年会有更多令人振奋的项目/产品面世,敬请期待。

周报集锦

作者简介

丁涛是一名软件工程师,目前就职于京东商城。专注于后端/服务端开发、架构设计,同时对大数据、移动开发感兴趣。关注硅谷动态,Google粉儿。

来源:Infoq

链接:http://www.infoq.com/cn/news/2016/07/big-data-machine-weekly-inventor

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

(0)
张乐的头像张乐编辑
上一篇 2016-08-01 11:18
下一篇 2016-08-02 21:28

相关文章

关注我们
关注我们
分享本页
返回顶部