摘要:又一个科技巨头与世界分享它的人工智能成果了。2月24日,雅虎公布了 CaffeOnSpark 人工智能引擎的源代码,从学术研究者到大公司员工都可以使用或修改。
也许近年来很少人了解雅虎在科技界的实力。它孵化了开源项目 Hadoop——被 Facebook、Twitter 和许多其他公司广泛使用的数据分析平台。Hadoop 对于人工智能有特别的价值。数据和算法对训练人工智能系统同样重要,而雅虎拥有最有意思的数据库之一——图片站点 Flickr。
和许多新的开源人工智能项目一样,CaffeOnSpark 以深度学习为基础。深度学习是人工智能的一项分支,对帮助机器识别人类讲话、图像和视频内容用处尤其大。比如雅虎利用它测定不同图片的内容,来优化 Flickr 的搜素结果。雅虎不是依赖上传图片的人所输入的描述和关键词,而是教会计算机识别图片的某些特点,比如特定的颜色、甚至动物和物体。
几个月来,谷歌开源了它的深度学习框架TensorFlow,微软开源了它的类似框架CNTK,脸书开源了它的人工智能硬件设计,中国搜索引擎巨头百度开源了它的深度学习训练软件代码。
这些开源各有侧重。雅虎想在现有的系统上运行深度学习进程,不必把数据从一个地方移到另一个地方。雅虎的构架副总裁 Andy Feng 解释,训练一个深度学习系统识别图片需要巨大的数据量。比如你把大量猫的图片交给算法处理,最终机器会 “学到” 猫的共同特征,从而有能力分辨包含猫的照片和不包含猫的照片。
Flickr 拥有几十亿张照片,有充足的图片类别来训练人工智能。但团队不想把所有 Flickr 主服务器的图片复制到新的运行深度学习软件的服务器集群中。因此他们发明了在现有的基础架构中运行深度学习软件的途径。
CaffeOnSpark,从名字可以看出,它将两种现有技术结合起来:广泛流行的深度学习框架Caffe和后起之秀数据分析系统 Spark。雅虎创造了一种可以在Spark集群上运行 Caffee 的方式。它可以在 Spark 上单独运行,也可以在 Hadoop 上运行。Feng 说,除了简化人工智能开发者对类似工具的操作,避免把数据搬来搬去,CaffeOnSpark 还使在多个服务器上分配深度学习进程变得相对容易,这是谷歌的 TensorFlow 所做不到的。
Feng 表示在团队发布一条关于软件的长文后,很多公司要求雅虎开源 CaffeOnSpark。看来有许多机构都不想把服务器集群上的数据移来移去。
本文编译自:wired.com
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。