别笑，雅虎也有人工智能的秘密武器

摘要：又一个科技巨头与世界分享它的人工智能成果了。2月24日，雅虎公布了 CaffeOnSpark 人工智能引擎的源代码，从学术研究者到大公司员工都可以使用或修改。

也许近年来很少人了解雅虎在科技界的实力。它孵化了开源项目 Hadoop——被 Facebook、Twitter 和许多其他公司广泛使用的数据分析平台。Hadoop 对于人工智能有特别的价值。数据和算法对训练人工智能系统同样重要，而雅虎拥有最有意思的数据库之一——图片站点 Flickr。

和许多新的开源人工智能项目一样，CaffeOnSpark 以深度学习为基础。深度学习是人工智能的一项分支，对帮助机器识别人类讲话、图像和视频内容用处尤其大。比如雅虎利用它测定不同图片的内容，来优化 Flickr 的搜素结果。雅虎不是依赖上传图片的人所输入的描述和关键词，而是教会计算机识别图片的某些特点，比如特定的颜色、甚至动物和物体。

几个月来，谷歌开源了它的深度学习框架TensorFlow，微软开源了它的类似框架CNTK，脸书开源了它的人工智能硬件设计，中国搜索引擎巨头百度开源了它的深度学习训练软件代码。

这些开源各有侧重。雅虎想在现有的系统上运行深度学习进程，不必把数据从一个地方移到另一个地方。雅虎的构架副总裁 Andy Feng 解释，训练一个深度学习系统识别图片需要巨大的数据量。比如你把大量猫的图片交给算法处理，最终机器会 “学到” 猫的共同特征，从而有能力分辨包含猫的照片和不包含猫的照片。

Flickr 拥有几十亿张照片，有充足的图片类别来训练人工智能。但团队不想把所有 Flickr 主服务器的图片复制到新的运行深度学习软件的服务器集群中。因此他们发明了在现有的基础架构中运行深度学习软件的途径。

CaffeOnSpark，从名字可以看出，它将两种现有技术结合起来：广泛流行的深度学习框架Caffe和后起之秀数据分析系统 Spark。雅虎创造了一种可以在Spark集群上运行 Caffee 的方式。它可以在 Spark 上单独运行，也可以在 Hadoop 上运行。Feng 说，除了简化人工智能开发者对类似工具的操作，避免把数据搬来搬去，CaffeOnSpark 还使在多个服务器上分配深度学习进程变得相对容易，这是谷歌的 TensorFlow 所做不到的。

Feng 表示在团队发布一条关于软件的长文后，很多公司要求雅虎开源 CaffeOnSpark。看来有许多机构都不想把服务器集群上的数据移来移去。