硅谷大数据【下】：硅谷四巨头如何玩转大数据

在硅谷观察之大数据篇的【上】篇中，我把硅谷地区大数据生长状况基本梳理了一个相对完整的形状出来。有朋友看了【下】的预告后在微博上给我留言说，听说下篇要介绍一些公司的大数据部门情况，问能不能点名加个 Google 尤其是 Google Maps，因为特别想知道这个世界上最大的搜索引擎以及每天必不可少的出行神器是怎么当一个挖掘机的。

于是，上周我又去了 Google 采访。本篇将一共呈现硅谷四大不同类型的公司如何玩转大数据，其中包括了著名 FLAG 中的三家(Apple 在大数据这块来说表现并不突出)。

本篇内容来自对 Evernote AI 负责人 Zeesha Currimbhoy、LinkedIn 大数据部门资深总监 Simon Zhang、前 Facebook 基础架构工程师 Ashish Thusoo 和 Google 大数据部门一线工程师及 Google Maps 相关负责人的专访。Enjoy~~

Evernote：今年新建 AI 部门剑指深度学习

Evernote 的全球大会上，CEO Phil Libin 提到，Evernote 的一个重要方向就是 “让 Evernote 变成一个强大的大脑”。要实现这个目标，就不得不提他们刚刚整合改组的 Augmented Intelligence 团队(以下简称 AI team)。我在斯坦福约到 AI team 的 manager Zeesha Currimbhoy，在此分析一下从她那里得到的一手资料。

是什么

今年早些时候，这个 2 岁的数据处理团队改组为由 Zeesha 带领的 Augmented Intelligence team，总共十人不到，很低调，平日几乎听不到声响。他们究竟在做什么

与我们常说的 AI(artificial Intelligence)不同，Evernote 的团队名叫做 Augmented Intelligence，通常情况下简称为 IA。

Zeesha 显然是这个团队里元老级的人物：“我是在 2012年加入 Evernote 的，直接加入到了当时刚刚建立的数据处理团队，这也就是现在 AI team 的雏形。我们最开始的项目都是简单易行的小项目，比如按照你的个人打字方式来优化用户的输入体验。”

传统意义上的 AI 指的是通过大量数据和算法让机器学会分析并作出决定。而这里讲到 IA 则是让电脑进行一定量的运算，而终极目的是以之武装人脑，让人来更好的做决定。这两个概念在具体实施中自然有不少相通之处，但是其出发点却是完全不同的。

这个区别也是 Evernote AI team 的亮点所在。作为一个笔记记录工具，Evernote 与 Google 之类的搜索引擎相比，最大的区别就是它非常的个人化。用户所储存的笔记、网站链接、照片、视频等都是他思维方式和关注点的体现。

从哪来

Zeesha 小组的初衷便是，通过分析用户储存的笔记来学习其思维方式，然后以相同的模式从第三方数据库(也就是互联网上的各种开源信息)抽取信息推送给用户，从而达到帮助用户思考的过程。从这个意义上讲，Zeesha 版的未来 Evernote 更像是一个大脑的超级外挂，为人脑提供各种强大的可理解的数据支持。

目前整个团队的切入点是很小而专注的。

“我们不仅仅是帮助用户做搜索，更重要的是在正确的时间给用户推送正确的信息。”

实现这个目标的第一步就是给用户自己的笔记分类，找到关联点。今年早些时候，Evernote 已经在 Mac 的英文版上实行了一项叫做 “Descriptive Search” 的功能。用户可以直接描述想要搜索的条目，Evernote 就会自动返回所有相关信息。

例如，用户可以直接搜索 “2012 后在布拉格的所有图片”，或者 “所有素食菜单”。不管用户的笔记是怎样分类的，Decriptive Search 都可以搜索到相关的信息并且避免返回过大范围的数据。而这还仅仅是 AI team 长期目标的开始，这个团队将在此基础上开发一系列智能化的产品。

到哪去

不用说，这样一个新创团队自然也面临这诸多方面的挑战。当下一个比较重要的技术难点就是 Evernote 用户的数据量。虽然 Evernote 的用户量已经达到了一亿，但是由于整个团队的关注点在个人化分析，外加隐私保护等诸多原因，AI team 并没有做跨用户的数据分析。

这样做的结果就是团队需要分析一亿组各不相同的小数据组。比如，假设我只在 Evernote 上面存了 10 个笔记，那 Evernote 也应该能够通过这些少量的数据来分析出有效结果。当然，这些技术的直接结果是用户用 Evernote 越多，得到的个性化用户体验就越好。长期来讲，也是一个可以增加用户黏性的特点。

不过 Zeesha 也坦言：“的确，我们都知道没有大数据就没有所谓的智能分析。但是我们现在所做的正是在这样的前提下来找到新的合适的算法。” 她并没有深入去讲目前团队所用的是什么思路，但是考虑到这个领域一时还没有很成功的先例，我们有理由期待在 Zeesha 带领下的 Evernote AI team 在近期做出一些有意思的成果。

Facebook：大数据主要用于外部广告精准投放和内部交流

Facebook 有一个超过 30 人的团队花了近 4年的时间才建立了 Facebook 的数据处理平台。如今，Facebook 仍需要超过 100 名工程师来支持这个平台的日常运行。可想而知，光是大数据分析的基础设施就已经是一个耗时耗力的项目了。

Facebook 的一大价值就在于其超过 13.5 亿活跃用户每天发布的数据。而其大数据部门经过七八年的摸索，才在 2013年把部门的 key foundation 定位成广告的精准投放，开始建了一整套自己的数据处理系统和团队。并进行了一系列配套的收购活动，比如买下世界第二大广告平台 Atlas。

据前 Facebook Data Infrastructure Manager Ashish Thusoo 介绍，Facebook 的数据处理平台是一个 self-service, self-managing 的平台，管理着超过 1 Exabyte 的数据。公司内部的各个部门可以直接看到处理过的实时数据，并根据需求进一步分析。

目前公司超过 30%的团队，包括工程师、Product Managers、Business Analysts 等多个职位人群每个月都一定会使用这项服务。这个数据处理平台的建立让各个不同部门之间可以通过数据容易地交流，明显改变了公司的运行方式。

追溯历史，Facebook 最早有大数据的雏形是在 2005年，当时是小扎克亲自做的。方法很简单：用 Memcache 和 MySQL 进行数据存储和管理。

很快 bug 就显现了，用户量带来数据的急速增大，使用 Memcache 和 MySQL 对 Facebook 的快速开发生命周期(改变-修复-发布)带来了阻碍，系统同步不一致的情况经常发生。基于这个问题的解决方案是每秒 100 万读操作和几百万写操作的 TAO (“The Associations and Objects”) 分布式数据库，主要解决特定资源过量访问时服务器挂掉的 bug。

小扎克在 2013年第一季度战略时提到的最重点就是公司的大数据方向，还特别提出不对盈利做过多需求，而是要求基于大数据来做好以下三个功能：

发布新的广告产品。比如类似好友，管理特定好友和可以提升广告商精确投放的功能。

除与 Datalogix, Epsilon,Acxiom 和 BlueKai 合作外，以加强广告商定向投放广告的能力。

通过收购 Atlas Advertising Suite，加强广告商判断数字媒体广告投资回报率(ROI)。

LinkedIn：大数据如何直接支持销售和变现赚钱

LinkedIn 大数据部门的一个重要功用是分析挖掘网站上巨大的用户和雇主信息，并直接用来支持销售并变现。其最核心团队商业分析团队的总监 Simon Zhang 说，现在国内大家都在讨论云，讨论云计算，讨论大数据，讨论大数据平台，但很少有人讲：我如何用数据产生更多价值，通俗点讲，直接赚到钱。

但这个问题很重要，因为关系到直接收入。四年半前 LinkedIn 内所有用户的简历里抽取出来大概有 300 万公司信息，作为销售人员不可能给每个公司都打电话，所以问题来了：哪家公司应该打打了后会是个有用的 call

销售们去问 Simon，他说只有通过数据分析。而这个问题的答案在没有大数据部门之前这些决策都是拍脑袋想象的。

Simon 和当时部门仅有的另外三个同事写出了一个模型后发现：真正买 LinkedIn 服务的人，在决定的那个环节上，其实是一线的产品经理，和用 LinkedIn 在上面猎聘的那些人。但他们做决策后是上面的老板签字，这是一个迷惑项。数据分析结果出来后，他们销售人员改变投放策略，把目标群体放在这些中层的管理人身上，销售转化率瞬间增加了三倍。

那时 LinkedIn 才 500 个人，Simon 一个人支持 200 名销售人员。他当时预测谷歌要花 10 个 Million 美金在猎聘这一块上，销售人员说，Simon，这是不可能的事。

“但是数据就是这么显示的，只有可能多不会少。我意识到，一定要流程化这个步骤。”

今天 LinkedIn 的 “猎头” 这块业务占据了总收入的 60%。是怎么在四年里发展起来的，他透露当时建造这个模型有以下这么几个步骤：

分析每个公司它有多少员工。

分析这个公司它招了多少人。

分析人的位置功能职位级别一切参数，这些都是我们模型里面的各种功能。然后去分析，他们内部有多少 HR 员工，有多少负责猎头的人，他们猎头的流失率，他们每天在 Linkedin 的活动时间是多少。

这是 LinkedIn 大数据部门最早做的事情。

Simon 告诉 36 氪，公司内部从大数据分析这一个基本项上，可以不断迭代出新产品线 LinkedIn 的三大商业模型是人才解决方案、市场营销解决方案和付费订阅，也是我们传统的三大收入支柱。事实上我们还有一个，也就是第四个商业模型，叫 “销售解决方案”，已经在今年7 月底上线。

这是卖给企业级用户的。回到刚才销售例子，LinkedIn 大数据系统是一个牛逼的模型，只需要改动里面一下关键字，或者一个参数，就可以变成另一个产品。“我们希望能帮到企业级用户，让他们在最快的速度里知道谁会想买你的东西。”

虽然这第四个商业模式目前看来对收入的贡献还不多，只占 1%，但 anyway 有着无限的想象空间，公司内部对这个产品期待很高。“我还不能告诉你它的增长率，但这方向代表的是趋势，Linkedin 的 B2B 是一个不用怀疑的大的趋势。” Simon 说。

Google：一个闭环的大数据生态圈

作为世界上最大的搜索引擎，Google 和大数据的关系又是怎样的呢感谢微博上留言的朋友，这可确实是一个很有意思的议题。

Google 在大数据方面的基础产品最早是 2003年发布的第一个大规模商用分布式文件系统 GFS(Google File System)，主要由 MapReduce 和 Big Table 这两部分组成。前者是用于大数据并行计算的软件架构，后者则被认为是现代 NOSQL 数据库的鼻祖。

GFS 为大数据的计算实现提供了可能，现在涌现出的各种文件系统和 NOSQL 数据库不可否认的都受到 Google 这些早期项目的影响。

随后 2004 和 2006年分别发布的 Map Reduce 和 BigTable，奠定了 Google 三大大数据产品基石。这三个产品的发布都是创始人谢尔盖-布林和拉里-佩奇主导的，这两人都是斯坦福大学的博士，科研的力量渗透到工业界，总是一件很美妙的事。

2011年，Google 推出了基于 Google 基础架构为客户提供大数据的查询服务和存储服务的 BigQuery，有点类似于 Amazon 的 AWS，虽然目前从市场占有率上看与 AWS 还不在一个数量级，但价格体系更有优势。Google 通过这个迎上了互联网公司拼服务的风潮，让多家第三方服务中集成了 BigQuery 可视化查询工具。抢占了大数据存储和分析的市场。

BigQuery 和 GAE(Google App Engine)等 Google 自有业务服务器构建了一个大数据生态圈，程序创建，数据收集，数据处理和数据分析等形成了闭环。

再来看 Google 的产品线，搜索，广告，地图，图像，音乐，视频这些，都是要靠大数据来支撑，根据不同种类数据建立模型进行优化来提升用户体验提升市场占有率的。

单独说一下 Google maps，这个全球在移动地图市场拥有超过 40%的市场占有率的产品，也是美国这边的出行神器。它几乎标示了全球有互联网覆盖的每个角落，对建筑物的 3D 视觉处理也早在去年就完成，这个数据处理的工作量可能是目前最大的了，但这也仅限于数据集中的层面。真正的数据分析和挖掘体现在：输入一个地点时，最近被最多用户采用的路径会被最先推荐给用户。

Google 还把 Google+，Panoramio 和其他 Google 云平台的图片进行了标记和处理，将图片内容和地理位置信息地结合在一起，图像识别和社交系统评分处理后，Google 能够把质量比较高的的图片推送给用户，优化了用户看地图时的视觉感受。

大数据为 Google 带来了丰厚的利润，比如在美国你一旦上网就能感觉到时无处不在的 Google 广告(AdSense)。当然，它是一把双刃剑，给站长们带来收入的同时，但如何平衡用户隐私的问题，是大数据处理需要克服的又一个技术难关，或许还需要互联网秩序的进一步完善去支持。

像在【上】中所说，除 Facebook 等几个很领先的公司外，大部分公司要么还没有自行处理数据的能力。最后附上两个例子，想说这边的大公司没有独立大数据部门也是正常的，采取外包合作是普遍现象：

Pinterest：

Pinterest 曾尝试自行通过 Amazon EMR 建立数据处理平台，但是因为其稳定性无法控制和数据量增长过快的原因，最终决定改为使用 Qubole 提供的服务。在 Qubole 这个第三方平台上，Pinterest 有能力处理其 0.7 亿用户每天所产生的海量数据，并且能够完成包括 ETL、搜索、ad hoc query 等不同种类的数据处理方式。尽管 Pinterest 也是一个技术性公司，也有足够优秀的工程师来建立数据处理团队，他们依然选择了 Qubole 这样的专业团队来完成数据处理服务。

Nike:

不仅仅硅谷的互联网公司，众多传统企业也逐渐开始使用大数据相关技术。一个典型的例子就是 Nike。Nike 从 2012年起与 API 服务公司 Apigee 合作，一方面，他们通过 Apigee 的 API 完善公司内部的数据管理系统，让各个部门的数据进行整合，使得公司内部运行更加顺畅、有效率。另一方面，他们也通过 API 开发 Nike Fuel Band 相关的移动产品。更是在 2014年开启了 Nike+ FuelLab 项目，开放了相关 API，使得众多的开放者可以利用 Nike 所收集的大量数据开发数据分析产品，成功地连接了 Nike 传统的零售业务，新的科技开发，和大数据价值。