机器学习专家张栋：我看到的机器学习及其应用

我们真的非常幸运，作为技术人，如果早生十年，当时没有足够快的运算和足够大的数据，做机器学习的无用武之地;如果晚生十年，好玩的机器学习难题可能都被前人解完了，会很无聊。

我是2007年博士毕业的，应该是最早把机器学习技术应用在中国互联网的一批人。其实在过去很多年，国外很多互联网和金融公司已经大量使用机器学习技术。中国的互联网公司大规模使用机器学习技术是从2007 – 2009年开始的。什么是机器学习机器学习这个词是和大数据连接在一起的：大数据的作用，从本质上讲，是提升各行各业的效率，而机器学习是求解大数据问题最有效的工具。

在移动互联网时代，个性化引擎变得非常重要!因为手机屏幕小，每屏展示的内容少，个性化变得特别重要。移动互联网，基于机器学习的个性化引擎技术催生了几个公司，比如在新闻资讯领域的今日头条、在短视频领域的快手和美拍、在电商领域的什么值得买、美丽说和蘑菇街等公司，这些公司都是伴随移动互联网起飞的，后台都有一个强大的个性化引擎。

2011年之后，我个人的兴趣是想通过机器学习算法构建一套新的搜索引擎。因为最早的搜索引擎是构建在“规则”系统之上的，规则从几百个到几万个，由很懂用户体验的产品经理设计，早期效果很好!

但是随着互联网发展，互联网上的内容爆炸，规则系统远远不能满足网民的搜索需求，尤其是长尾信息需求。所以我思考：上亿用户每天在互联网上产生大量的行为数据，实际上可以非常好地作为搜索引擎模型的训练数据。

这些行为被浏览器记录，所以基于浏览器行为是可以做出更加强大的搜索引擎的。基于这样的想法，我们开发了基于浏览器的搜索引擎，事实证明，这个系统可以在很短的时间之内赶上甚至超过基于规则系统的搜索引擎。

上面是我以前做过的事情，我在想以后做什么正好趁这个机会，我把一些想法总结下来。

我和一些医生交流，发现医生的知识有一定局限性，因为每个医生接触的病人样本是有限的，通过他接触的病人样本，在脑海中形成一个模型。由于医生见到的病人样本不够多，故而这个模型的能力也是有限的。所以我在想，如果将这些数据样本打通，通过机器学习训练出一个模型，这个模型应该是比每个医生的模型都要强大的。

谷歌在这方面投资非常多，它给一个创业公司投资了大约1.7亿美金，收集大量的癌症数据。然后通过癌症数据，发现一些癌症的知识：比如如何把基因型和表型连接起来等等。能把机器学习应用在医疗领域，对于我们做机器学习的人是一件很兴奋的事情!如果有同学对这个方向有兴趣，我觉得这是一个可以长期做的方向。

另外提一下，包括百度在内，很多公司和个人也捐献了很多钱去收集癌症数据，因为目前癌症治疗方案和药物大多是按照西方人的数据来做的，但实际上亚洲人的基因和西方人的基因有很大差异。只有收集大量的亚洲人基因，才能建立起更准确的基因型和表型之间的连接，这样才能做更加精准的个性化治疗。

这是我非常感兴趣的一个方向。大家可能最近在微信上看到过一个传播很火的视频，一个16岁的美国少年极客在自己的车上装了几个便宜的senser，把自己的驾驶行为记录下来，然后把senser的信息也全部记录下来，训练出一个驾驶员模型，来模拟一个驾驶员怎样开车：这本质上是一个机器学习问题。

大家想想，人在学习开车的过程中也是根据各种情况来决定采取相应的操作。我认为未来自动驾驶一定会变成现实，特别在一些特定路段和特定场景，自动驾驶和半自动驾驶技术一定会非常普及。

国家拥有最多的大数据，如果能够把这些数据有效利用起来，我觉得国家的很多决策会变得更加高效。如果我有幸能为国家大数据做一些事情，我觉得是非常幸运的。

以上基本上总结了我看到的一些机器学习应用。

最后总结一下：今晚有很多同学到现场，有很多是工程师，也有很多是做机器学习的同学。我想跟你们说几句话。我们真的非常幸运，作为技术人，如果早生十年，当时没有足够快的运算和足够大的数据，做机器学习的无用武之地;如果晚生十年，好玩的机器学习难题可能都被前人解完了，会很无聊。