阿里云刘松:大数据因被过度吹捧 已妖魔化

[摘要]过去两年来,大数据这3个字,因为过度被吹捧,进入了一个被妖魔化的阶段,真正的问题是大数据场景的问题。

img-liusong

腾讯科技讯 1月14日,2016未来互联网峰会上,阿里巴巴集团副总裁 、阿里云业务总经理刘松围绕阿里云的大数据进行了主题演讲。

刘松谈到,过去两年来,大数据这3个字,因为过度被吹捧,进入了一个被妖魔化的阶段,真正的问题是大数据场景的问题。

为此,他列举了与城市生活有关的大数据场景。比如通过跑步获取收益,通过大数据帮助女性选择更适合自己的衣服,以及交通问题。这些都是阿里以及阿里的事业群在做的事情。

同时,刘松还介绍了阿里的大数据是如何练成的,阿里成立一个很大的数据组织叫CDO的部门。用了两年时间,解决了存的问题,又花2年时间解决了通的问题。

阿里大数据未来要做的事情,就是向非商业的领域开放阿里的数据,让他们做学术性的研究。

以下是刘松演讲实录:

刘松:我代表阿里云计算的集团分享一下大数据的N种场景。过去两年来,大数据这3个字,因为过度被吹捧,进入了一个被妖魔化的阶段。我同意刚才高总(高晓松)说的,真正的问题不是没有数据的问题,我们今天用智能手机,淘宝购物,支付宝的城市生活。数据是无限的,每个人都有,不仅仅是阿里有,运营商、银行也有。关键的问题就是场景的问题,所以我下面大概花15分钟,很快跟大家过几个与民生生活,与大家城市生活有关的大数据场景。讲一讲,大数据跟什么联动,有用,与我们每个人是有相关性的。

我解释一下“+”号。这一横可以认为是互联网本身,还有它衍生的两个最关键的技术或者平台,就是云计算和大数据。这一竖是各种垂直行业,可能是音乐,可能是影业,可能是医疗,可能是政务。这一竖的上半部分,我们可以认为在这一横上,完全线上化、数据化,完全新创的移动互联网的新的生产模式。我们说的这些创新、创业的企业。我们知道我们在座的各地很多政府的领导,在各地有很重要的任务就是孵化双创的经济,大众创业,万众创新。你如何利用互联网溢出的资源,从入口到互联网平台本身,到云计算和大数据。所以这一横对所有传统行业来说,意味着如何把线下的业务翻到线上来。

用一个最简化的方法来理解,过去十年,云计算、大数据通过互联网自己的进化,便成了一个溢出的资源,未来10年,互联网本身,结合它溢出的云计算和大数据会帮助所有的垂直行业去做任何的转型。当然这里面有一个关键点,不是所有的行业都能用好大数据的。我也同意前面这位高总的观点,很多东西要看场景。今天我讲的是场景,不是大数据。

一横一竖的交差点是真正专业人士的学问,他知道哪个地方可以用大数据,在传播营销的时候需要用,可能在创作的时候不一定要用。上一个时代的数据用在了报表、记录物体以及钱的交易上。下一个时代的数据记录各种人的精神衍生的数据。

2015年是天猫双十一云计算和大数据的演练。背后有大数据平台,在那一天你随时准备处理上百T的数据。阿里整个的大数据的团队在去年拿了一个相当于是数据领域处理的世界杯的冠军,100T数据排序方面,100T相当于一个超级大表,把这些数据重新做了一个排序用337秒,只有这样的实力,才有可能在双十一峰值场景里面做大规模的交易,以及背后数据的分析。前面看出的大屏,在离这儿不远的水立方,那张大屏里面所有的数据,双十一当天每3秒更新一次,大家想想背后有那么多的交易,要马上同步过来,汇聚展现出来。大家可能已经有一定概念了。

下面说几个生活中的场景,每一个场景,有的是我们在云上的一些创新公司做的,有的是阿里集团相关的事业群做的。第一个走路是不是可以赚钱?我个人每周在奥森公园跑3次步,我怎么把这个时间做新的经济效益。有一家公司叫众安保险,是全世界第一个完全在云上搭建的公司,没有任何数据中心,所有的东西都在云计算上,这家公司作为纯粹的互联网保险公司,去年10月份做了步步保的产品。

对于一个人买的10万块钱的健康疾病险,每天走五千步,当天保费就免掉了。精巧设计了3个主体都有所得,作为最终的消费者可以每天看步数决定自己是不是要多走几步,免掉一天的保费,健康水平大幅度提升了。就像高总一下瘦10斤。对于卖手环的厂商是非常致命的,智能手环每个人戴三个月就不用了,对于手环厂商销量和交易频度是一个问题。

一个保险公司卖健康险的时候,没有办法用电话的方式交流,你还要理解被保险人即时的健康情况。这个创新来自于一个胖子和一个瘦子之间的交谈,众安保险的产品公里,有一天跟一个大胖子吃饭,他们两个人说,你买的保险是多少钱,我买的是多少钱,价钱是一样的,很不公平。对一个卖健康人的保险,让身体好的人享受更低的保费。驾驶习惯更好的人享受一半左右的车保险。这个场景把互联网公司,保险公司和个人最关系的问题,硬件与交易频度,数据与消费者行为,还有我自己的健康,全部联系在一起,这是非常有意思的东西,差不多每一段时间都会做一个秒杀,如果你是爱运动的人,基本上可以免费享受这个场景。

第二个问题,所有的女士都会遇到一个问题,为什么总是没有衣服穿。阿里自己去年有一个超级的数据研究的机构,做深度学习的,第一个产品叫拍立淘,大多数女士看到模特后才决定买产品的,但基本上回家以后是惨不忍睹的。澳大利亚采用一些胖模特做泳装的模特,我们作为个人消费者更容易接受这样的情况,胖是一种宽容。对于每一个女士来说,看到与她相仿的人看到新衣服很漂亮,用手机拍完3秒自动匹配淘宝哪家店卖一模一样的衣服,这是后面的图像识别、深度学习,数据应用。使我们的购物进入一个全新的时代,你能依照你个人的身材,甚至气质去决定买那件衣服,可以决定拍照的瞬间,可以预知效果。深度学习,人工学习,大数据解决女士总是买不大合适衣服的问题。

第三个,在北京这样一个雾霾深重的城市,哪些人购买空气净化器,或者谁需要购买空气净化器。今天住在劲松一带的人,自己家住在哪里,经常往返哪里。最近看芈月传的这些观众,会喜欢哪一类的洗发精,数据已经沉淀告诉我们了。同时我们知道,在北京不同的区域,精细到小区级别,那个地方的PM2.5大概多高,哪个地方应该建议他更多花时间去注意自己室内的健康。我知道我很多的同事热衷于买PM2.5的脉表,到处去量,这些数据会逐步用于整个社会治理和未来对于气象的监管方面。

还有一个交通问题。我现在天天用导航系统上班。我用导航,不是因为我不认路,因为我想躲避拥堵。大家有没有注意一个问题,每天早晨8点从家里制定导航,我去西单,半小时以后,后半段的车程和你实际制定的是不一样的。北京拥堵,其实每一年都是非常相似的,靠近元旦的时候,靠近春节的时候,都是完全一样的。有没有一个模型,能让你对出行的未来产生影响,我们在广州做了这样的项目。把过去一年所有的出行的公共交通的数据沉淀下来,大学生参赛者可以做出出行的建议,告诉你,你今天应该等哪个车,转哪个车。

这个背后就是一种算法的能力,我们在浙江高速做了一个最大的算法级别的项目,这个项目非常简单,就是把所有的在高速上手机的信令搜集回来,然后通过信令的切换,能够预知到,未来两三个小时,高速拥堵的情况,那么这个准确率达到了92%,这个是非常难的,此之前的世界纪录是80%。数据能力靠模型和历史数据预测能力达到92%,对于非常复杂的交通环境,这是一个世界级的算法专家才可以做到的。

最后我说一下阿里大数据是如何练成的?数据有后台、中台和前台。阿里成立一个很大的数据组织叫CDO的部门。用了两年时间,解决了存的问题,又花2年时间解决了通的问题,这是非常难的。因为超过一千个PB的数据,几百家不同的数据怎么通,这个花了2年的时间。然后我们产生了各种类似于像芝麻信用,大家熟知的,包括淘宝推荐算法等等各种各样的应用,包括智慧交通的应用。整个数据平台,现在也用在更多的领域,就是社会治理的方方面面。

阿里大数据未来要做的事情,一个是在大学和公共的领域,非商业的领域开放我们的数据,让他们做学术性的研究。包括社会洞察,包括对于公共安全人的识别,包括对嫌犯的识别,药品的追踪,包括智能交通的动了,包括做了开放大数据大赛,让阿里脱敏开放数据,让我们的大学生,最小的15岁都可以运用这些数据,给城市生活带来一个未来。

我看星球大战看了好多年,一直不理解,“原力”是什么意思?据说可以平衡光明面和阴暗面,这个也很难理解。为不能你只帮光明面,不帮阴暗面。从根本来讲,我不用大数据这个词,因为数据本身我们用的很少,所以数据是过去这么多年,人类生活,经济生活沉淀的非常重要的资产。而数据是一种精神化的产品,会描述我们的精神画像和行为。所以在今天这个时间里,我们看到更多的数据,千分之九百九十九的数据在沉睡,我们利用场景钥匙让沉睡的数据唤醒,给整个生活方式和社会治理更大的价值。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

(0)
张乐的头像张乐编辑
上一篇 2016-01-17 11:05
下一篇 2016-01-18 23:27

相关文章

关注我们
关注我们
分享本页
返回顶部