车品觉:大数据拐点下的数据十诫

摘要:面对高度互联、数据化全面覆盖的时代,我们正在见证电子商务、移动互联网、互联网金融等多领域因数据而发生着的巨变。以控制为出发点的IT时代正在走向激活生产力为目的的DT(data technology)数据时代。这不仅仅是技术的升级,更是思想意识的巨大变革。2014年3月7日,在杭州西子湖畔,阿里巴巴联合…

面对高度互联、数据化全面覆盖的时代,我们正在见证电子商务、移动互联网、互联网金融等多领域因数据而发生着的巨变。以控制为出发点的IT时代正在走向激活生产力为目的的DT(data technology)数据时代。这不仅仅是技术的升级,更是思想意识的巨大变革。2014年3月7日,在杭州西子湖畔,阿里巴巴联合全球顶尖数据专家,共同探讨了数据与商业的融合,探讨未来数据世界的可能性。除主会场外,大会设置“大数据背景下企业商业智能实战”,“大数据与经济”,“基于导购的大数据应用”,“大数据时代移动互联网的创新实践”,“大数据下的互联网金融风控管理”五大分论坛。阿里巴巴集团商业智能部副总裁、数据委员会会长车品觉(品觉)在“大数据背景下企业商业智能实战”分论坛带来的分享是“大数据这三年”,以下为演讲实录:

今天早上说的,其实就是在美国的Data里面,我们今天会发现有一个非常重要的名词叫data analytics,其实跟中国也一样的,中国是一直到今天为止还是一直讲,那真正在做数据的人反而是不出去讲的,很少去讲到自己怎么做数据。特别是在上个礼拜马总发了一个邮件出来,他讲到DT,其实我们没有讲到过大数据,但是今天早上阿里小微副总裁也讲到了什么是Data,我认为Data更多是把数据使用起来,可以让广泛的人去用这个技术的时候,我们叫大数据。如果今天你看见早上Simon Zhang的PPT里面,很大部分都是在做数据分析,我当然更喜欢数据分析,因为我本身没做BI之前就是做数据分析,所以我有时候跟唯品会的Simon说,我进去BI部门的时候整个部门就是数据产品,所以我用产品的方法来做阿里的BI。你可能会问什么是做产品,就是用产品的4个P。我们可以用很多东西来解释为什么BI的部门会成功,但是我觉得要用一个原因来讲就是上面给资源,如果老大不给资源给到BI的部门,这个部门是不可能成功的,因为BI本来用的东西都非常耗费我们的资源。

我们现在已经进入拐点,这个拐点是说,其实整个BI里面你发现所有做的东西,都是把大数据变得更精准。刚才整个说大数据里面,我们看很多美国数据科学里面讲了,他们讲的大数据是把数据集入在一个点里面,其实魏燕翔昨天晚上我们谈到有一个非常重要的数据,离线数据这个已经老了,逐步来讲,我们BI他是一个离线的数据平台,因为我们已经在阿里发现,非常多的部门是直接从数据库里面拿了离线数据,这样再也不能跟人家说我是T+1的,包括他们的数据流也是一起的,根本分不开,有人说我是做数据仓库的,但是过一两年以后,因为他跟线上系统已经融合得非常厉害了,没有一个人会说我是做数据仓库的。但是今天来讲,我跟Simon聊的时候,在Linkedin里面还有一个模糊的地带,其实阿里也一样,但是阿里里面有一个比较奇怪的东西,这里有阿里的同学,你比如1688在发展,在调动线上数据的时候会把淘宝调得更快,当然不能用淘宝的广告来讲,因为淘宝的广告是从所有的数据系统来讲是做得最前面的,因为是靠他赚钱的。所以这个呢,他们是特别会用数据。

车品觉:大数据拐点下的数据十诫

阿里巴巴集团商业智能部副总裁、数据委员会会长 车品觉

所以现在Tipping point就是我们要做一个决策的时候,他本身是比以前更便宜一点的,但是这个英文我觉得很好,如果大家看原味英文是怎么说的,我翻译中文怎么翻都不是味道。因为以前是你要用钱砸进去以后才知道好不好,现在有一个很好的系统。刚好我在上台之前,唯品会魏燕翔他跟我说,因为他是做运营的,所以运营呢他很重要是有人很懂,在运营的系统里面要放产品在里面,但是如果这个东西放得慢,你就会发现你拿到的数据是不唯你可以用的,所以这是相当重要的,怎么放这个东西进去。

一点很重要我想分享的是,我们不断讲3个V4个V,你会发现这个路是走来走去走不出去的,当你说3个V、4个V,因为我们有时候也会给公司的高层包括同行人也会问,我想问你们的数据有什么价值请你们盘点一下给我们看怎么盘点每个人对价值的观点都不一样的,很难盘点。最后我发现他们很喜欢问我两个问题,你的数据帮助我们的业务增长了多少这是很普遍的问题。下一个问题是,如果没有你的数据会死人吗如果这两个都没有答案的话,基本上BI可以不在了,整个数据部门可以不在了,也不会死人也帮不了公司。特别是我们现在阿里的数据已经到了一个太多太大的一个层面了,太贵了。所以我一直都有一个观点说,你说这个做数据很便宜吗作为阿里来讲根本不便宜,其实我已经收集了很多数据,但是也不能平衡,所以我们一直都很急,希望在这个上面找出突破口。现在数据的落地我们可以用数据是不是稳定的跟准确的,数据是不是可实施的,不要跟我说一堆天花乱坠的数据之后,你说但是不可落地不可实现。一定要可以实施的,而且可以解释,可以解释非常重要的整个数据的模型不能变化一个黑山,别人也看不见,别人也不知道你做什么,所以这三点非常重要。

到目前为止,其实我们还是见到很多业务的人士说,我想用数据但是我不知道数据在哪里或者怎么用找这个数据出来,你们也没有东西告诉我们怎么用数据,公司只会跟我说你们要好好用数据,但是怎么用呢所以这个点跟上面另外一个场合,很多做数据的人都会说我会做数据但是我不知道别人怎么用,这一个很大的障碍。我们最近阿里开始做人才盘点,大家问人才盘点不代表要做有什么变动,但是在人才盘点的时候我们就会发现,有很多岗位已经出现叫这个名字但不是做这个东西。数据建模三个人都说是做这个的,但是三个人做的数据建模是不一样的,所以这个名字本身已经不能代表他所做的职业,所以从人才盘点角度来看岗位已经变了。所以我们要为DW到底以后还是不是DW呢,可能不一定,我也不但武断,我只能说这已经出现很大的很大的变化。

两个循环很重要,第一个循环是怎么用数据,第二个循环其实讲的是我们在用数据中间里面发现有的数据不够用,或者有些数据做得不好,我们开始去运营这几个数据了,这里面我们开始这样走。最近来讲,我的团队里面做了一个比较大的动作,我知道这个他是非常难的,但是我们阿里还是决定想做,经历了三年至四年的时间之后,你会发现很多数据在一个公司里面会有N多东西,其实是同一组数据来的,你们都有类似的情况,因为你没法管理这个人说,数据跟其他不一样,他拿一个模型过来就可以翻版另外的东西出来的,等于说你打开一个口给他,他一个东西拷贝过来。所以你会发现阿里的数据有无数的孤岛,第一个就导致了数据冗余,第二数据很难统一。所以业务的人不知道如何用数据,业务的人说你们仓库里有什么我们说仓库里有很多东西的啊,但是结果呢业务的人不知道用哪一个。所以从数据化运营已经走到运营数据,这个循环的本身就是公司很重要的一个轮回,懂得用数据要开始懂得养数据。今天来讲,程杰也讲了数据就是上半身的,下面那个不算。其实下面才是真正的大数据,收集数据为解决未来的问题,这个问题就来了,当你要解决未来的问题,你怎么知道未来的问题是什么呢所以这个地方就会说出现是你要说,到底收集什么数据才能解决其他的问题,这是一个循环。当然阿里经历了这个循环之后,我们中间曾经有一个小插曲是什么呢我们认为16个性别还是18个性别,但是我们管理层可能说不靠谱,把他删掉,就留一个,结果我们找了一大堆人是来讨论,结果公说公有理,婆说婆有理。比如说这个是在我用广告时候的性别,但是不管怎么样,那个人说自己是男的,或者说那个人是女的,就是人名数据,真实数据,他身份证是怎么样。所以你说我们到底真实的还是相信用数据计算出来之后的那个18个不同的性别呢最后的结果是这个会开了五六次之后就不了了之了。因为我们交叉验证了,还要把广告放到里面去验证看,还是发现里面有差异的。我今天早上在想,数据应该是更自私还是应该更博爱的,就是你做一个数据你希望更多的人用这个数据,还是说你做这个数据出来更贴在我的需要里面去想想用这个数据呢如果我们要统一数据的话,你就会发现肯定不可能很贴身的去给到数据,这个有效性到底在哪里呢这是一个,我们今天在数据管理上是一个很大的问题。

两个循环,我们看到这个循环,每个公司都是这样转出来的,就是说他学习自己中间里面的其中一个内容,比如说他特别懂的,购物难的闭环,后面我们去找很多能解决购物难的数据去养,但是我们把圈体再放大,就会让我更理解去用这个数据。所以我们为什么说数据是活的,一定要用出来,就是这个原因,你不用的话,你就没有办法,你仅会用一个管理层的方法说不靠谱,为什么用这么多的性别,其实你用的时候每一个场合都有自己的原因。当然我们还是要管的,但是管的技巧就变得相对困难的,没有这么容易一刀切的,因为你浪费资源所以我不给你多一个资源。

大概来讲,我们同时间的循环在转动的时候产生了一些价值,产生了一些数据,甚至产生了一些工具,那这个工具大家不要认为这是一个可视的工具,他可能是帮助你建模型的,就是做模型里面也可以让模型变得有效。或者我们有一些工具平台,就是今天早上孙权所说的,阿里今年想的是说,要把我们很多的精力继续做更好的数据工具平台,我们的人上去的时候,我们可以好好用,这是更有效的去做数据的事情。

可惜的是,这一边进去的时候这些东西,给了我们四个不愿意看见的东西,一个是数据的冗余,人才的不匹配,工具的不统一,安全与质量的保障。这几点都是拉着我们的后退的,中间里面的人才不匹配就很难就是一言难尽了,因为太快速的发展对人才的培养有时候是很难去匹配,一下子觉得分析可能对公司最重要,一下子觉得数据挖掘的人才更重要,然后又回去说分析师更重要,你会在摇摆在这个东西里面,所以你会发现人才的匹配变得越来越难,所以昨天我们管理层开会的时候我决定,我们每个人分工,数据决策小组里面分工,我自己说我做人才,别的事我先不管,安全质量我也先放下,但是我主管想看到底需要什么样的人才,所以为了明天的数据能发展得更好。因为我觉得还是人这个地方最重要了,今天其实花了这么多精力去做这个,大部分也是为了人,我自私一点说就是为了更多的嘉宾来给我们阿里的同学灌输更多的经验给我们的同学。所以我不太希望我来讲的,因为他们平时都可能听到我在讲什么。

这是我自己的概念,不仅产生了数据,产生了非常多的经验,或者不好的经验,伴随来的有很多的价值。

盲点,我们以为数据非常伟大,非常的厉害。但是你看,最近美国有本书是蛮流行的《蒙上左眼两周》,蒙上眼睛两个星期,你就会发现你脑部左部结构部分过了两周就开始变了。这个说明什么,其实很多时候眼睛是在骗我们的。为什么这样讲呢,我们今天其实就给大数据的外表给骗了。早上的时候你在路上碰见你的朋友穿了一件体恤,你回到公司到淘宝搜索T恤,结果他出了10万条给你,然后你的老板叫你说品觉开会,然后开会的时候我打开手机,寻找T恤,结果他出来一个100元的手表,结果我就买了手表,这是盲点。早上的时候淘宝如果分析数据的话,你是不可能知道这个人早上看了朋友的体恤,最后才去搜索,在他搜索10万条就走的时候,不是说他不喜欢这个结果,而是老板叫他开会。但是我们不知道他老板叫他去开会,然后他进去会议室的时候,用手机搜索这个T恤的时候,这个ID跟PC的ID是不通的。所以我们的数据非常有大的机会是进来就手机搜索T恤,看到手表,购买。结果T恤没了。如果没有很好的数据分析,所有跟着他的数据都是浮云。所以多屏的数据对这种需求的影响非常大,但是这个东西对我们做数据的人来讲一直都认为是什么没盲点啊,其实无数的盲点在里面。所以盲点在数据里面是非常可怕的。当人家说那怎么解决啊还是有些蛛丝马迹能解决的,譬如说这个搜索了10万条出来这个人,跟这边人想办法怎么连结。到下在移动分场里面有一个数据科学家(美国请过来的),他是做数据分析的,就是用大数据的方法来确认这个人就是这个人,整个公司就干这个事,为他主打的数据分析,谷歌都会用他的数据结果。就是他去解决一个小问题,其实这是一个大问题,所有广告商都想知道,到底他的广告效果是不是串联起来的,还是那里断掉了。我举一个非常简单的例子,说明是可以的。当他电脑上的搜索跟手机上面的搜索是不是很近,这些都可以连结起来。

五大场景,现在的五个数据的大场景,其中一个是到底我们手上有什么数据可以识别这个人到底我们有什么数据可以从场景里面找到这个数据,当然现在来讲,更重要的是到底我们怎么知道他当时的Situation是怎样的,今天程杰博士里面有两页PPT,是非常干的货来的,当时有个媒体在我旁边说,程杰博士好象这个没什么,我说你好好用心看吧。我说你看这个是干的,其中一张东西是把一个金字塔里面的数据分成很多类,然后他的下一步是什么他收集的数据是为了想知道他下一步,譬如说现在在电影院里面刚出来的五分钟,而且现在是5点钟,现在是不是应该推荐一个海底捞给他呢。所以当时的PPT我在美国看的时候都没有给我,所以今天发这个PPT,好象有些媒体已经发了出去了,你们可以找到的。他那个PPT里面就把数据的表已经放出来,实际上就是收集数据的办法,把大数据简化到几十个数据,然后是对人是有非常大的影响的。而且程杰博士第二个PPT讲的是什么数据交叉的话可以增加销售量500倍,原因就是仅仅只是知道他在电影院里面出来,但是你没识别他是谁,没有用。所以这三组数据之间的交叉,会对我们将来会非常有帮助。那我为什么特别提出这个数据呢因为我们一直在阿里的时候,在收集数据的时候都有一个没有办法走出去做,就是我去收集数据的时候有没有一个方向去收集。所以这个东西是非常重要的,所以为什么脸谱、谷歌拼命在抢的是希望所谓的识别度,这样我就知道你在那里,第二我知道你在干吗。所以你在美国的时候,会发现脸谱里面有很多地方都是免费Wifi,然后就知道你在什么地方,你在干什么这些数据用的话,对这个人的理解会有非常深入的理解。第四组数据就是关系数据。关系数据是什么呢就是哪怕Simon没有打开他的GPS,当然我在他的旁边,我有打开,我们两个人在一起,所以我知道他的GPS,所以场景数据是传输很多数据过去的。利用关系链里面把一些标签传达过去另外一个人的身上。

所以我自己觉得呢,大数据的力量在用户研究来讲,就是还原一个用户的真实需求。就是用数据来还原,所以我自己觉得,在我们没有做分析之前,不能还原的东西是没有用的,早上Simon说解决问题有几步包括我们中国历史有多少人写的东西不是他心里面想的东西来着,都是为别人写的,春秋、史记,全都是帮别人写的。所以当我们要还原一个东西的时候,我们要知道有没有足够的数据来欢聚。

现在的数据化思考有三块,我们懂商业懂数据,但是有一块是思考的方法,昨天晚上我们在饭局的时候就讨论了很多中国的市场跟西方的市场有什么不一样,我觉得中国市场里面如果用几句话来说中国的分析思考跟西方的思考不一样的地方,中国非常讲究寻找一件事情的本质,先找出一个东西的本质,而不去说你头痛医头,脚痛医脚,而是知道首先你出现的不平衡,然后把他调节过来,然后运用一些新的方法。

数据交易,这张图很复杂,这是我这几年以来,很多分析师问我,数据到你的分析系统里面是怎么做的从我们这个层面来讲,我们收集数据,数据为了还原,还原为了决策,决策为了执行,但是我在当中收集数据的时候肯定有个目的或者目标,最后到了还原决策里面,我是要把数据去溯源、细分、对比,这样才能从还原里面大概猜到未来。知道对比了之后,我们在当中找出规律,然后做一个判断,判断之后我们进行决策。但是这个是不够的,我们还有上一层是不同的数据,所以我们要看的是企业的角色,还有商业的模式,市场的环境,产品的特式的,包括企业的DNA,要结合这些东西来看。

但是我分享的不仅仅是这个,还有一个是数据的回路,虽然上面是一个数据化的运营,但是下面是一个运营数据,运营数据的时候,我们需要知道什么呢执行结果有差异,我们要知道的是我们的判断到底是错判还是对判。我们知道判断错误有可能还原错误,还原错误有可能就到收集错误。所以我们要修正这个收集数据的源头,所以你看数据的收集,整张图加起来就是数据的收集、还原、决策、执行,反过来是执行、决策、还原,数据收集。

两年前我就在思考,数据十诫:一切从问题开始,从实践中提炼数据,让数据变得超级简单,让数据跟着人走,颠覆性的创新来自分裂重组,以假设数据都能获得去思考问题,数据开放是硬道理,利用数据拿到更多数据,建立数据的数据,数据是一种信仰。早上的时候,孙权说他喜欢数据是一种信仰,但我还是希望今天的数据变得更规范,多余说要是一种信仰。所以第一条:第一好的问题、答案就在里面。第二条没有变在实践中提炼数据。第三变了,以前是让数据的体验收集、使用、分享变得超级简单,但是我觉得让数据变成Technology,Enable更多人。第四让数据跟着人走,没有变,如果你没法识别这个人所有的数据都不是你的。第五个没有数据质量,什么数据都是浮云。这一条我觉得是非常重要的,所有公司在用数据的时候,要知道怎么保证数据的稳定。我们现在DW的数据还会出现有些时候到上午的9点钟,我们那天要的数据还没有出现,我觉得这个跟真实的环节是不可接受的。第六以假设数据都能获取去思考问题。第七个变了,大数据安全,不是监管。为什么呢以前做安全必然的方法,Simon以前跟我要数据,我要看他的职位确定他能不能把这个数据给他。但是这个我觉得值得反思的时候,整个大数据这么大,其实没有一个人能完全知道一个数据是不是危险的,所以我们应该用其他的技术,应该去解决这个问题,而不是用监管。监管太麻烦了,如果在这里有做过安全的人都应该跟我一样,很坑爹的,真的是不知道怎么办。但是做这个决定的时候基本上是自己做这个决定的,你只知道手下用了什么数据出了问题你会连坐,但是无法判断这个是安全的这个是不安全的。大数据到现在这种情况基本上很难作出判断,所以一定要想办法,他不是监管,这个很重要。第八利用数据拿到更有用的数据,稍微变了一下,Simon我现在告诉你,在这个房间里面的平均年龄是多少你会告诉我你的平均年龄呢这实际上已经用数据来拿数据了,他是用数据来去让你觉得爽,如果你给我更多数据我会给你更多服务。第九建立数据的数据,才有进步。我这里讲的数据的数据是如果我们今天在做大数据的人,自己走没有办法去判断我的大数据做得好了吗他其实很难进步的,其实你是盲目的进去做大数据,你也不知道怎么去分析,一个做到好大数据的公司,应该是用什么指标来衡量。第七让人去做人擅长的事,机器去做机器擅长的事。倒过来会很麻烦,人做了机器擅长的事,机器做了人擅长的事的话。

这个是我今天的演讲,谢谢大家!

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

(0)
车品觉的头像车品觉专栏
上一篇 2016-02-26 10:00
下一篇 2016-02-28 08:00

相关文章

关注我们
关注我们
分享本页
返回顶部