TalkingData崔晓波:用数据的心智去超越

TalkingData CEO崔晓波作为第一位演讲嘉宾发表了《用数据的心智去超越》的主题演讲。

9月13日-14日,由TalkingData主办的“T11 2016暨TalkingData智能大数据峰会”在北京中国大饭店隆重召开,本次会议主题为“智能数据生态”。

据悉,本次会议邀请了国内外各领域的数十位数据专家、行业精英、知名学者共同围绕在业内既存在广泛共识又有较大话题性的一系列议题展开深度沟通、交流探讨。

TalkingData崔晓波:用数据的心智去超越


TalkingData CEO崔晓波

TalkingData CEO崔晓波作为第一位演讲嘉宾发表了《用数据的心智去超越》的主题演讲。在“智能数据时代”,如何应用数据是企业突破发展的关键,但在实际运营中众多企业仍然存在着业务数据化、数据资产化、应用场景化、技术开源化等四大方面的挑战。崔晓波强调,企业应当更加重视观念上的转变,只有从根本上转变个人思想与智能数据观念,才能真正走到“智能数据时代”的前列。

以下为崔晓波现场演讲文字实录——:

首先分享一些数据,现场来的人数有3112名观众,来自于金融、地产、零售、政府、营销、出行、互联网,其中来自最多的行业是金融行业,我们看了一下刚才的统计数据,金融行业的嘉宾占到了本次参展嘉宾人数的32%,所以毫无疑问金融行业走在大数据前列。

第二想跟大家分享一下这次参会嘉宾的质量非常高,统计下的人群画像,教育水平、收入标签、职业标签都揭示了这一点,希望大家借本次大会的机会,不止听台上的专家、同行跟大家分享大数据领域丰富的经验和案例,也希望大家在本次大会期间互相交流,思想碰撞。

本次大会的主题是智能数据峰会。为什么有智能这个词今年以来又出现了很多热词,不止大数据、人工智能、深度学习、机器学习、无人机、AR、VR,所有这一切好像跟我们相关,但好像离商业价值又那么远,它们与数据有什么关系,有没有可能给企业、给行业创造价值这是本次峰会想跟大家一起探寻的答案。

到了移动互联网的时代,发生了什么根据TalkingData的数据统计,在中国,智能手机(含平板电脑)拥有13.05亿用户,可穿戴设备已经达到千万级。这意味着什么智能手机、智能设备基本上人手一部甚至多部,无处不在、无时不在。

智能手机之所以叫智能,一方面是因为丰富的应用,但更重要的是它有大量的传感器。我们这些数据从业人员迎来了历史上最好的时刻——数据爆发的时刻。所有这些,意味着以人为中心的世界都在数字化的进程中。

通常意识上的认识,包括这四项:

第一,感知。大量传感器可以帮助我们收集人体包括自然环境各种各样的信息,一部小小的智能手机里,不算摄像头,不算麦克风,平均包含13到16款内置的传感器。如果把传感器都打开,一天一部手机产生1G的数据,这还不算摄像头和麦克风。这些意味着什么意味着哪怕物联网在发展,哪怕智能手机在发展,现在人工智能依旧是最浅层的,哪怕数据的运算、存储、传输等等领域依然存在着巨大的障碍。

第二,大量的数据上来了,人工智能怎么识别这个社会,怎么识别这个世界我们感受到了语音识别技术,图象识别技术都在大规模的发展。我们跟很多大的合作伙伴,比如谷歌、脸书交流的时候,发现所有的公司都在转型做AI和深度学习。我看到几乎所有世界上顶尖的技术公司都在做一件事情,就是尝试用算法、机器去还原人在现实生活中的动作。目前,机器学习的算法很强大,为什么呢因为它居然可以在复杂的路况环境底下开车,帮助医生根据数据诊断病人的病症,这在十年前是完全不可想象的。但是认知到了什么程度不管最近无人驾驶出现的问题,还是一些医疗的情况,都预示着人工智能对世界认知停留在早期阶段。

目前在识别,包括认知方面有很大进展的原因,首先就是数据量的变化。在语音识别方面,我们已经取得了很大的突破。谷歌建立了几十亿音频的库,并且用人类的智慧标注它,所以可以用算法、用人工智能找到模式,甚至可以区别口音,图像也是同样的。在过去几十年里,人类花了大量的时间去标注这些图像,我们才能在图像里切割识别出各种各样的物体,没有这些人的智慧,现在人工智能是达不到这样的程度的。

AlphaGO,大家看了这个词很烦,好像都被炒烂了,但我作为这件事情的亲历者,当看到李世石缴枪的时刻心情是非常复杂的。一年中听了各种各样的声音,人工智能多强大,天网系统是不是要来了我认为天网会来,但其实离我们还很远。

代表AlphaGo跟李世石坐下来对战的那个人本身就是六段的高手,他在训练阿尔法狗时,加入了大量的人工智慧和大量的人为规则,让其少走弯路,这些都是被人忽略的。我觉得在目前这个时代,让算法和机器代替人做判断这个事不会发生。目前的情况下,更现实的还是要引入很多专家的智能、人的智慧,在数据科学以及数据工程不断完善的情况下,去提高AI的水平。

从硅谷回来之后,我们的学习团队也做了TDGO,经历了四个月的训练达到专业系数的水平,经常去我们公司的人会看到有很多中国企业的高手坐在那里和我们的程序下棋。我们从侧面验证了这一点,希望明年挑战AlphaGO,去击败它。这一切,我觉得是大家忽略的人工智能。

前面谈了大数据的爆炸、人工智能的发展状态,以及人的智慧在里面起的关键作用。所有这一切,让我们在座的企业家,隐隐约约地感觉到一个新的时代要来了。这个时代是什么我们觉得这个时代是“智能数据时代”。而这个时代最重要的三个要素是什么,数据、AI、人的智慧。这三者之间的关系又是什么如果做个比喻,数据相当于人的血液;人工智能相当于人的心脏。心脏需要靠血液供给,但同时它还会根据人的心跳,把血液再输回给人体,从此往复循环,形成一个正循环。人的智慧是大脑,是不可替代的。所有这一切,构成了智能时代的三个要素。

我们跟我们的客户交流,基本上客户只问我们三个问题:好像大数据这个系统投入很大,到底有没有价值怎么产生商业价值商业价值又往哪个方向投这些问题的终极答案会在这个时代得到揭示。叶斯定律是大数据时代最重要的定律,无处不在,所有的机器学习算法、图象识别、语音识别,所有的一切统计方程式后面都是这个定律在起作用。

简单介绍一下贝叶斯定律强调的是什么。我给大家举个例子,炮兵瞄准是非常难的事,所以炮兵一般会这样——首先会根据自己的经验、距离、风速等等,预估一个,打一炮,然后马上修正,根据炮的落点,一般三到五次就可以命中目标。他瞄准的方法就是贝叶斯定律——先靠人的智慧去确定一种方案,做一个决定,后续不断的通过吸收数据来调整方案,最后能得到一个接近现实的结果。它跟我们提出的三个要素不谋而合。在“智能数据时代”,企业的商业价值与基于数据的人工智能的发展与不断提高,基于数据人的智慧,成正相关关系,这是我们提出的贝叶斯定律。

未来好像很美好,我们迎来了新的时代,但这个时代来的时候企业面临的是什么其实企业依然面临着这些非常现实的挑战。根据TalkingData的显示,只有20%的数据在互联网上,80%的数据还是在传统的企业,在你的业务流程里面。

但是这些数据去哪儿了既然有这么丰富的血液,为什么还贫血我们认为是以下四个工作确实没有做好。

第一,业务数据化。听起来好像是一个非常简单的问题,一切业务都可以数据化,但经过我们几年服务经验,各种各样的客户确实做的不好。拿金融企业举例,我们看到金融企业更多积累下来的是交易数据、资产数据,非常浅层的客户资料。在智能数据来临的时候,客户产生大量的行为数据,散落在你的移动APP里、网站里面,甚至散落在合作的供应商手里,这些数据一直没有被有效的管理起来。

第二,我们是不是真的按照数据驱动的方式设计我们的TPI。在任何一个行业里面,要先定义行业指标,要知道所有数据运营的核心是什么,因为传统企业跟互联网企业比起来最大的不同,就在于互联网企业业务就是运营,运营就是业务,分不开的。但在传统企业里面业务是业务,运营是运营,没有形成闭环,所以这依然是非常大的挑战。

数据如何资产化,关于这个我想强调一点,我们现在去一些企业里,这些企业经常问我们,你们TalkingData的智能数据平台跟我们的BI系统有什么区别,甚至跟我所谓的数仓等一些传统业务数据库有什么区别其实,大有区别!第一,变在哪儿原来的企业是以业务为中心的,我要开户,要买资产,要服务客户,所以这些系统会有大量的副产品,这个副产品叫什么是数据,总得找个地方存起来,建商业智能BI系统,怎么用再说,更多是给领导出几个报表,不是真正驱动我的业务。现在的时代是什么坦率地说“智能数据时代”来的时候会倒过来,数据会变成企业的核心资产,慢慢会发现你们现在的业务系统很多是给它服务的,你做这个业务可能本身都不赚钱了,只是给我积累一些数据,以使我提供其他智能数据的应用,所以这一切在变。

第三,应用场景化。其实,并不是所有的业务场景都适合智能数据应用。因为在这个时代,你要做一个产品需要强调什么要超乎现有的体验,因为你在理解你的客户,客户也在理解你,重新改变对品牌的认知,以前是什么银行,什么券商,什么房地产公司,我可能就是看你的营业厅、看你的售楼处对你有认知,现在真的不是了,你跟它的每一个交互点都会改变他的认知。

第四,技术开源化。我们认为会很快到来。机器框架、算法框架,现在用的非常高大上的算法都会开源,至少你会看到开源的替代品,而这些技术主要在西方的公司手里边。如果把这些技术、这些算法、这些数据科学的能力和业务结合起来,给你的业务去服务。不触犯用户隐私又符合企业法案的规定,不把核心资产暴露出去。以我看到的情况来讲,目前的企业在“智能数据时代”会碰到这些挑战。

给大家分享一个故事。有一次我去一个企业里边,老大跟我说我们数据情况非常好,我们有好多数据。你们数据资产情况怎么样他说数据很多。健康度怎么样我们数据很多。我实在忍不住了,我把这个平台给他看了,他就说是这样子,里面所有资产情况会在这个平台显示,健康度、饱和度、密度等所有评估数据的指标会在这里一览无余,从业务的角度去管。

当代数据工程最大的难题是什么就是数据清洗,我们叫数据准备阶段,80%的放在这,我们要一遍一遍清洗这些数据,找出不合规的,剥离错的,直到业务可用为止。但是,我们引入新的算法自动帮你归类,我们基于机器学习的方法去分析所有数据。

我们把业务层做了归类,优化了很多传统的模型和算法。比如神经网络,线性回归的效率,数据科学团队做了大量工作,帮助大家优化这些算法,使外面的数据科学团队可以很好使用这些算法模型。

为了让数据工程变成一个让大家比较喜欢、不再是那么无聊的工作,我们要提供大量的可视化功能,对所有的数据从它的出入到准备到探索到加工再到发布所有的环节都用可视化的方法管理。我们希望,以后业务人员、数据人员可以通过所见即所得就能完成这样一个功能。

除此之外,我们还专门准备了数据应用市场,帮助客户引入大量的第三方应用数据合作伙伴,基于你们的业务场景和数据,再基于你们的数据和TD的数据,一起和第三方的数据开发出各种各样强大的算法。他们可能应用在智能投入,可能应用在新型的反欺诈、人脸识别,可能应用在房价地价的预估,人群的预测、你的线下人群和商圈的价值评估里边,所有这一切都可以在基于我们数据的应用市场里边得到答案。

前面,谈了我们的产品,接下来谈一谈技术。其实,今天会有两个重磅级的框架开源。

第一个框架是Myna,就提出的基于物联网的数据采集依然是非常大的挑战,过去两年我们默默做了很多工作,投资了很多公司,我们在打磨这个框架。我们的Myna预制了人工属性,指出来这个人是谁,我们会预制环境感知。在家里、在公司、在医院、还是在餐厅行为识别,他是什么姿态,他是在跑,在跳,在开车,还是坐地铁坐在车上,坐在副驾上大家觉得神奇吗我们做了很长时间的研究,有一个模型的特征告诉我们,开车的那个人和坐在副驾的人转弯的角度是不一样的,我们才把这个难题攻克了。

它跟技术也是相当优越,第一这种情景感知的场景要求是很高的,进入一个场景马上识别出来,要给一个反馈,我们采用大量的时间窗口叠加的技术,比国外类似的技术在同样识别率的情况底下速度提高三倍。谷歌有谷歌的框架,我们跟它比的话有非常优势,虽然国内用不了。

第二个是情景感知。这是非常密集的计算过程,大量的计算带来大量的消耗,如果把普通传感器火力全开,20分钟就没电了,耗电量是非常大的挑战。我们根据环境优化采样算法,对比同样的算法模型,耗电量只有它的1/4,没有外部依赖,集成非常简单。

在数据科学的方面,我们会开源我们的大规模的机器学习引擎。Fregata这个产品不是一个新产品,在过去两年里边数据科学团队大量使用,经过千锤百炼非常稳定和可靠,在这样一个时代里边希望把这两个开源框架贡献出来。一个基于终端、客户端智能引擎,一个基于服务器端大规模机器学习的框架。

TalkingData自带数据,所有这些数据、这些标签都是各种行业得到大量的应用,以及证明了它有价值的数据。这一年以来,我们的数据加工也到了一个新的高度。除此之外,我们把所有的数据做了归类,只有这样才能用。经常有人说数据有很多,又怎么样数据是怎么用一定要清楚。数据有三要素:属性、场景和动作。它怎么用呢作为商业场景里边这个公式不分享了,无一例外——什么样的人在什么样的情景底下会做什么样的动作,TalkingData所有的数据都在这个模型里,就是为了方便大家使用。

总结一下:对于我们的企业客户来说,如何跟TalkingData一起去迎接“智能数据时代”,构筑数据思维,丰富技术堆栈,聚焦商业结果,跟以前的系统真的不一样,我们一定要证明完全是有商业价值,我们要对外面的合作伙伴,外面的机器学习团队、算法团队,要有一个非常开放的合作心态,否则我们很难在这样一个比赛里面取得竞争优势。

给大家汇报一下我们过去的一些业务的情况。大家知道我们比较挑客户,对大家都是褒义的,我们在行业的头部覆盖率80%,Daas产品收入占比占到八成,过去三年里面企业客户的留存率93%,基本都持续合作下来了,收入同比增长三倍以上,不用担心我们的现金流,在此非常感谢在座的客户,是你们的支持对我们的帮助,让我们走到了今天。

我们认为,TalkingData在“智能数据时代”会成为领导者。我们将海量的数据、领先的技术以及全球顶尖的专家智慧完美的结合在一起,致力于数据的心智去改变企业和个人的思想。我们坚信数据的力量可以创造出无限的可能,我们将和我们的客户、合作伙伴甚至我们身边的每一个人一起去完成不可能。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

(0)
小胖的头像小胖编辑
上一篇 2016-09-20 10:20
下一篇 2016-09-20 18:24

相关文章

关注我们
关注我们
分享本页
返回顶部