对于中国大数据产业发展,周涛是非常冷静和客观的。他对中国大数据产业的整体发展态势和现状进行了总结性陈述。在他看来,中国依然在大数据时代的门口徘徊。他表示:影响大数据的三个主要创新要素是原始数据、观念和技术及领先人。所以他们一直在致力于在建立一个好的生态,让这三个因素同时融合。以下是周教授在本次活动中分享的内容
我们谈了很多大数据的文化,但是有一个问题,我们要回想一下,我们真正的大数据时代到底有没有来?我看到我们嘉宾有一个演讲,叫做《未来已来》,但是,另外一种大数据正在徘徊在某一个关口,好像没来。
我曾经问过很多投资人,包括政府里面特别支持大数据产业发展的人,问他们能不能讲出他们身边发生的大数据的故事。他们有的人想了很久讲不出来,或者只是从以前的书里面摘出了一些国外的例子。
在我看来其实我们一直徘徊在大数据门口,并没有真正进入到大数据时代。首先总体上来讲,我们没有哪些产品带给我们社会价值,而且是典型的大数据产品。其次,在很多我们觉得似乎运用大数据带来革命化行业好像大数据也没有帮助他们实现真正的转型升级。第三,我们看到国家电视台出现了很多数据统计的影子,但是大数据其实并没有帮助国家做出什么重大决策,没有起到真正的支撑作用。
为什么我们还没有用到呢?我觉得是影响大数据的三个主要创新要素,他们之间是分离的。第一是原始数据;第二是观念和技术;第三是领先人。所以我们一直是致力于建立一个好的生态,在这三方面同时融合。
首先从技术上来讲。我们都知道谷歌口号要把机器学习能力开拓出去,我有一个师兄,他是科大讯飞的。他曾经跟我聊科大讯飞,给我聊他们开放的是一个学习结果。但是我想说的是把学习过程和中间数据挖掘能力开发出去,让我们从数据价值走到结果做出来。每一模块可能是一个梯度的决策树,可能是一个神经网络,他只需要拖拉这个模块就行了,不需要再进行内部编程,这就使得一家企业使用数据挖掘能力大幅度下降,没有门槛。这样每一家企业都能非常好使用数据挖掘。
这是我们在富士康做的例子。这个问题可以做几百上千个模型,智能制造。当我们清洗完数据获得特征以后,在编写这个机器学习模型的时候我们只需要两三个小时完成。我们可以把以前的80%的监测精度提高,同时我们可以给到银行什么是高净值用户,我们可以在一天内拼好我们的服务方案。
除了这个以外,我们讲了第二点我们希望有好的平台,能够把人才聚集起来。我们刚才讲怎么样聚集技术门槛,让技术走进千家万户。我们做了第二个叫做Data Castle,这个平台在高新区,我们把它叫做数据城堡。我们的目的是三年以后有100万,或者100万以上,数据在他数据工程里面。我们办大型比赛,这个比赛主要分两大类,第一类是算法性,就是数据挖掘问题,我们给出数据,你随时可以看到实时排名。
第二创业类比赛,我们会开放一些你不可能得到的数据。举一个例子,我们最近正在上线比赛,把整个中国60年气象数据全部开放,这在历史上是没有的,你只要上这个平台就能下载到。有了这个数据你提交一个商业计划书,告诉我你怎么用这个数据。胜出者可以得到三样东西,一可以获得一大笔奖金,二可以获得一大笔投资,三他可以进驻国家气象局,获得更精细数据,这些数据除了气象局拿到只有我们拿得到,因为我们代表国家发改委来做这项开发。这是通过市面上不可能获得数据。你们可以在比赛中找到先机,但前提是你们必须是非常好的团队。第三,我们给业协同志一些原创的内容,既包括科学研究的内容,也包括一些大V的微信、视频和文章,通过我们这个平台在不同阶段可以获得学习机会。
到目前为止我们大概有3万多人,这3万多人还不仅仅是爱好者,一些狂热者。我们前期做了全国竞赛,这3万多人来自全球1千多所高校,覆盖了北美,在北美覆盖了172所高校,大陆有2千多所。同时来自于不同企业,包括科学院、微软、阿里、1号店、京东等等。通过这个比赛我们可以甄别出来哪些人适合做什么事,因为这里面竞赛既有做广告预测的,我们也能做图象验证码识别,我们其能够处理语音网络等等数据。
所以做了这些比赛的人,我们其实不仅是通过比赛训练一个人各方面的数据挖掘能力,反过来来讲我们了解中间每一个人他在哪些数据处理当中是比较擅长的。
有了这个比赛以后,我们同时也可以做两件事,一个是提供给企业一个非常好宣传品牌机会,同时给他招募到人。我举一个例子,比如我一个朋友在汽车之家做CEO,他们光是在我们QQ群里面叫了一声,说有没有人到汽车之家来,我们当天就收到三四百个简历。与此同时在上面比赛,你迅速可以让几万个数据挖掘狂热者了解了你的品牌,知道你这个公司是做大数据的。反过来讲,我们给数据挖掘者提供了渠道,让他们正到自己更心颖的企业。
我们原来在百分点科技,做过广告,做过气象,做到医疗和教育,我们不管做什么,我们都比企业原有结果明显提高很高。说明这些人对企业带来了真正的帮助。
我们也做了数据的流通,希望数据流通产生价值。数据流通创造价值开放和交易。流通过程当中涉及到要用钱或者用数据。为了做这件事情我们要提前做好四件事。
- 第一件事情我们需要整理合法可流通数据目录。
- 第二件事情我们需要建立一个平台。你进到这个平台能够很容易搜索到你想要数据并且帮助你购买,这个平台最终成为交易,使得买家能够买得到数据,卖家更好的把数据卖出去。
- 第三件事情,我们需要去了解整个数据版权。一个数据跟一个杯子不一样,杯子卖了就没有了,但是你卖了这个数据,这个数据你还可以卖。为了解决这个事情光靠立法不行,我们利用技术手段,使得数据没法再拷贝出去。
- 第四件事情我怎么给数据定价。大家看桌上有一瓶怡保矿泉水,对于这种零售品我们对他们的价格很敏锐,我们也知道哪里能买到,但是数据不一样。比如成都一年出租车GPS数据有270亿,我们不知道这些数据能卖不能卖,如果要卖,到底卖多少钱,是一千万,一百万还是十万,不清楚,所以需要一个好的办法,跟一个精度事务所,去探索怎么样给数据定价。通过给数据定价我们实现两件事情,第一我们让数据写进企业三张表里,第二我们让数据能够作为产权作为股本金投到一家创新企业,如果这样能够成型,意味着中国几排上千万的数据会进一步衍生延伸的数据。
只有把这四件事情都做好,才能真正去探寻一个非常好的数据流通模型。
数据驱动创新,创新驱动发展。这个是模型是我们一针一线来做的,围绕着这些要解决数据流通的问题。我们还做四类平台,一类是社区挖掘品牌,一类是做大数据顶层设计与咨询,一类是做数据人才汇聚,一类是做数据安全。我们会了解每一份敏感数据,包括下载、拷贝、处理都会做数据记录,并且立刻打上水印,所以任何敏感数据泄漏都能反向追查到到底是哪个人,从哪个地方,哪台设备,通过什么权限流通出去的。
最外面这一层是整个体系做数据垂直方向。简单给大家说一下各自特点。医疗健康方面有做设备,我们现在管理了11万台设备,我们现在已经成为全国第2大设备管理商,预计明年9月份我们会管理100万台设备,所以整个未来医疗设备我们可以通过第一步通过管理收费,第二个可以切入到配件和维修市场,因为我们知道哪个设备的维修率和返修率,我们也可以通过买国产的,比如说几亿的小公司可以整体卖掉,做医疗化一体服务。另外做教育的,从幼儿园,也做人力资源招聘和管理。
我们每一个方向有一到两家垂直企业,内部有核心品牌和数据流通管控部门,能够实现整个数据的垄断,往下发展切入到数据创新基础设施。
这是我们整体情况介绍,我们团队这么多年一直致力于大数据生态建设,我们自己通过尝试,看这个生态当中存在的问题。
本文为专栏文章,来自:周涛,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/18795.html 。