摘要:新浪财经讯 “2015中国高新技术论坛”于11月16-18日在深圳会展中心举行。台湾财团法人资讯工业促进会大数据所技术总监徐允平出席并演讲。
上图为台湾财团法人资讯工业促进会大数据所技术总监徐允平
徐允平表示,大数据对我而言是发现未知未来,对于这一些资料有了掌握,你就可以准备好你去应付未来、应付将来的竞争,这个在好多个领域都可以用到,医疗照顾、零售、制造甚至政府单位,个人都可以用得到。
以下为演讲实录:
徐允平:大家好!我是来自台湾的资讯工业促进会,刚才主持软他也来自台湾,他还了解我们一点,我稍微介绍一下台湾的资讯工业促进会,它主要的经费来自台湾政府。做的是科技方面特别是IT工业的研究,主要目的是为了促进资讯工业研究,我们做的主要是技术方面的研发,但是跟工业界特别就是IT工业界走的比较近。
所以我今天的题目是与大数据比较直接相关,因为我是来自资讯工业会的大数据所。我觉得相信与在在座的诸位来宾都差不多,我认为我们都是一个非常幸运,当然我们也是会有一些差距。但是像我个人经历过的这些电脑工业,我觉得是还蛮完整的,从我大学时代所使用的电脑大概很多人没有经验过,到我出国念书那时候大家最流行的带一台PC,那个时候PC已经很流行,而且对电脑、工程方面已经是非常重要的一个工具。
当然后来更重要的就是互联网,到现在的大数据,这一波接着一波来势汹汹,对于我们的生活的改变也是越来越大,我想用这个来做一个起头。
大数据风暴的形成,就是这几个因素,这是我个人的看法。它好像一个很完整的perfect storm,它来自于数据的爆发,它来自机器学习,技术的一种利用,这些技术早已研究多年,再来商品化的运行,也就是说(英文)软体开源,还有一个横向拓展的技术,我后面再做一些详细的介绍,我觉得这些因素造成了大数据风暴的形成。
我们先从data开始说,这张图叫Data Never Sleeps,它从收集到的资料从2011到2013到到2015,这上面几个特别惊人的数字我特别讲出来,一个是U to(音),在中国也有类似的优酷,Ato上传的影片和上传的照片,Facebook分享或者点赞的活动,在这几年来是呈几何程度的成长,这非常的惊人,Uto以每分钟上传了多少小时的硬盘,2011年是48小时,2013年是72小时,2015是三百小时,这个成长非常惊人,大家会注意到这边所收集到的资料,它当然是internet所产生的资料,因为这几个特别具成长都是相关的,这也是一个趋势。
近年来数据暴增这个图片有点旧,但是那个时候在2012年左右,2011年与2012这两年所产生的data是历史以来的90%,我相信在后面几年仍然有很大的成长,会有90%。但是还是非常的惊人。也就是说在近年来由于这个数据互联网、计算机的这方面的盛行造成了数据量的暴增。
这张图也告诉我们,cloud确实带来了更多的资料,你看一下曲线是在Inter cloud data,这一方面所造成的资料,产生的暴增,令资料量的总数呈了几何性的增长。
Big data有三个V或者是四个D或者是五个V,最重要的三个V,volume资料量的大,大数据,velocity资料产生的速度,以及variety资料的种类,资料来源的格式有非常多的种类。因此在做大数据的处理就必须要面对这几个挑战,不只是资料量的大,同时也要能够迅速的处理,并且要能够对于各种不同格式的资料处理。
我们常常用冰山来描述它,也就是说在冰山上面的一个角落是我们所看到的资料,在隐藏在冰山下面还有巨量的资料、海量的资料,那我们要如何征服它它对我们来讲意义又在哪里呢
这个是美国的国防部长在大概2000年左右,当时的记者在问他你为什么去打伊拉克他说我们要去找(英文),后来也没有找到,所以人家来问他,他就说,说了一个很好笑的,但是他说:“There are knownknowns,The are known unknowns,There are also unknownunknowns。”当时的记者也被他搞的搞笑了,我到现在认为在今天这倒是有一个很好的启发。
也就是利用大数据你可以去寻找你不知道的答案,这算是已知的未知,利用大数据以及机器学习的一些方法你可以找出你未知的未知,你并不清楚某些资料或者是属性他们有一些相关的条件和关系,比如说很有名的哪一个他就找到这个尿布和啤酒常常是一起被买的,这也是一个很有趣的未知。你会针对这些制造更多的商机,这些资料子所带来的知识对你来讲有多重要呢我相信在未来,大概所有的企业其实不管是大的、小的都会需要利用大数据来增加它对它的领域的一些新的认知,其实这不只是是商业,刚才前面也有提到例如说健康都有在运用大数据的技术来改善我们的生活、照顾我们的病人、寻找新的医疗方法。这个图随着时间的转移你所发现的这些事情它会从上往下渐渐的,从事件的发生到资料的收集到你发现他中间的洞察,也就是你找到你未知的未知它的关联性,到你应用这些洞察而做出的一个决定,为了这个决定而付出行动,你如果要做一个赢者,你做的一个洞察和这一段时间之内要采取行动,否则的话会错失良机。
刚才也提到了电脑技术或者IT技术的一波一波的开发,这个是IBM[微博]的CEO他前一阵子提到了第三波的技术。他说第一波那时候的电脑是拿来算一些东西,算一些账,做一些基本的商业用途。在第二波的时候我们已经改善了我们如何利用电脑,我们发明了程式语言,越来越高的程式语言,我们可以控制电脑我们希望他做的新的想法、新的事情,这就是第二可以编程。
在第三个阶段,这个计算机要开始能够自己去学习了,他认为这个时间就是现在,现在就是这一波的开始,也有人说会不会有人工智慧会不会电脑有它各自的思想,会不会去想这倒是一个在计算机里面讨论很久的事情我觉得他讲的还是比较保守的还是比较现实的,电脑确实是可以自我学习,当然也靠程序,当然要靠它去想,这一个步骤现在还在研究中。
大数据对我而言发现未知准备未来,你对于这一些资料有了掌握,你就可以准备好你去应付未来、应付将来的竞争,这个在好多个领域都可以用到,医疗照顾、零售、制造甚至政府单位,个人都可以用得到。
再来我们讲一下软件和硬件,对于这些大数据的冲击的影响,刚才有一位中芯徐总提到的,moore氏定律大家非常熟悉了,这个是硬件的冲击,Gdrdon E.Moore预测:circuit doubles approximatelyevery two years这个多年来还是蛮真实的。硬件之外软件的冲击那就是开源软体Open Source Software,因为在这个之前许多的软体大家还要花费蛮高的代价才能获得,但开源软件的冲击非常之大,今天开放互联网的Software都是Open SourceSoftware。
这边稍微做一点广告,我们做了一个大数据的平台叫Bistno,在这中间用到的开源软体非常之多。事实上大数据的技术在今天大部分还是靠着开源软体所提供的基础建设做出来的,这是一个非常新的一个观念。因为以往的技术往往在很多是比较领先的,大数据在新的技术上面开源反而领先。
有了这个硬体、有了这个软体,再下来我们就要结合起来,Scale-Up vs. Scale-Out这个技术非常重要,我怎么利用这些梨园软体让我处理更多、更大量的资料、更快速的去独立它,这就靠一个scale-up的技术,因为要scale-up非常大的电脑,但是用Scale-Out的方式可以用商品化的来处理很大量的数据,这是就是Scale-Out的好处,也是今天大数据处理的一个重要元素。因此大数据的发展就是洞察发现、决策优化的大量、快速的做出的优化决策的一个效果。
它的领域包含了硬体,我归为电机领域、软体、咨询领域、计算机、分析、处理以及决策,它本身是需要靠这些领域的人来做一些分工的。这边有三个圈圈,就代表了三个最重要的三个角色,这三个角色一个就是资料科学家,资料科学家必须会做,对资料做模型和分析,以及资料工程家是做的事情就是把资料拿来做管理与处理。还有一个很重要的就是领域专家,因为大数据是用来解决各个领域所遇到的问题。本社领域专家必须要对他的领域以及这个领域上所能收集到的资料有一个很好的了解。
资料科学家特别定义是在好几个领域中间的,它的重点把这个资料中间的知识能够提取出来,他所利用的就是统计学、积极的学习新的技术。
Data engineering也不容忽视,因为它实际上在资料科学的处理中间,有50%到80%的时间是花在资料的处理,因为我刚才提到这些资料不仅是大量、不仅是快速而且有很多的形态,就是第三个V,因为Data的处理工程也是非常重要的。
再有就是领域专家,必须要了解他领域的问题以及他的资料在哪里他如何利用资料帮助资料夹来做整合来解决他的问题。
我们举几个大数据的应用,我选的这些例子是比较广泛,第一个选举,这个在奥巴马在做竞选的时候,他蛮善加利用大数据的分析,这帮助他做什么事第一个他去了解他的选民,他了解他选民在想什么他了解他的选民在哪里在哪里支持他的选民在哪里有了这个好的了解之后,其实对于他的选举之后的效益会增加很多,这也是一个很有趣的一个部分。
实际上我们市场上面的一个了解舆情也就是商情对市场不管是什么样的产品的有很大的助益,我们也曾经讲过,今天还有去做一些客户的处理,事实上在将来或者是现在其实已经到了这个地步,你真的要了解你的客户对你产品的感想事实上要去寻找。
还有工业上的使用,制造工业4.0也是非常依赖大数据的技术。比如说在做一种化合物的时候没有办法去测量所有的流程,但是你可以依据你在用料以及机器方面的各种参数,以及最后的试验结果、最后的良策结果来做统计,使得在制造的过程中间,你也可以有虚拟的,它可以告诉你你今天做出来的东西是好与不好。
在健康照顾方面这是一个蛮古典的一个例子也就是谷歌,他利用了他们的数据来做流感的预测,后来也停止了,它直接把资料提供。谷歌做到这一点就是靠他们很大的数据量。它也利用到了它很强大的运算能力,在他利用这个分析流传传播的过程中处理了四亿五千万不同的模型,他善用了处理能力和统计专业。
领域在教育方面辍学的风险提早发现来主动的辅导青年,让他们的学习能够继续。有一些人很讨厌财税这方面,很讨厌政府来收他的税,但事实上政府能够有效率的收到税的话帮助你少交一点税。
在结尾我就再呼应一次就是大数据的魅力,它帮助我们发现发现未知、准备未来,在各个领域都有它应用的机会,我的演讲到这里,谢谢!
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。