上周日,第十二届全国人民代表大会第五次会议在人民大会堂举行开幕会,李克强总理作政府工作报告,指出要深入实施《中国制造2025》,加快大数据、云计算、物联网应用。“大数据”一词越来越多地出现在政府工作报告和规划中,对大众来说,“大数据”也不再是新鲜事物。但在实际的工作中,大数据究竟如何用?想要走进大数据领域的人该从何学起?紫数网请来了中国科学院大学数学科学学院副教授赵彤先生,结合他自身的经验,对上述问题作出了深入浅出的解答。
紫数网:能不能请您先为我们介绍一下,中科院大数据具体做的是什么?
赵彤:很难说大数据具体做的是什么,它要跟行业结合到一起,在行业里也要结合具体情况来谈。大数据本身也不是传统意义上的数据分析,更多的是强调要怎么挖掘东西,然后像挖矿一样为你所用。这种情况下就需要方方面面的结合,因为事情不具有普适性,更具有各自的特点。我们这个大数据重点实验室所做的工作主要是收集数据、分析整理数据,然后提炼加工出重要的信息。在这个大数据重点实验室中,我们团队做的工作主要集中在公共安全领域和移动通信网络优化领域。
紫数网:您对大数据领域的现状和发展有什么看法?
赵彤:现在很多公司都说自己在做大数据,但实际上我们并没有看到特别让眼睛一亮的新颖的东西。现在电视上经常看到的,例如通过大数据分析发现某个景点人流比较多,然后给出比较简单的统计图表。我感觉那种更多的像是数据的图形化呈现,并没有挖掘出更深层次的内容。目前,我认为大数据的应用很多还是比较浅显的,更像是统计分析,更多数据量级别上的统计分析,并没有将更深层次上的东西挖掘出来。
紫数网:您认为传统的统计分析和大数据分析的区别是什么?
赵彤:统计分为几大块,重点是差异性分析、预测、数据的浓缩。当面对数据的时候,要把数据核心的东西提炼出来就会采用聚类、主成分分析、因子分析这样的统计分析方法。统计学里的实验设计是有前提条件的,从设计实验、进行实验、取得数据到分析数据有一整套理论。单个数据的价值很高,数据量不大。
现在不一样了,随着计算机技术、网络技术等一系列信息技术的发展,我们拥有的数据量一下子就变得很大了。数据量大,但是单个数据的质量却不一定高。因此统计分析的方法也要随之调整,与时俱进。所以数据挖掘的相关方法就冒出来了。实际上这是一个演变的过程。我们也可以去做更大量的、规模更大的、深度更深的事情了,这样才形成大数据。
至于大数据,我个人感觉它是学者给这些工作的一个总结,或者说是学者对这些工作的定义,但大数据的发展实际上就是沿着这样一条路一直在走着,无论别人怎么评价它。
举个例子,我们现在在做移动通信网络的优化和规划,其实是在考虑一件事情:针对一个基站,它实际上覆盖了哪些区域?特别是在有楼宇遮挡的地方,它的覆盖范围具体有哪些地方?在这种情况下,在上世纪90年代和本世纪初,计算方法和计算能力都没法精确给出一个基站到底可以覆盖哪些区域。但是现在有电子地图,可以对楼宇的位置、高度做精准的标记,利用记录有基站位置、工参的数据结合人工智能训练出的电磁波传播模型就可以准确计算出每一基站究竟覆盖到哪些区域。如果把城市划分成为一个个5m×5m的格子,又可以了解每一个网格究竟受到哪几个基站的共同覆盖,各基站对每一个网格的信号强度是多少。这样就还原了移动通信网络在一个城市的真实覆盖情况,形成了一张城市的移动通信网络电磁波覆盖地图。基于此结果,还可以对大家打电话的话务分布形成话务分布图。移动通信网络的信号覆盖及话务分布不再是看不见、摸不到的,而是有了生动清晰的认识。我认为这也可以算是一种人们眼中的大数据。
紫数网:那您认为大数据的核心是什么?
赵彤:大数据的核心就是还原事实真相。就像刚才的例子。我们的无线网络到底都覆盖了哪些地方?为什么我的手机在这儿有信号,在那儿就没信号?通过电磁波的覆盖地图,就可以很清楚地还原出来了。
紫数网:现在所有人都在说大数据,可是大数据和我们本身个人究竟有什么关系的呢?
赵彤:大数据对于市场来说肯定是有好处的,但是今后可能会有一些变化。大数据究竟是什么呢?举一个简单的例子。我们发现抽烟和癌症之间有很大的关联,那是不是抽烟就一定会得癌症呢?假如我抽烟,那是不是我抽了烟就一定会得癌症呢?有这样一个规律,只要有人检查出得了癌症,医生就会问他是不是抽烟。但他抽烟这个行为跟他所得的癌症有很强的关系吗?所以还是需要具体问题具体分析。大数据赋予我们的是宏观的趋势,但对于具体个体而言可能用处有限,甚至说没法用。普通人要用的话,准确地说是“小数据”。小数据就比较具体,有针对性了。比如体检报告,医生看了体检报告、基因组成和家族遗传,这时候抽烟对癌症的影响到底有多大又另当别论了。“小数据”是针对小群体的、或者说个体的数据。这个跟大数据的差别就比较大了,但它又是以大数据为基础的。“小数据”这个概念我不知道解释得准不准确,这是大数据发展的方向之一。
紫数网:所以您认为小数据比大数据要有用?
赵彤:小数据如果不以大数据为依托是无法使用的。小数据是大数据开花之后结的一种果。
紫数网:对于失效的数据、过了时效的、还有异常数据,您在数据处理的过程中,有没有可能避免?或者有没有什么方法让它更有用?
赵彤:首先,数据是珍贵的,有什么数据就尽量用什么数据,就跟厨师一样,买了什么材料就炒什么菜。厨师很少嫌弃食材,把它剔除掉。比如在学校食堂,厨师有时会发现买的肉在冰箱里冻了一晚上,不那么新鲜,只要还符合卫生和安全标准,他可能不会扔掉肉,转而在做菜的时候加一点辣椒调味,尽可能的在食材不变的情况下,菜的口感是最好的。如果原始采集的数据质量不好,在统计数据的时候,如发现其不是完美的正态分布,可以通过一定的数学变换方法进行调整,甚至选用其他的统计方法,比如非参数统计方法等进行数据处理。而统计指标的选用也很有技巧性,举个简单的例子,比如平均值。表示数据集中的统计指标有很多种,我们有平均值,还有中位数、众数,哪个最合适我们分析的数据就用哪个。再例如常见的最小二乘法,为什么公式里一定是平方?不平方其实也是可以的,换用绝对值。平方可以放大数据的差异,不平方会对数据中的异常值有更好的容忍性。在选用方法时,灵活的处理是很关键的。
紫数网:现在很多大学都在开展大数据学科,您对这件事怎么看呢?
赵彤:首先,我认为这是有很大需求的。最开始我个人也很好奇他们究竟学什么。因为先要了解各个大数据应用的学科交集有哪些,才可以考虑要开哪些课的问题。现在大家达成共识,清晰的认识到数学对大数据很有贡献。数学有两个学科是最直接的,一是统计,一是优化。统计肯定是很有用的,因为大数据主要是考察数据的趋势,这种趋势主要是通过统计分析得到的。统计分析的经典方法可能又不太够用,所以之后发展起来了统计学习这样的机器学习方法。但是我也有一个没有搞清楚的问题,这些内容如果都是在本科开课的话,似乎有些太难了。我个人更倾向于研究生再开这专业,应该能对大数据学科的发展有更大贡献。由于大数据涉及的学科较多,在本科四年中把这么多内容都学好不大可能,或者所有东西都只是学一个皮毛。
数据处理的技巧很多,需要丰富的经验。所以我觉得本科毕业就参加大数据的相关工作还是有很多东西需要学习和补充的。比如做统计分析,琢磨如何用好这些统计方法,就需要很多年的积累。在大数据领域,需要积累的学科就更多了,比如在系统架构问题上,使用Hadoop那一套呢,还是自己做一套用C语言写的?还有编程,用C还是JAVA或者是用MATLAB,完全不一样。比如科研类的我喜欢用MATLAB,但是工业领域给人家交付一个软件,就肯定不能用MATLAB。
紫数网:您的建议是让学生在本科阶段更注重打基础,那研究生阶段呢?
赵彤:本科阶段主要打基础,真正能够胜任工作,或者在业内做得比较出彩,还是要在研究生阶段。
紫数网:如果本科生在学校里学习的是基础性的东西,毕业之后想进一步的话,您认为应该进入社会学习,还是在校读研究生会更好?进入社会的话接触的是实际的数据,解决实际的问题,但是研究生可以更深入地学习。
赵彤:各有利弊。进入社会的话,会接触到各种各样的项目,在项目里摸爬滚打会积累很多经验,是非常有意义的。尤其是对一些问题的理解,会更加的透彻。但他最大的问题就是理论的积淀可能不足;研究生恰好相反,会有更多的理论,知识面会更宽广,看到的问题或知道的问题更多,但同时动手能力较差,眼高手低。所以两者结合会更好,但实际上鱼与熊掌不可兼得。所以一个真正的大数据人的成长之路,是他研究生毕业若干年之后,在社会上摸爬滚打,知道一些理论上的东西,同时有了一定经验的积累,效果会更好。因为大数据涉及的学科较多,也太杂了。
紫数网:那您认为刚刚接触大数据行业的人应该如何学习大数据,有没有推荐的书籍或学习方法?从您作为老师的角度来谈谈吧。
赵彤:这得具体问题具体分析。准确地说,碰到了什么领域的大数据问题,先弄清这个问题具体是什么,然后根据这个领域、这件事情的特点,再来看相关的书籍。在补充大数据的相关知识之前,我觉得先从科学史类的书籍看起会比较快。它应该是某个学科的历史,比如数学史,如果研究计算机的话,那就看看计算机的演进过程,如果是数据存储的话,那就找一本介绍数据库如何发展到今天的书。这样可以快速、生动地了解、认识某个领域或学科,在此基础上再来看需要汲取这个领域里哪些方面的知识。我举一个简单的运筹学的例子。对于优化来说,涉及两个方面,一个是确定型的优化,另一个是涉及到概率的不确定型优化。比如说今天下雨的概率是50%,到底带不带伞?这就是一个不确定的优化问题。假如我们选择确定型的问题,比如路径规划,最大值或最小值,博弈论。可以先了解这些理论的发展历史,搞清楚为什么要研究这些问题,它们是怎么发展的。大数据跨学科,要求从业人员涉及的面很宽,而不见得在一个领域了解得很深。在涉及的面很宽的情况下,先定位自己在什么位置上,然后再深入的学习相关知识。大数据有点像挖矿或者找石油,首先要知道在哪儿打井,这种情况下就东找找西找找,找的面会很宽,但每一个点都不会花大力气。一旦感觉到某个地方会将来是大油田了,再在这个位置上深深地扎下去。这可能是最经济、最简单的办法。
本文由紫数网投稿至数据分析网并经编辑发布,版权归原作者所有,转载请与作者联系。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。