摘要:9月11日—9月12日,由经管之家(人大经济论坛)主办的“2015中国数据分析师行业峰会(CDASummit)”在北京举行。本文是中国人民大学教授吴喜之在峰会上的演讲全文,演讲的主题是“如何成为一名数据科学家”。
吴喜之,中国人民大学教授
上午嘉宾的讲课,讲的东西大部分是给管理阶层和领导阶层说的。我是讲给学生,给年轻人听的。如果你管理阶层再好,你找不到人也什么都没有,而对于每个人来说最重要的就是把自己的价值提高,而不是地位。
一、数据科学的前途
这是一些调查的结果,数据科学家的年薪是多少,这是美国的。
程序员的平均年薪不是我们的目标,也不是成功的标志,这是一种价值的标志。怎么样才能有价值我说的可能有点过分,但是我必须这么说,现在的统计,特别数据统计问题很严重。
美国的一个调查报告说人才缺口很大,说明在美国培养这样的人数也不够,可以用大数据来做的缺少得更多。美国是这样,中国将来肯定也是这样,现在实际上有很多缺口。现在就怕跳槽,怕找不着(工作),我们的成功不是要通过关系,不是通过老子有个什么样的头衔,我们要有能力,这样谁都想要你,这才是价值。我们要的是价值,而不是所谓的成功。
如果你擅长数学,有很清晰的逻辑思维能力(文科的人是没有的,但是可以训练,因为大部分知识都是自学的),并且对某个行业了如指掌,如果你有这样的技能组合,就可能当上数据科学家。曾经LinkedIn有个投票显示,数据分析和数据挖掘是最大的求职法宝。那些高科技团队都有自己的数据科学团队,而那些非科技公司和大公司也需要做这些东西,他们现在需要的是人才,你们就是要把自己做变成被需要的人才。
数据科学家专业人才干什么呢对公司来说,他们可以挖掘新的信息,帮助公司开源节流,所以它需要的是人才,关键是人才。我们说数据科学,科学意味着没有权威,不要迷信那些权威,中国人喜欢崇拜权威。任何科学研究的目的是基于数据,颠覆理论,这样才能往前进。中国人从小学会的就是听老师话,听爸爸妈妈话,听家长话,古人什么都好,现代人什么都不好,这样一代不如一代,所以你必须要有科学精神。诺贝尔物理奖没有一个是承认过去怎么样的,而是推翻过去的事情,这是科学,是颠覆性的。
数据科学有很多很多定义,最基本的定义就是这个,就是Computer science,还有数学、统计、目标、知识,这是最基本的,再说多了就过分了。
二、数据科学家所需的技能
对于现在的你们来说,一般不会细到那种程度。我们应该变成一个通才,哪个公司都应该愿意要我们。清华大学之所以现在变成这个样子,就是因为在1952年院系调整的时候,每一个专业就是一个生产线,弄的很细很细,没有一个更宽广的视野。
主要是三部分:数学、统计、知识。
1.数学关键是逻辑而不是具体的方法,不是你怎么求多项式的根,而是它的基本逻辑,它的数学语言,这一点要懂。数学逻辑是各种学科当中最严格的逻辑,无论你是学逻辑的,学物理的,学什么的,文科学逻辑的肯定是不如学物理的,学物理的逻辑肯定不如学数学的,所以你要跟学数学的辩论的话就很困难。文理分科造成没有逻辑的文章,没有逻辑的法官,现在法官错判率那么高,他们中学平面几何没学好,基本的常识,基本的逻辑推理都不会。
2.统计学的是批判性思维。你们在统计学课本上学到的是70年前、100年前的知识,是前计算机时代的东西。那时候没有那么多计算机,数据量不大,所以他做什么都用假定来做结论。中国在数据统计方面的研究大部分还是遵循着70年前、100年前的东西来做,你不能假定地球是方的,然后得出结论去发表,这没有什么意义的,你必须根据现实生活的意义来做。
所以我们要学的也不是基于无法验证的假定而形成的假设检验和区间估计。就像我说的你假设检验,什么显著,0.05就是显著。亲子鉴定100个人有5个鉴定错了,能接受吗能认为这是小概率吗区间估计就更难说了。
我们所要学习和了解的,是最近20年发展而且仍然在发展的最新的经济学方法,这是最根本的。像我现在正在寻找经典方法,比经济学好的方法,我每天都在算数据,我就想找这样的例子。我举个例子,对于做出贡献性的方法,回归什么的那一大堆方法,我如果做的话,我没找到一个例子说用这些方法比神经网络做的更好的。所以说你不能从理论出发,不能从你在数学杂志上发表出发,一定要从数据出发。
有一个瑞士人到科学院讲课,就讲这些东西,底下科研的学究们,研究生们说,这个系数有什么意义啊他说贡献的变量的系数,没有任何意义,只要这个方法预测准确,那就是好。中国人学呆了。像回归分析,在别的变量不变的时候,我这个量增加不增加别的变量肯定不变的,特别经济统计,没有两个变量是完全不变的。
3.计算机科学,不是一两个盗版傻瓜软件+点鼠标就是计算机科学了。还加上网络漫游能力和泛型编程能力,我说的这个泛型编程能力是计算机编程理念,我用了很多编程理念没有一个是在课堂上学的,就是自己在编的时候自己领会。一切东西依赖于自学,而不是依赖老师,这可能跟我的经历有关。
这是2015年的一个网站调查,用的最多的是R语言,这是2014年的,R语言在图片当中也是最多的,其他的软件加起来是17%,底下这个是2014年,也是R语言,为什么是这样第一,它们是开源的,它们的代码是公开的。
第二是计算机的亲和性,还有SQL,亲和性很大,就是它的语言你懂一个,再学一个,直到后来一天一个就学下来了,真是这样的,不是开玩笑。我不想说SAS,我在美国的第一个研究就是SAS,它的亲和力小。实际上现在很多会R语言的都可以去做东西。
第三是转换性的,就是R语言跟Python转化的多,所以第一学的编程语言应该是R语言,然后Python,然后是其他的语言,其他点鼠标的语言是用不着学的。
4.最根本的就是领域知识,你必须了解领域知识,你才能够知道该怎么做。如果你仅仅是一个干巴巴的统计学家,就不会了解实际问题。
原来在医学杂志发表的一个很有名的文章讲,如果父母在婴儿房间内睡觉总是开着灯,婴儿就会有高度近视。后来再发现,凡是父母高度近视的,往往有给小孩开灯的习惯。到底什么造成小孩高度近视,现在你们知道的,但是当时的人不知道,所以要有很深刻的领域知识,只有明白目标领域知识的人才能明白它的意义,知道往哪个方向努力,去判断分析结果的可能性。所以用数据来说话,其他的一切都是废话,不要做一些莫名其妙的假定,我每年看到很多很多的文章,包括一些大赛,好多比赛题目都是莫名其妙的假定,就连31个省市自治区的数据都假设是正态分布,这31个省市自治区的就不是样本,更不用说是正态分布。
科学,对年轻人来说就是要明白这些基本的东西,太花哨的东西就没意义了。你离得越远看得越清楚,站得越高对全局的了解越好,不要太具体了,不要迷信这些炒作的新名词、新概念。用自己的大脑,用常识判断,想想合不合理。过去某个人的经验是他的经验,不是你的经验,他在特定环境、特定时间有作用,如果你要跟风就意味着永远是跟随,也绝对不会有出息。
个人要有快速的自学能力和对数据分析的爱好,我从来没学过计算机,也没学过计算机编程。英文都没学过,全都是自学的,所以我对自学很相信。现在我教的东西都是最近这几年的东西,我现在实际上比一个全职教师教的课还多,但是我教的东西好多都是前一天网上才出现的,我看到了觉得有价值,第二天就放到课堂上了。只有这样,只有不断的自学,不断的学习才能当老师。如果你不断的跟学生演示80年前的推导过程,只能显示你的记忆力好,那不是好老师。
三、判断是否适合做数据科学家
另外你是不是做数据科学家的材料你专长于任何特定编程语言相比,泛型变成技巧更重要。最重要的素质就是能快速学习东西,在这个时代技术发展的突飞猛进,语言很快会过时,新的语言会迅速普及,所以学习东西快的人比单独领域的专家更有前途。我要看你这个人的潜力,而不是你知道什么。知识再多你也超不过一个硬盘吧但是硬盘没有创造力。
如果你每天花大量的时间编程,分析控制面板上的数据,获得相关知识和信息,你对这样的工作感兴趣,你就适合干这行。现在我没事就处理变成数据。如果仅仅是想拿高工资,那可能觉得这样的日子就很苦了。实际上不光是这个工作,干任何工作,即使是坐牢你也要把它当成乐趣,这个不是玩儿的。
真正适合干这一行的人,会在业余时间里编程序、分析数据,他的目的就是自娱自乐,而不是为了要拿着什么学位,拿到什么样的头衔,最终他自己把自己的价值就提高了。如果你爱的不是数据本身,而是它给你带来的高薪,那你很难跟上来的人来竞争了。要学会干一行爱一行,每个人都应该学会热爱数据,即使是为了自己的事业前途也应该这样想,为了自己的心里也应该这样想。
还需要什么呢刚才我说了,学习能力比知识更重要,欢迎挑战、乐于攀登。有点挑战的我就很高兴,我相信很多人都这样,这样活着才有意义,像猪一样的活着没有意义。你像富二代开着宝马到处飙车,他是找不到活着的意义啊,穿名牌什么的,是让别人觉得你有点价值,实际上别人一看你更没有价值了。马克思的座右铭怀疑一切,在怀疑中成长。
不要给自己贴标签,就是我学什么方向的,别的不搞,岁数大了,学不会了,很多人都有这样的借口,这实际上是借口,我现在每天都在网上学东西,所以我现在教的东西总是新的,我的书一版再版,我现在大概写了有30本书了,为什么再版,因为我发现原来的有错或者不全面,我一定要把事情说的更透彻一点,说的更好一点。
四、结尾
什么人最快乐被人需要,这是很重要的,就是你得有价值。因为你的专长,能力、善良、尊重、爱心、品质、性格、智力、分享。在公司里跟人家能相处,至少你得是可爱的。还要关心他人,能让别人快乐的人是快乐的。尊敬别人的人是快乐的,诚实坦荡的人是快乐的,心胸开阔,不去计较一些小事情。最关键的就是爱人如己,你爱人不是因为他能爱你回来,也不是因为他可爱,而是对任何事情都尊重,这是最根本的一点。如果这点你要做到了,人人都能做到,那世界就太理想了。不管怎么样,我希望大家能够快乐。
作者简介
吴喜之
北京大学数学力学系本科,美国北卡罗来纳大学统计博士。中国人民大学统计学院教授,博士生导师。曾在美国加利福尼亚大学、北卡罗来纳大学以及南开大学、北京大学等多所著名学府执教。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。