摘要:基于一项针对620多位数据专家的调查研究,我们发现数据科学技能分为三个分支:行业知识背景(本文特指商业),技术/编程和数学/统计。这项研究将影响目前数据科学家,即将成长为数据科学家和招聘者。
数据科学是从数据中提取信息的能力。普遍认为三个主要技能将有助于提升数据科学能力。它们是:行业知识背景(商业上为商业头脑),技术/编程,数学/统计技能。
在这项数据科学研究中,我们测试数据科学家们对25项不同的数据科学技能的熟练程度(见图1)。我们把这25个技能划分到五个领域:行业、技术、编程、数学、统计及建模。
图1: 数据科学调研中测试的25项技能
通过因子分析做维数减少
虽然我们可能人为把25个数据技能划分到这五个领域,但是我们还可以看看数据能告诉我们什么。为此,我使用了因子分析法。因子分析是个数据精简技术,当你的数据集中有很多很多变量,希望适当减少变量个数的时候使用。通常,因子分析检查多个变量间的统计关系(比如,相关性),并尝试用较少的变量(因子)来呈现和解释这些相关性。这些精简过的因子(变量)即被用于解释你研究的现象。
因子分析的结果呈现在矩阵表格里。因子矩阵是个N×M表格(N=原始变量个数,M=潜在因子个数)。因子矩阵的元素代表各个变量和潜在因子之间的回归系数(如相关系数)。这些元素(或因子载荷)代表了变量和各个潜在因子之间的关系强度。因子分析结果将告诉我们两件事情:
1. 因子的个数
2. 哪些变量能通过因子很好地表现
结论
因子分析的使用在本质上是探索性的分析,即,对数据不预先定义其结构。25个技能之间的实际关系模式推动了模型的结果。虽然为能最好地描述数据,需要人为决定了因子个数,但是因子个数的选择也要基于这个模型结果。当前的因子分析的目标是用尽可能少的因子解释这25个技能之间的关系。为此,我有几个借助特征值来决定因子个数(因子分析的输出结果)的经验法则。特征值代表了每个因子计算出的公共方差所占的百分比。第一个经验法则是基于特征值大于总体(1.0)的个数,另外一种方法是画图标记(称为散点图)25个特征值来确定一个明显的断裂点。
图2: 来自于对25项数据科学技能熟练程度评级因子分析的特征值的散点图
图2中可以看出第三、第四 个特征值之间有明显的断裂点。因此,我选择使用三个因子来解释这25个技能之间的关系。三个因子可以对25个数据技能熟练程度的公共方差的62%进行解释。
基于三因子分析方法,因子模型矩阵很容易理解,25个数据技能熟练程度评级的因子分析模型矩阵见表1。
表1: 25项数据科学技能熟练程度评级与因子关系矩阵
表1中用不同颜色标记出的是每行的最大值,这三个因子名的命名是基于这些较大的值。比如,许多数学和统计方面的技能在因子1这一列值很高,那么我就标记此列为数学/统计。同样的方法分别标记技术/编程和行业。
通过可视化的方法揭示数据科学的结构
你可以将这三个因子想象成三维空间里的坐标轴(x, y, z)。通过使用数值将25个数据技能分布在空间里,你可以将这三个因子视觉化,如图三所呈现。图中的每一个点代表了一个具体的数据科学技能。而每一种技能用不同的颜色来代表与它有所联系的领域。数学/统计由绿色表示,商业由黄色表示,技术/编程由蓝色表示。此外,为了使读者能在三维角度来看这张图,我将点与面相连,平面上的点代表了空间点的z值。
图3: 25项数据科学技能用因子表达
你可以看到这25个数据科学技能是怎样聚集成三个不同的群体的,每个群体代表了一个技能领域。有少数技能在多个因子中有高输入值,这些技能通过多种色彩表示出来了,包括产品设计(有较高的商业和技术/编程的输入值),数据管理(有较高的技术/编程和数学/统计的输入值),自然语言处理和文本挖掘(有较高的技术/编程和数学/统计的输入值)。
总结
尽管数据科学是由许多不同领域的技能构成的,数据科学技能可以分为三个大领域:学科相关专业知识(在本文特指商业知识),技术/编程,以及数学/统计。通过将25个不同的数据科学技能进行因子分析和排序,可以揭示出一个三维的解决方法。
这个结果对于数据人才和招聘者都有帮助。如果你是一个数据方面的人才,你拥有什么样的数据技能呢?我们的结果显示,在三个技能领域内,在一个领域拥有专业知识的数据人才往往在这个领域其他有相关的技能。因此,我建议你首先了解自己的才能是什么。如果你有很强的数学/统计背景,你可以考虑修读那个技能领域的课程。如果你已经有很强的统计技能和统计思维能力,学习相关的技能(如机器学习)会比学习其他技能(如前端编程)简单。 如此,就可以顺藤摸瓜提高本身的竞争力。
如果你是一个招聘者,你的公司能否成功取决于你能否将候选人的技能与职位要求相匹配。有许多不同的技能都可以成为数学/统计和技术/编程领域内的部分。你要确保理解候选人拥有的特定技能。你可以使用表2所列举的技能作为评估候选人技能的起点。
原作者: Bob Hayes
原文链接: Empirically-Based Approach to Understanding the Structure of Data Science
来源:Intetix(授权转载),Intetix Foundation(英明泰思基金会)由从事数据科学、非营利组织和公共政策研究的中国学者发起成立,致力于通过数据科学改善人类社会和自然环境。通过联络、动员中美最顶尖的数据科学家和社会科学家,以及分布在全球的志愿者,我们创造性地践行着我们的使命:为美好生活洞见数据价值。
本文为专栏文章,来自:英明泰思基金会,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/11919.html 。