在数据科学中需要多少数学技能? 张乐 • 2022-03-29 12:04 • 数据分析 本文为大家介绍了在数据科学和机器学习中所需要的基本数学技能,并且分类给出了相应的主题建议。 作者:Benjamin Obi Tayo翻译:刘思婧 校对:车前子 本文为大家介绍了在数据科学和机器学习中所需要的基本数学技能,并且分类给出了相应的主题建议。 Jeswin Thomas on Unsplash 尽管已经有许多出色的计算工具可供数据科学家执行其工作,数学技能在数据科学和机器学习中仍然是必不可少的,因为这些工具通常仅仅会像是“黑匣子”,而如果没有理论基础,您将无法回答核心的分析性问题。 I.引言 如果您渴望成为数据科学家,那么您无疑会想到以下问题: 我几乎没有数学背景,可以成为一个数据科学家吗?数据科学中的哪些基本数学技能很重要? 有许多好的软件包可用于构建预测模型或数据可视化。一些最常见的用于描述性和预测性分析的软件包包括: Ggplot2MatplotlibSeabornScikit-learnCaretTensorFlowPyTorchKeras 借助这些软件包,任何人都可以构建模型或进行数据可视化。但是,扎实的数学背景知识对于模型微调(fine-tuning)以生成具有最佳性能的可靠模型至关重要。建立模型是一回事,但解释模型并得出可用于数据驱动决策的有意义的结论,是另一回事。重要的是,在使用这些软件包之前,您必须了解每个软件包的数学基础,这样才能避免将这些软件包仅仅用作“黑匣子”工具。 II.案例:建立多元回归模型 假设我们现在将要建立一个多元回归模型。在此之前,我们需要问自己以下问题: 我的数据集有多大?我的特征变量和目标变量是什么?哪些预测特征与目标变量最相关?哪些特征很重要?我应该进行特征缩放吗?我的数据集应如何划分为训练集和测试集?什么是主成分分析(PCA)?我应该使用PCA删除冗余特征吗?如何评估我的模型?我应该使用R2_score,平均平方误差(MSE)还是平均绝对误差(MAE)?如何提高模型的预测能力?我应该使用正则化回归模型吗?哪些是回归系数?哪些是截距?我应该使用非参数回归模型,例如K近邻回归还是支持向量回归(SVR)?我的模型中有哪些超参数,如何对其进行微调以获得性能最佳的模型? 没有良好的数学背景,您将无法解决上面提出的问题。最重要的是,在数据科学和机器学习中,数学技能与编程技能同等重要。因此,想成为数据科学家,您必须花时间研究数据科学和机器学习的理论和数学基础。您能否构建可应用于实际问题的可靠且有效的模型,取决于您的数学技能。要了解如何在构建机器学习回归模型中应用数学技能,可参阅机器学习过程教程。 教程 现在,让我们讨论数据科学和机器学习所需的一些基本数学技能。 Ⅲ. 数据科学和机器学习的基本数学技能 1、 统计学和概率论 统计学和概率论可以用于特征的可视化、数据预处理、特征变换、数据填补、降维、特征工程、模型评估等环节。以下是您需要熟悉的主题: 均值,中位数,众数,标准差/方差,相关系数,协方差矩阵;概率分布(二项分布、泊松分布、正态分布),p值,贝叶斯定理(精度、召回率、阳性预测值、阴性预测值、混淆矩阵、ROC曲线);中心极限定理,R2_score,MSE(均方误差),A / B测试,蒙特卡洛模拟… 2、 多变量微积分 大多数机器学习模型都是使用具有多个特征或预测变量的数据集构建的。因此,熟悉多变量演算对于建立机器学习模型非常重要。以下是您需要熟悉的主题: 多变量函数;导数和梯度;阶跃函数,Sigmoid函数,Logit函数,ReLU函数(整流线性单位函数,Rectified Linear Unit);成本函数;函数绘图;函数的最小值和最大值… 3、 线性代数 线性代数是机器学习中最重要的数学技能。当数据集被表示为矩阵,线性代数则可用于数据预处理、数据转换、降维和模型评估。以下是您需要熟悉的主题: 向量;向量的范数;矩阵,转置矩阵,矩阵的逆,矩阵的行列式,矩阵的迹;点积,特征值,特征向量… 4、 优化方法 大多数机器学习算法通过最小化目标函数来执行预测建模,因而机器学习必须应用于测试数据的权重才能获得预测标签。以下是您需要熟悉的主题: 成本函数/目标函数;似然函数;损失函数;梯度下降算法及其变体(例如,随机梯度下降算法)… IV.结论 总而言之,我们讨论了数据科学和机器学习所需的基本数学和理论技能,已经有许多免费在线课程教授这些必要的数学技能。想成为数据科学家,请务必牢记,理论基础对于构建高效且可靠的模型至关重要。因此,您应该投入足够的时间来研究每种机器学习算法背后的数学理论。 参考资料 Linear Regression Basics for Absolute Beginners. Mathematics of Principal Component Analysis with R Code Implementation. Machine Learning Process Tutorial. Original. Reposted with permission. 译者简介:刘思婧,清华大学新闻系研一在读,数据传播方向。文理兼爱,有点小情怀的数据爱好者。希望结识更多不同专业、不同专长的伙伴,拓宽眼界、优化思维、日日自新 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。 机器学习数据分析数据科学 赞 (1) 张乐编辑 0 生成海报 数据分析模型:销售漏斗模型 上一篇 2022-03-28 21:40 用户流失原因分析该如何入手? 下一篇 2022-03-31 00:17 相关文章 行业资讯 北邮成立人工智能研究院:整合全校AI资源,面向社会开展广泛合作 7月19日,北京邮电大学(北邮)创新研究院在该校宏福校区正式揭牌成立。作为创新研究五大研究方向之一,北京邮电大学人工智能研究院同时揭牌。 大数据文摘 2018-07-22 00 人工智能 使用Tensorflow训练线性回归模型并进行预测 Tensorflow是Google开发的开源机器学习库。本篇文章我们将使用Tensorflow对线性回归模型进行训练,并使用模型对数据进行预测。 蓝鲸 2017-08-15 00 人物观点 业务系统的数据资产管理为什么这么难? 如果你做过BI或大数据,一定会接触数据资产管理的一些概念,比如元数据,数据字典,血统分析等等,但你会发现,要做好大数据平台的数据资产管理并不容易,比如数据字典的维护,为什么? 与数据同行 2018-05-22 12 人工智能 大道至简:朴素贝叶斯分类器 万物之始,大道至简,衍化至繁。 张乐 2016-09-05 01 商业智能 如何从KPI看懂零售行业的数据分析? 零售业的出路不仅是线上线下的成功融合,更源于对数据的收集、整理、分析,实现可预测、可指导,也就是“数据化管理”。 大数据精选 2016-07-23 10