本文转自雷锋网：https://www.leiphone.com/news/202010/5Os6FsCGTwCCCFy4.html

你是否对学习数据科学感兴趣，但不知道从哪里开始？如果是，那你来对地方了。

我遇到过许多对学习数据科学充满热情的人，但仅仅几周后，他们就放弃了学习。我想知道为什么一个人对一个领域如此热情却不去追求它？通过与他们中的一些人交谈，我了解到人们放弃学习的主要原因是：

为了成为一名数据科学家，他们要学习的课题太多了
他们遇到的领路人说，要成为数据科学家，必须是一个有才华的程序员、数学专家、应用统计学大师，并且非常熟练地使用panda、NumPy和其他python库。

这些甚至会吓到一个有经验的数据科学家，难怪他们会让试图学习数据科学的人放弃。上面的每一个话题就像一片海洋，当有人试图快速掌握它们时，他们会感到沮丧并放弃学习。真正的事实是，要想成为一名成功的数据科学家或成为一名数据科学家，你甚至需要掌握更多。

如何学习数据科学

要成为一名数据科学家，你需要从以下条目中学到足够多的知识：

Python或R编程的基础知识
如果选择Python，那么像panda和Numpy这样的库
可视化库，如ggplot、Seaborn和Plotly。
统计数据
SQL编程
数学，尤指线性代数和微积分

在下面的视频中，我提到了学习数据科学的分步指南。我已经解释了达到数据科学不同专业水平所需的知识深度。

https://youtu.be/5zec-qxfMvg

如何计划学习？哪些主题应该首先涉及？

让我来解释一下100天学习数据科学的计划。下面是使用Python学习数据科学的逐日计划，该计划跨度为100天，每天至少需要花费一个小时

第一天：安装工具

只要确保安装了所需的工具，并且您对接下来几周/几个月将要使用的工具感到舒适即可。如果选择Python则安装Anaconda，其中还会安装IDEs Jupyter笔记本和Spyder。如果你选择’ R ‘，然后安装RStudio。试着在IDE中玩一玩，并熟练地使用它。比如，尝试理解包/库的安装、执行部分代码、清理内存等等。

第2天到第7天：数据科学的基础编程

下一步是学习基本的编程，下面是一些应该学习的主题：

创建变量
字符串数据类型和通常在字符串数据类型上执行的操作
数值数据类型、布尔值和运算符
集合数据类型列表、元组、集合和字典——理解它们之间的唯一性和差异非常重要。
If-Then-Else条件，For循环和While循环实现
函数和Lambda函数-它们各自的优点和区别

第8天到第17天: Pandas 库

了解 Pandas 库，在 Pandas 中需要了解的一些主题是：

创建数据帧，从文件读取数据，并将数据帧写入文件
从数据框架中索引和选择数据
迭代和排序
聚合和分组
缺失值和缺失值的处理
Pandas 的重命名和替换
在数据帧中连接、合并和连接
总结分析，交叉表格，和枢轴
数据，分类和稀疏数据

花10天时间彻底学习以上主题，因为这些主题在执行探索性数据分析时非常有用。在介绍这些主题时，请尝试深入粒度细节，比如理解合并和连接、交叉表和枢轴之间的差异，这样不仅可以了解它们中的每一个，还可以知道在何时和何处使用它们。

我为什么要学 Pandas？如果您从事任何数据科学项目，它们总是从探索性数据分析开始，以便更好地理解数据，而您在 Pandas 中介绍的这些主题将会派上用场。另外，因为Pandas有助于从不同的来源和格式读取数据，所以它们速度快、效率高，还提供了对数据集执行各种操作的简单功能。

第18天到第22天：Numpy Library

学会 Pandas 之后，下一个需要学习的重要库是Numpy。学习Numpy的原因是与List相比它们非常快。在Numpy中要涉及的主题包括：

数组的创建
索引和切片
数据类型
连接与分离
搜索和排序
过滤所需的数据元素

为什么学习Numpy很重要?Numpy能够以快速和高效的方式对数据执行科学操作。它支持机器学习算法中常用的高效矩阵运算，panda库也广泛使用了Numpy。

第23天到第25天:可视化

现在，我们需要花一些时间来理解和使用一些关键的可视化库，比如ggplot、Plotly和Seaborn。使用示例数据集并尝试不同的可视化，如柱状图、线形/趋势图、盒状图、散点图、热图、饼状图、柱状图、气泡图和其他有趣的或交互式可视化。

数据科学项目的关键是与涉众交流洞察力，而可视化是实现这一目的的很好的工具。

第26天到第35天:统计、实现和用例

下一个要讨论的重要主题是统计学，探索常用的描述性统计技术，如平均值、中位数、众数、范围分析、标准差和方差。

然后介绍一些更深层次的技术，比如识别数据集中的异常值和测量误差范围。

作为探索各种统计测试(如下所示)的最后一步，了解这些统计测试在现实生活中的应用：

F-test
ANOVA
卡方测试
T-Test
Z-Test

第36天到第40天:用于数据分析的SQL

现在是学习SQL的时候了，这很重要，因为在大多数企业用例中，数据将存储在数据库中，了解SQL将极大地帮助从系统中查询所需的数据进行分析。

您可以先安装一个开源数据库，比如MySQL，它会附带一些默认数据库，只需要处理数据并学习SQL。如果你能集中学习以下内容，那就太好了：

从表中选择数据
基于键连接来自不同表的数据
对数据执行分组和聚合功能
使用case语句和筛选条件

第41 – 50天:探索性数据分析(EDA)

在任何数据科学项目中，大约80%的时间用于此活动，因此最好花时间彻底学习此主题。为了学习探索性数据分析，这里不涉及一组特定的功能或主题，但是数据集和用例将驱动分析。因此，最好使用一些来自kaggle中主办的比赛的样本数据集，学习如何执行探索性分析。

学习探索性数据分析的另一种方法是编写关于数据集的问题，并尝试从数据集为它们找到答案。比如，如果我考虑最受欢迎的泰坦尼克号数据集，然后尝试寻找问题的答案，比如哪种性别/年龄/甲板的人有更高的死亡概率等等。你进行全面分析的能力会随着时间的推移而提高，所以要有耐心，慢慢地自信地学习。

到目前为止，您已经学习了数据科学家所需的所有核心技能，现在可以学习算法了。

数学怎么了?

是的，了解线性代数和微积分是重要的，但我宁愿不花时间学习数学概念，但当他们需要，你可以参考和温习你的技能，高中水平的数学将是足够的。例如，假设你正在学习梯度下降法在学习算法的同时你可以花时间学习它背后的数学知识。因为如果你开始学习数学中的重要概念，那么它可能是非常耗时的，而且通过在需要的时候学习，你会学到足够的时间所需要的东西，但是如果你开始学习数学中的所有概念，那么你将会花费更多的时间，学到的东西将远远超过所需要的。

第51天到第70天:监督学习和项目实施

在开始的10天里，学习一些关键的算法，理解它们背后的数学原理，然后在接下来的10天里，专注于通过开发一个项目来学习。这节课要讲的一些算法有：