R语言数据科学学习路径

人们学习R语言常见的问题之一是缺乏结构化学习道路

人们学习R语言常见的问题之一是缺乏结构化学习道路。他们不知道从哪里开始,如何进行,选择哪一条尽管在互联网上有大量好的免费资源可用,但是,这可能既是压倒性的也是令人困惑的。

创建这个R学习路径,分析师Vidhya和DataCamp坐下来一起来选择一组全面的学习资源来帮助你从头学习R。对于任何刚接触数据科学或R的人来说,这种学习路径是一个不错的推荐,如果你是一个经验丰富的用户会对学习一些最新知识。

这将帮助你快速、高效地学习R。R学习会变得有趣 !

步骤0:热身

在开始你的旅程之前,回答的第一个问题是:为什么使用R 或R为什么是有用的

R是一个快速增长的开源商业软件包类似SAS,STATA和SPSS。就业市场对R技能的需求迅速增长,最近微软等公司承诺致力于R为数据科学的通用语言。

看这90秒Revolution Analytics公司视频了解R将会多么有用。顺便说一句,Revolution Analytics刚被微软收购。

步骤1:安装您的机器

安装R最简单的方法是,从全面R归档网络(CRAN)下载在本地计算机上。您可以Linux,Mac和Windows之间不同版本间进行选择。

虽然你可以考虑使用基本的R控制台,我们推荐您安装R的一个集成开发环境(IDE)。最广为人知的IDE是RStudio,使R编程更容易和更快,因为它允许输入多行代码,处理代码块,安装和维护包,在编程环境里更高效。替代RStudio框架Architect,是一个基于eclipse工作台。

(需要一个GUI吗检查R-commander or Deducer)

任务

  • 1、安装R和RStudio。
  • 2、安装包Rcmdr, rattle, and Deducer。建议安装所有推荐包或者依赖关系的包括GUI。
  • 3、使用库命令加载这些包和开放这些gui。

步骤2:学习基本的R语言

你应该先了解该语言的基本知识,各种包和数据结构。

如果你喜欢一个在线互动学习环境学习R语法,有DataCamp这个免费的在线教程。继续本课程:中级R编程。另一种学习工具是这个在线版本的升级版,您可以在类似于RStudio的环境中学习的R这个在线版本。

R语言数据科学学习路径

除了这些互动的学习环境,你也可以选择在线课程如CourseraEDX报名参加。除了这些在线资源,你也可以考虑以下优秀的书本资源:

特别学习:读取表数据,数据帧,表,汇总,描述,装卸和安装软件包,使用绘图命令数据可视化。

任务:

  • 1、参加 DataCamp免费在线R教程和熟悉基本R语法
  • 2、 在http://github.com上创建一个GitHub账户
  • 3、学习通过谷歌搜索的帮助来解决上述软件包安装
  • 4、安装包和学习R编程(见上文)

步骤3:了解R社区

R的迅速增长,获得如此巨大的成功的原因,是因为其强大的社区。在R包生态系统中心。这些包可以从CRAN下载,或从Bioconductorgithubbitbucket。在Rdocumentation可以轻松搜索从CRAN,github上和Bioconductor获取包,将满足。

R语言数据科学学习路径

接下来的包生态系统的R,在努力学习R过程中你也可以很容易地找到帮助和反馈。首先,你可以通过命令来访问内置帮助系统例如函数名称。也有分析师Vidhya表示,Stack Overflow认为R是增长最快速的语言之一。最终,有R爱好者运行众多的博客,会聚合成R-博客

任务

步骤4:导入并处理数据

导入和处理数据科学工作中的数据是重要的步骤。R允许不同数据格式的导入使用特定的包可以简化你的工作:

  • readr导入文本文件
  • readxl让excel文件导入R
  • 还有 haven包允许您导入SAS, STATA and SPSS格式数据文件到R。
  • 数据库连接可以通过包RMySQLRpostgreSQL连接,使用DBI访问和操作
  • rvest 用户网络爬虫

一旦你的数据在你的工作环境已经准备好,开始使用这些包处理它

  • 数据。
  • stringr包进行字符串操作。
  • 处理数据帧对象,学习dplyr包的来龙去脉(尝试这门课)。
  • 需要执行大量数据角力的任务吗查看data.table
  • 执行时间序列分析尝试包像像zoo, xtsquantmod

任务

步骤5:有效的数据可视化

没有比创建自己的数据可视化更大令人满意的了。然而,可视化数据作为一门技能更像一种艺术,因为它是一种技巧。值得一读是“可视化定量数据”的Edward Tufte原则,或由Stephen Few的“the pitfalls on dashboard design ”。也看看Nathan Yau的博客,从而带来灵感,她在创建可视化时使用(主要)R。

5.1:情节无处不在

R提供多种方式创建图表。基本图形的标准方法是利用在R,然而,有更好的工具(或包)来创建你的图表,以更简单的方式,呈现的结果更美丽:

R语言数据科学学习路径

  • 开始学习画图的语法,一个可行的方法来做R数据可视化。
  • 如果可能,你想成为认真对待R数据可视化,掌握的最重要的包就是GGPLOT2包。 GGPLOT2是如此受欢迎,以至于网络上有大量的资源,如网上GGPLOT2教程,一个方便的小抄本或由哈德利韦翰著作的这本书
  • 一个包,如ggvis允许您使用图形的语法创建交互式Web图形(tutorial)
  • 知道汉斯·罗斯林这个TED演讲了解如何与googleVis(与谷歌图表的接口)重新创建。
  • 如果你遇到绘制你的数据这篇文章可能有所帮助。

看到更多的可视化选项在这个CRAN任务视图

或者看看“R语言可视化指导

5.2:世界各地的地图

对可视化数据空间分析感兴趣吗开始学习“Introduction to visualising spatial data in R”,在R开始使用这两个包:

  • 可视化空间数据和模型的静态地图来源,如谷歌地图和ggmap公开街道地图
  • 阿里Lamstein choroplethr
  • tmap包

R语言数据科学学习路径

5.3:HTML小部件

一个非常有前途的的可视化R新工具是使用HTML小部件。HTML小部件允许您创建交互式web可视化的一种简单的方法(参见本教程)和掌握这种类型的可视化很可能成为一个必须R技能。与这些可视化打动你的朋友和同事:

任务

步骤6:数据挖掘和机器学习

对于统计学我们建议这些资源:

如果你想加强你的机器学习技能,考虑从这些教程:

请一定要看到在相关CRAN任务视图 – R提供的各种机器学习的包

任务

步骤7:报告结果

和数据科学爱好者一同交流你的结果、分享你的见解和分析本身同样重要。幸运的是,R有一些非常漂亮的工具可以这样做,可以节省你大量的时间。

第一个为 R Markdown,基于knitr和pandoc可重复的方式报告数据分析结果使它一个伟大的工具。随着R降价,R生成最终的文件,替换生成结果的R代码。这个文件可以是一个html、word、PFD 、ioslides等格式。您可以通过本教程学习更多关于它的内容,并用这个小抄本作为参考。

R语言数据科学学习路径

和 R Markdown相近有ReporteRs。ReporteRs是一个R包创建的微缩软件((如Word docx and Powerpoint pptx)和html文件,运行在Windows、Linux、Unix和Mac OS系统。就像R Markdown的理想工具,自动生成R报告 。

最后,Shiny,目前激动人心的R工具之一。Shiny使得它非常方便地与R构建交互式Web应用程序,它可以让你把你的分析到交互式Web应用程序,而无需了解HTML,CSS或JavaScript。如果你想开始使用Shiny(相信我们,你应该!),在RStudio学习门户网站

任务

  • 创建您的第一个使用RMarkdown做的交互式报告或ReporteRs
  • 尝试建立你的第一个Shiny应用

额外步骤:练习

你通过实践只会成为一个伟大的程序员。因此,一定要定期处理新数据科学的挑战。我们建议你们最好在Kaggle:https://www.kaggle.com/c/titanic-gettingStarted,可以开始与同样的数据科学家竞赛。

现场挑战测试你的R技能——实践问题

步骤8:时间序列分析

R有一个专门的时间序列任务视图。如果你在R想做一些时间序列分析,这绝对是开始的地方。你很快就会发现工具的范围和深度是巨大的。

你会轻松地学习R语言时间序列分析,不会耗尽网络资源。好的出发点都是一本R语言时间序列小书,或退房预测:原理和实践。在包方面,你需要确保你熟悉ZOO包和XTS。ZOO为您提供了节省时间序列对象格式过程,而XTS让你处理时间序列数据集的工具。

替代资源:关于时间序列的综合教程

任务

  • 学习一本上面列出的时间系列推荐教程,准备好开始你自己的分析。
  • 使用包quantmod or quandl下载等财务数据,开始自己的时间序列分析。
  • 使用包如dygraphs创造惊人的时间序列数据的可视化和分析。

额外步骤——文本挖掘也很重要!

学习文本挖掘,您可以参考文本挖掘分析模块(analytics edge course)。不过,课程存档,您仍然可以访问教程。

实践

步骤9:成为一个R的主人

既然您已经学到的大部分数据分析使用R,是时候给一些高级主题。很有可能你已经知道这些,但请也看看这些教程。

你想应用你的分析技能和测试你的潜力吗参与我们的活动,与许多来自世界各地数据科学家们一起比赛吧。

英文链接:https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-r-data-science/

数据分析网翻译小组翻译,翻译成员——Blanche,具有数学与统计背景,硕士毕业在一家通信运营商做数据分析与建模,爱运动爱音乐,关心大数据,立志做好一名数据挖掘攻城师。

本文由 翻译小组 翻译发布,英文链接:,转载或内容合作请联系我们,未经允许谢绝转载,本文链接:https://www.afenxi.com/23996.html 。

(1)
翻译小组的头像翻译小组编辑
上一篇 2016-08-28 11:40
下一篇 2016-09-14 15:26

相关文章

关注我们
关注我们
分享本页
返回顶部