人们学习R语言常见的问题之一是缺乏结构化学习道路。他们不知道从哪里开始,如何进行,选择哪一条尽管在互联网上有大量好的免费资源可用,但是,这可能既是压倒性的也是令人困惑的。
创建这个R学习路径,分析师Vidhya和DataCamp坐下来一起来选择一组全面的学习资源来帮助你从头学习R。对于任何刚接触数据科学或R的人来说,这种学习路径是一个不错的推荐,如果你是一个经验丰富的用户会对学习一些最新知识。
这将帮助你快速、高效地学习R。R学习会变得有趣 !
步骤0:热身
在开始你的旅程之前,回答的第一个问题是:为什么使用R 或R为什么是有用的
R是一个快速增长的开源商业软件包类似SAS,STATA和SPSS。就业市场对R技能的需求迅速增长,最近微软等公司承诺致力于R为数据科学的通用语言。
看这90秒Revolution Analytics公司视频了解R将会多么有用。顺便说一句,Revolution Analytics刚被微软收购。
步骤1:安装您的机器
安装R最简单的方法是,从全面R归档网络(CRAN)下载在本地计算机上。您可以Linux,Mac和Windows之间不同版本间进行选择。
虽然你可以考虑使用基本的R控制台,我们推荐您安装R的一个集成开发环境(IDE)。最广为人知的IDE是RStudio,使R编程更容易和更快,因为它允许输入多行代码,处理代码块,安装和维护包,在编程环境里更高效。替代RStudio框架Architect,是一个基于eclipse工作台。
(需要一个GUI吗检查R-commander or Deducer)
任务
- 1、安装R和RStudio。
- 2、安装包Rcmdr, rattle, and Deducer。建议安装所有推荐包或者依赖关系的包括GUI。
- 3、使用库命令加载这些包和开放这些gui。
步骤2:学习基本的R语言
你应该先了解该语言的基本知识,各种包和数据结构。
如果你喜欢一个在线互动学习环境学习R语法,有DataCamp这个免费的在线教程。继续本课程:中级R编程。另一种学习工具是这个在线版本的升级版,您可以在类似于RStudio的环境中学习的R这个在线版本。
除了这些互动的学习环境,你也可以选择在线课程如Coursera 或EDX报名参加。除了这些在线资源,你也可以考虑以下优秀的书本资源:
- 免费的“ introduction to R manual by CRAN”
- Jared Lander的“R for Everyone”
- Quick-R
特别学习:读取表数据,数据帧,表,汇总,描述,装卸和安装软件包,使用绘图命令数据可视化。
任务:
- 1、参加 DataCamp免费在线R教程和熟悉基本R语法
- 2、 在http://github.com上创建一个GitHub账户
- 3、学习通过谷歌搜索的帮助来解决上述软件包安装
- 4、安装包和学习R编程(见上文)
步骤3:了解R社区
R的迅速增长,获得如此巨大的成功的原因,是因为其强大的社区。在R包生态系统中心。这些包可以从CRAN下载,或从Bioconductor、github和bitbucket。在Rdocumentation可以轻松搜索从CRAN,github上和Bioconductor获取包,将满足。
接下来的包生态系统的R,在努力学习R过程中你也可以很容易地找到帮助和反馈。首先,你可以通过命令来访问内置帮助系统例如函数名称。也有分析师Vidhya表示,Stack Overflow认为R是增长最快速的语言之一。最终,有R爱好者运行众多的博客,会聚合成R-博客。
任务
- 通过访问CRAN任务视图理解R包生态系统
- 为每日简报注册http://r-bloggers.com
步骤4:导入并处理数据
导入和处理数据科学工作中的数据是重要的步骤。R允许不同数据格式的导入使用特定的包可以简化你的工作:
- readr导入文本文件
- readxl让excel文件导入R
- 还有 haven包允许您导入SAS, STATA and SPSS格式数据文件到R。
- 数据库连接可以通过包RMySQL和RpostgreSQL连接,使用DBI访问和操作
- rvest 用户网络爬虫
一旦你的数据在你的工作环境已经准备好,开始使用这些包处理它
- 数据。
- stringr包进行字符串操作。
- 处理数据帧对象,学习dplyr包的来龙去脉(尝试这门课)。
- 需要执行大量数据角力的任务吗查看data.table包
- 执行时间序列分析尝试包像像zoo, xts 和 quantmod。
任务
- 掌握通过 “导入数据到R”课程提到的包,或阅读这些文章1,2,3 and 4。
- 看到这个RStudio视频“Data Wrangling with R ”。
- 阅读和练习如何使用包像dplyr,tidyr,和data.table。
步骤5:有效的数据可视化
没有比创建自己的数据可视化更大令人满意的了。然而,可视化数据作为一门技能更像一种艺术,因为它是一种技巧。值得一读是“可视化定量数据”的Edward Tufte原则,或由Stephen Few的“the pitfalls on dashboard design ”。也看看Nathan Yau的博客,从而带来灵感,她在创建可视化时使用(主要)R。
5.1:情节无处不在
R提供多种方式创建图表。基本图形的标准方法是利用在R,然而,有更好的工具(或包)来创建你的图表,以更简单的方式,呈现的结果更美丽:
- 开始学习画图的语法,一个可行的方法来做R数据可视化。
- 如果可能,你想成为认真对待R数据可视化,掌握的最重要的包就是GGPLOT2包。 GGPLOT2是如此受欢迎,以至于网络上有大量的资源,如网上GGPLOT2教程,一个方便的小抄本或由哈德利韦翰著作的这本书。
- 一个包,如ggvis允许您使用图形的语法创建交互式Web图形(tutorial)
- 知道汉斯·罗斯林这个TED演讲了解如何与googleVis(与谷歌图表的接口)重新创建。
- 如果你遇到绘制你的数据这篇文章可能有所帮助。
看到更多的可视化选项在这个CRAN任务视图
或者看看“R语言可视化指导”
5.2:世界各地的地图
对可视化数据空间分析感兴趣吗开始学习“Introduction to visualising spatial data in R”,在R开始使用这两个包:
- 可视化空间数据和模型的静态地图来源,如谷歌地图和ggmap公开街道地图
- 阿里Lamstein choroplethr
- tmap包
5.3:HTML小部件
一个非常有前途的的可视化R新工具是使用HTML小部件。HTML小部件允许您创建交互式web可视化的一种简单的方法(参见本教程)和掌握这种类型的可视化很可能成为一个必须R技能。与这些可视化打动你的朋友和同事:
- 动态地图传单
- 使用dygraphs时间序列数据图表
- 互动表(datatable中)
- R制图的图表和流程图
- d3散点图、线路图、和MetricsGraphics直方图
任务
步骤6:数据挖掘和机器学习
对于统计学我们建议这些资源:
- Andrew Conway’s Introduction to statistics with R (online)
- Data Analysis and Statistical Inference by Duke University (online)
- Practical Data Science With R (book)
- Data Science Specialization by Johns Hopkins (online)
- A Survival Guide to Data Science with R (book)
如果你想加强你的机器学习技能,考虑从这些教程:
- Essentials of Machine Learning Algorithms
- Bike SharingCompetition – Complete Solution in R
- Kaggle Machine Learning course
- Machine Learning Mastery
- Intro To Machine Learning
请一定要看到在相关CRAN任务视图 – R提供的各种机器学习的包。
任务
- 开始统计入门课程之一
- 报名参加免费的kaggle机器学习课程。
- 如果你想要一本关于使用R数据挖掘书籍,他就在 Rattle
- 你可以从这本小册子学习时间序列预测- A Little Book for Time Series in R 。
步骤7:报告结果
和数据科学爱好者一同交流你的结果、分享你的见解和分析本身同样重要。幸运的是,R有一些非常漂亮的工具可以这样做,可以节省你大量的时间。
第一个为 R Markdown,基于knitr和pandoc可重复的方式报告数据分析结果使它一个伟大的工具。随着R降价,R生成最终的文件,替换生成结果的R代码。这个文件可以是一个html、word、PFD 、ioslides等格式。您可以通过本教程学习更多关于它的内容,并用这个小抄本作为参考。
和 R Markdown相近有ReporteRs。ReporteRs是一个R包创建的微缩软件((如Word docx and Powerpoint pptx)和html文件,运行在Windows、Linux、Unix和Mac OS系统。就像R Markdown的理想工具,自动生成R报告 。
最后,Shiny,目前激动人心的R工具之一。Shiny使得它非常方便地与R构建交互式Web应用程序,它可以让你把你的分析到交互式Web应用程序,而无需了解HTML,CSS或JavaScript。如果你想开始使用Shiny(相信我们,你应该!),在RStudio学习门户网站。
任务
- 创建您的第一个使用RMarkdown做的交互式报告或ReporteRs
- 尝试建立你的第一个Shiny应用
额外步骤:练习
你通过实践只会成为一个伟大的程序员。因此,一定要定期处理新数据科学的挑战。我们建议你们最好在Kaggle:https://www.kaggle.com/c/titanic-gettingStarted,可以开始与同样的数据科学家竞赛。
现场挑战测试你的R技能——实践问题
步骤8:时间序列分析
R有一个专门的时间序列任务视图。如果你在R想做一些时间序列分析,这绝对是开始的地方。你很快就会发现工具的范围和深度是巨大的。
你会轻松地学习R语言时间序列分析,不会耗尽网络资源。好的出发点都是一本R语言时间序列小书,或退房预测:原理和实践。在包方面,你需要确保你熟悉ZOO包和XTS。ZOO为您提供了节省时间序列对象格式过程,而XTS让你处理时间序列数据集的工具。
替代资源:关于时间序列的综合教程
任务
- 学习一本上面列出的时间系列推荐教程,准备好开始你自己的分析。
- 使用包quantmod or quandl下载等财务数据,开始自己的时间序列分析。
- 使用包如dygraphs创造惊人的时间序列数据的可视化和分析。
额外步骤——文本挖掘也很重要!
学习文本挖掘,您可以参考文本挖掘分析模块(analytics edge course)。不过,课程存档,您仍然可以访问教程。
实践
步骤9:成为一个R的主人
既然您已经学到的大部分数据分析使用R,是时候给一些高级主题。很有可能你已经知道这些,但请也看看这些教程。
- Hadley Wickham的Advanced R
- 使用R与Hadoop, MongoDB or NoSQL
- 微软的RevoScaleR包 (以前Revolution Analytic公司的)
你想应用你的分析技能和测试你的潜力吗参与我们的活动,与许多来自世界各地数据科学家们一起比赛吧。
英文链接:https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-r-data-science/
数据分析网翻译小组翻译,翻译成员——Blanche,具有数学与统计背景,硕士毕业在一家通信运营商做数据分析与建模,爱运动爱音乐,关心大数据,立志做好一名数据挖掘攻城师。
本文由 翻译小组 翻译发布,英文链接:,转载或内容合作请联系我们,未经允许谢绝转载,本文链接:https://www.afenxi.com/23996.html 。