R
-
史上最全学习R语言资源
学习R大概有两年的时间了,自己收集了很多关于学习R的网络资料和书籍,今天拿出来和大家分享。
-
一篇文章搞懂R语言回归
1.回归的多面性 回归类型 用途 简单线性 个量化的解释变量来预测一个量化的响应变量(一个因变量、一个自变量) 多项式 一个量化的解释变量预测一个量化的响应变量,模型的关系是n阶多项式(一个预测变量,但同时包含变量的幂) 多元线性 用两个或多个量化的解释变量预测一个量化的响应变量(不止一个预测变量) 多变量 用一个或多个解释变量预测多个响应变量 Logist…
-
R语言不平衡数据分类指南
在对不平衡的分类数据集进行建模时,机器学习算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性。
-
R语言中离群值的识别、描述、绘制与移除
统计学中离群值被定义为离开大部分观测较远的样本点,多数是由于测量误差而产生。因此,数据分析中离群值的识别和移除(如有必要)是很重要的一个步骤。
-
学习R语言,一篇文章让你从懵圈到入门
在实际工作中,每个数据科学项目各不相同,但基本都遵循一定的通用流程。
-
将Python和R整合进一个数据分析流程
在Python中调用R或在R中调用Python,为什么是“和”而不是“或”?
-
【收藏】R数据挖掘分析常用包和函数
1、聚类 常用的包: fpc,cluster,pvclust,mclust 基于划分的方法: kmeans, pam, pamk, clara 基于层次的方法: hclust, pvclust, agnes, diana 基于模型的方法: mclust 基于密度的方法: dbscan 基于画图的方法: plotcluster, plot.hclust 基于验…
-
MySQL连接到 R Excel 或SPSS
2.然后同样在MySQL官网下载安装好MySQL ODBC连接程序(MySQL connector\ODBC)。 4.具体连接步骤参考如下动图。 步骤二 步骤四最前面的那个表名称是中文的,R对中文支持还不够好 (4)将数据库表中的数据读取出来并存入数据框。 city<-sqlFetch(wechat,”city”) 结果如下图所示: (2)连接到MyS…
-
深入对比数据科学工具箱:Python和R之争
概述 在真实的数据科学世界里,我们会有两个极端,一个是业务,一个是工程。偏向业务的数据科学被称为数据分析(Data Analysis),也就是A型数据科学。偏向工程的数据科学被称为数据构建(Data Building),也就是B型数据科学。 从工具上来看,按由业务到工程的顺序,这个两条是:EXCEL >> R >> Python &g…
-
R语言构建配对交易量化模型
我们可以通过“统计套利”的方法,发现市场的无效性。
-
R的学习路径,从新手到专家的7个步骤
摘要:如果你从来没有编程经验,也没有比较熟悉的统计软件,那么学习R可能会比较困难。这个学习路径主要针对新手。关于R有很多优秀资源,这里介绍的一些在线课程、书籍和更多让你尽快学会R。 纲要: 步骤1:你为什么要学习R 步骤2:安装 步骤3:了解R的语法 步骤4:R的核心->包 步骤5:帮助系统 步骤6:数据分析工作流程 6.1导入数据 6.2数据操作 6…
-
R语言与非结构化数据共舞
介绍 现代化数据科学中的 DataFrame 概念源起R语言,而 Python Pandas 和 Spark DateFrame 都是参考R设计的。不过在实际的网络数据通讯中,类似DateFrame这样的格式却并不是主流,真正主流的方式其实是JSON(JavaScript Online Notation),所以讨论如何处理非结构化数据就变得非常有意义了。加之…
-
R语言和Python —— 一个错误的分裂
最近有一些文章提出与年龄相关的问题:“ 崭露头角的年轻数据科学家们是学习R语言还是Python更好 “ 答案似乎都是“视情况而定”,在现实中没有必要在R和Python中做出选择,因为你两个都用得到。 它被称为RPy2: http://rpy.sourceforge.net/rpy2/doc-2.1/html/introduction.html 什…
-
R语言 vs Python:数据分析哪家强?
摘要:这篇文章旨在更客观地看待这两门语言。我们会平行使用Python和R分析一个数据集,展示两种语言在实现相同结果时需要使用什么样的代码。这让我们了解每种语言的优缺点,而不是猜想。在Dataquest,我们教授两种语言,并认为两者在数据科学工具箱中都占据各自的地位。 我们将会分析一个NBA数据集,包含运动员和他们在2013-2014赛季的表现,可以在这里下载…