R语言数据分析
-
用R语言进行数据分析:定义统计模型的公式
下面的统计模型的模板是一个基于 独立的方差齐性数据的线性模型 y_i = sum_{j=0}^p beta_j x_{ij} + e_i, i = 1, …, n, 其中 e_i 属于 NID(0, sigma^2)。 用矩阵格式表示,它可以写为 y = X beta + e 其中 y 是响应向量,X 是模型 矩阵(model matrix)或者设计矩阵…
-
用R语言进行数据分析:编写函数
正如前面内容所暗示的一样,R 语言允许用户 创建自己的函数(function)对象。R 有一些 内部函数并且可以用在 其他的表达式中。通过这个过程,R 在程序的功能性, 便利性和优美性上得到了扩展。学写这些有用的函数 是一个人轻松地创造性地使用 R 的 最主要的方式。 需要强调的是,大多是函数都作为 R 系统的一部分提供,如mean(), var(), po…
-
用R语言进行数据分析:循环和条件控制
成组表达式 R 是一种表达式语言(expression language)因为它仅有的命令形式 是返回结果的函数和表达式。赋值操作实际上 也是一个表达式结果的再分配,并且可以用在 任何表达式中,甚至多重赋值 也是允许的。 命令可以用大括弧圈在一起 {expr_1; …; expr_m}。此时,这一组命令的结果 是该组中最后一个命令的值。既然一个组…
-
用R语言进行数据分析:单样本和双样本检验
到现在为止,我们已经学会了单样本的正态性检验。 而更常用的操作是比较两个样本的特征。在 R 里面,所有“传统”的检验都放在 包 stats 里面。这个包常常会自动载入。 下面是冰融化过程的潜热(latent heat)(cal/gm) 数据(来自 Rice (1995, p.490)) Method A: 79.98 80.04 80.02 80.04 80…
-
用R语言进行数据分析:检验一个数据集的分布
我们可以用很多方法分析一个单变量的数据集。 最简单的办法就是直接看数字。利用函数 summary 和 fivenum 会得到 两个稍稍有点差异的汇总信息。 此外,stem (“茎叶”图)也会反映整个数据集的数字信息的。 > attach(faithful) > summary(eruptions) Min. 1st Qu. Median Mean…
-
用R语言进行数据分析:R的统计表
R的统计表 R给出了详尽的统计表。R 还提供了相关函数来 计算累计概率分布函数 X <= x), 概率密度函数和分位数函数(给定 q,符合 P(X <= x) > q的最小x就是对应的分位数), 和基于概率分布的计算机模拟。 概率分布 R 对应的名字 附加参数 β分布 beta shape1, shape2, ncp 二项式分布 binom…
-
用R语言进行数据分析:数据的输入与输出之READ函数
read.table() 函数1、用于读入表格(表)类型的数据,同时生成数据框对象。2、读入的数据要求有规则的分隔符,默认有:空格、TAB、换行符、回车符;其它的分隔符,通过sep=来进行指定。 read.table(file, header = FALSE, sep = “”, quote = “”̵…
-
用R语言进行数据分析:数据的输入与输出之Scan函数
前面系列文章,介绍了R语言中的几种数据格式;其它特殊的数据格式将在后续的文章中介绍,接下来的几篇文章,将讨论如何从外部中读入数据或者将其它格式的数据读入到R环境中; scan()函数 scan(file = “”, what = double(0), nmax = -1, n = -1, sep = “”, q…
-
用R语言进行数据分析:列表
通过list函数来创建列表,例如,创建一个包含三个列的列表,请注意与R语言中的列表显示有什么不一样: 1、创建列表demo_1 2、创建数据框demo_1_1 ·列表对每个列显示都会单独以一行的形式存在; ·数据框则是以表(或者是矩阵)的形式显示;所以根据数据输出的格式可以判断是列表还是数据框; 创建一个示例列 Demo_2<-list(name=c(…
-
用R语言进行数据分析:数据框
前面几篇文章对R语言、R包以及R向量与矩阵等对象做了简单介绍,本篇继续介绍R数据框的相关内容。 数据框的创建 通过data.frame函数来创建数据框,该函数包含的主要参数为: data.frame(…, row.names = NULL, check.rows = FALSE, check.names = TRUE, stringsAsFact…
-
用R语言进行数据分析:矩阵
矩阵的创建 在R中用函数matrix()来创建一个矩阵,使用该函数时需要输入必要的参数值。matrix(data = NA, nrow = 1, ncol = 1, byrow = FALSE,dimnames = NULL) 1. data向量元素列表 2. nrow行数 3.ncol列数 4.byrow 矩阵是按列优先的方式进行排序, 先列后行。byro…
-
用R语言进行数据分析:向量
图一 R语言的数据对象类型简介图 在本系列文章中,接下将分别介绍R语言的几种数据对象:向量、矩阵、数据框与列表、其它特殊对象; 请大家在学习R语言的时候永远记住一个概念,R语言所有内容都是对象; 一、向量基本概念 R语言中最为核心的构成之一 1、向量构成的基本元素为:数值(numeric)、字符(character)、逻辑值(logical)、复数型(com…
-
用R语言进行数据分析:R包介绍
R语言的使用,很大程度上是借助各种各样的R包的辅助,从某种程度上讲,R包就是针对于R的插件,不同的插件满足不同的需求,截至2013年3月6日,CRAN已经收录了各类包4338个。 一、 R语言包的安装 1、通过选择菜单: 程序包->安装程序包->在弹出的对话框中,选择你要安装的包,然后确定。 3、移除包出内存 detach() 4、把其它包的数据…
-
用R语言进行数据分析:获取和存储数据
① 如果只有很少的数据量,你可以直接用变量赋值输入数据。若要用交互方式则可以使用readline()函数输入单个数据,但要注意其默认输入格为字符型。scan()函数中如果不加参数则也可以用来手动输入数据。如果加上文件名则是从文件中读取数据。 ② 读取表格文件读取本地表格文件的主要函数是read.table(),其中的file参数设定了文件路径,注意路径中斜杠…
-
R语言文本挖掘和词云可视化实践
互联网时代,大量的新闻信息、网络交互、舆情信息以文本形式存储在数据库中,如何利用数据分析和文本挖掘的算法,将海量文本的价值挖掘出来,成为我们团队近期的一个研究方向,本案例就是我们的一个初步尝试。飞信群是我们在工作、生活中交流的重要平台,在将近一年的时间里共产生了几万条的聊天记录,展现了我们这个团队的方方面面。 本文将通过KNIME、R语言和tagxedo三个…