数据挖掘化功大法(5)——数据类型

1、数据对象

相当于类的概念,在销售系统中,对象可以是顾客、商品和销售情况。

属性:属性可以标签的、二元的、序列的或数值的。

标签属性:例如充值渠道中的各种充值类型,在数据库中表示为0、1、2这种,每个数字代表一个充值渠道,例如:1代表支付宝,2代表微信支付。在这种情况下众数是有意义的,就是出现最多或者最少的数。

二元属性:就是我们常说的bool属性。一种情况是两种属性不带权重,对结果无影响,比如男、女。另外一种是有偏重,比如是否得病,一种表示得病,一种表示未得病。

序列属性:对于记录不能客观度量的主观质量评估,序列属性是有用的。比如用户满意度可以分为0 不满意 1 满意 2 非常满意。

二元和序列属性都是定性的,它们只描述对象的特征,而不给出实际的大小和度量。

数值属性:与上面不同的是,数值属性是定量的。

1)区间标度:例如温度可以有零上多少度,零下多少度,也可以表示某天的温度高低的最大值和最小值。区间标度属性的中位数、众数和均值都是有意义的。

2)比率标度:比如说一个值是另一个值的倍数,或比率,例如某部作品的字数、章节数等。所以求这些值之间的均值、中位数和众数都是有意义的。

离散属性和连续属性:在机器学习领域通常分为这两种属性值。例如图书的章节号就是一个离散属性。

2、数据的基本统计描述

对于特定的属性,我们首先关心的是属性的值大部分落在何处。比如网站的访问页面,某行业的薪水构成等。

数据挖掘化功大法(5)——数据类型

最常用的办法就是求平均值,相当于SQL中的AVG。有的时候需要在每个值上边加上对应的权重,所以需要加权算术平均值,公式为:

如果想去掉某些值对整体均值的影响,则可以用截尾均值,比如某些高管的薪水比普通员工高很多,则会拉高整体均值的水平。截尾均值可以去掉明显离群的偏高或者偏低的值,然后得到更为准确的均值信息。

而中位数,一般就是指一组数中的中间的数,一般表示数据的倾斜趋势。

众数是另一种中心趋势度量,它可以标识出一组数中出现最多的数。

极差是指一组测量值内最大值与最小值之差,又称范围误差或全距,以R表示。它是标志值变动的最大范围,它是测定标志变动的最简单的指标。。移动极差(Moving Range)是其中的一种。

四分位数(Quartile),即统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的得分就是四分位数。

四分位数的极差相当于Q3-Q1。

五数概括:运用五数概括法的最简单的方式是首先将数据按递增顺序排列,然后很容易就能确定最小值、3个四分位数和最大值了。

五数概括法即用下面的五个数来概括数据:最小值;第1四分位数(Q1);中位数(Q2);第3四分位数(Q3);最大值。

有关五数分布的快速计算可以使用R语言的fivenum()函数。

标准差(Standard Deviation) ,中文环境中又常称均方差,但不同于均方误差(mean squared error,均方误差是各数据偏离真实值的距离平方的平均数,也即误差平方和的平均数,计算公式形式上接近方差,它的开方叫均方根误差,均方根误差才和标准差形式上接近),标准差是离均差平方和平均后的方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

(0)
小胖的头像小胖编辑
上一篇 2015-01-04 06:30
下一篇 2015-01-06 08:00

相关文章

关注我们
关注我们
分享本页
返回顶部