数据挖掘化功大法（5）——数据类型

1、数据对象

相当于类的概念，在销售系统中，对象可以是顾客、商品和销售情况。

属性：属性可以标签的、二元的、序列的或数值的。

标签属性：例如充值渠道中的各种充值类型，在数据库中表示为0、1、2这种，每个数字代表一个充值渠道，例如：1代表支付宝，2代表微信支付。在这种情况下众数是有意义的，就是出现最多或者最少的数。

二元属性：就是我们常说的bool属性。一种情况是两种属性不带权重，对结果无影响，比如男、女。另外一种是有偏重，比如是否得病，一种表示得病，一种表示未得病。

序列属性：对于记录不能客观度量的主观质量评估，序列属性是有用的。比如用户满意度可以分为0 不满意 1 满意 2 非常满意。

二元和序列属性都是定性的，它们只描述对象的特征，而不给出实际的大小和度量。

数值属性：与上面不同的是，数值属性是定量的。

1)区间标度：例如温度可以有零上多少度，零下多少度，也可以表示某天的温度高低的最大值和最小值。区间标度属性的中位数、众数和均值都是有意义的。

2)比率标度：比如说一个值是另一个值的倍数，或比率，例如某部作品的字数、章节数等。所以求这些值之间的均值、中位数和众数都是有意义的。

离散属性和连续属性：在机器学习领域通常分为这两种属性值。例如图书的章节号就是一个离散属性。

2、数据的基本统计描述

对于特定的属性，我们首先关心的是属性的值大部分落在何处。比如网站的访问页面，某行业的薪水构成等。

最常用的办法就是求平均值，相当于SQL中的AVG。有的时候需要在每个值上边加上对应的权重，所以需要加权算术平均值，公式为：

如果想去掉某些值对整体均值的影响，则可以用截尾均值，比如某些高管的薪水比普通员工高很多，则会拉高整体均值的水平。截尾均值可以去掉明显离群的偏高或者偏低的值，然后得到更为准确的均值信息。

而中位数，一般就是指一组数中的中间的数，一般表示数据的倾斜趋势。

众数是另一种中心趋势度量，它可以标识出一组数中出现最多的数。

极差是指一组测量值内最大值与最小值之差，又称范围误差或全距，以R表示。它是标志值变动的最大范围，它是测定标志变动的最简单的指标。。移动极差(Moving Range)是其中的一种。

四分位数(Quartile)，即统计学中，把所有数值由小到大排列并分成四等份，处于三个分割点位置的得分就是四分位数。

四分位数的极差相当于Q3-Q1。

五数概括：运用五数概括法的最简单的方式是首先将数据按递增顺序排列，然后很容易就能确定最小值、3个四分位数和最大值了。

五数概括法即用下面的五个数来概括数据：最小值;第1四分位数(Q1);中位数(Q2);第3四分位数(Q3);最大值。

有关五数分布的快速计算可以使用R语言的fivenum()函数。

标准差(Standard Deviation) ，中文环境中又常称均方差，但不同于均方误差(mean squared error，均方误差是各数据偏离真实值的距离平方的平均数，也即误差平方和的平均数，计算公式形式上接近方差，它的开方叫均方根误差，均方根误差才和标准差形式上接近)，标准差是离均差平方和平均后的方根，用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的，标准差未必相同。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。