从定义到应用，数据挖掘的一次权威定义之旅

前两天看到群里有人问，什么是数据挖掘，现在就数据挖掘的概念做一下分析，并且尽量用大白话说一下数据挖掘到底是个啥东西，为啥大数据来了数据挖掘也火了(其实原来就挺火)。

先看一上概念：

数据挖掘(英语：Data mining)，又译为资料探勘、数据采矿。它是数据库知识发现(英语：Knowledge-Discovery in Databases，简称：KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

数据挖掘简介

数据挖掘说的直白些就是在海量的数据中找到有价值的数据，为企业经营决策提供依据。

价值包括以下几类：

1、相关性

相关性分析是指对两个或多个具备相关性的变量元素进行分析，从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。相关性不等于因果性，也不是简单的个性化，相关性所涵盖的范围和领域几乎覆盖了我们所见到的方方面面，相关性在不同的学科里面的定义也有很大的差异。用于确定数据之间的变化情况，即其中一个属性或几个属性变化的是否会对其它属性造成影响，影响有多大。

下图就是相关性的示例：

2、趋势

是指将实际达到的结果，与不同时期财务报表中同类指标的历史数据进行比较，从而确定财务状况，经营成果和现金流量的变化趋势和变化规律的一种分析方法。可以通过拆线图预测数据的走向和趋势，也可以通过环比、同比的方式对比较的结果进行说明。

如下图所示：

3、特征

看具体分析的内容是什么，比如互联网类，就是用户画像这类的需求，根据不同的用户给用户群打相应的标签。

下图是一个示意图：

展现形式

数据挖掘的结果一般有几种展现形式：

1、表格

最早的一种展现方式，交叉表的展示，如下图：

2、图表

相比于图表更具展现力，让人很直观的就能看出数据的整体情况，如下图：

3、决策树

套用俗语，决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友，于是有了下面的对话：

女儿：多大年纪了

母亲：26。

女儿：长的帅不帅

母亲：挺帅的。

女儿：收入高不

母亲：不算很高，中等情况。

女儿：是公务员不

母亲：是，在税务局上班呢。

女儿：那好，我去见见。

这个女孩的决策过程就是典型的分类树决策。相当于通过年龄、长相、收入和是否公务员对将男人分为两个类别：见和不见。假设这个女孩对男人的要求是：30岁以下、长相中等以上并且是高收入者或中等以上收入的公务员，那么这个可以用下图表示女孩的决策逻辑：

数据挖掘涉及的领域

数据挖掘是计算机学科中的一个交叉研究领域，其研究方法与多个其他科学紧密相连，如：统计、机2器学习、专家系统、信息检索、社会网络、自然语言处理和模式识别等等。

什么是数据仓库

数据仓库是一个面向主题的( Subject Oriented) 、集成的( Integrate) 、相对稳定的(NonVolatile) 、反映历史变化( Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理：

①数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;

②数据仓库是对多个异构数据源的有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

企业数据仓库的建设是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们作出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理、归纳和重组,并及时提供给相应的管理决策人员是数据仓库的根本任务。

数据立方体与OLAP

数据立斱体以多维对数据迚行建模和观察。

下图就是客户、产品和销售的数据立方体：

OLAP的多维分析操作包括：钻取(Drill-down)、上卷(Roll-up)、切片(Slice)、切块(Dice)以及旋转(Pivot)等。

钻取(Drill-down)：在维的不同层次间的变化，从上层降到下一层，或者说是将汇总数据拆分到更细节的数据，比如通过对2010年第二季度的总销售数据进行钻取来查看2010年第二季度4、5、6每个月的消费数据。

上卷(Roll-up)：钻取的逆操作，即从细粒度数据向高层的聚合，如将江苏省、上海市和浙江省的销售数据进行汇总来查看江浙沪地区的销售数据。

切片(Slice)：选择维中特定的值进行分析，比如只选择电子产品的销售数据，或者2010年第二季度的数据。

切块(Dice)：选择维中特定区间的数据或者某批特定值进行分析，比如选择2010年第一季度到2010年第二季度的销售数据，或者是电子产品和日用品的销售数据。

旋转(Pivot)：即维的位置的互换，就像是二维表的行列转换，如图中通过旋转实现产品维和地域维的互换。

数据挖掘解决的四大类问题

1、分类

分类技术在很多领域都有应用，例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一个特点是强调客户细分。客户类别分析的功能也在于此，采用数据挖掘中的分类技术，可以将客户分成不同的类别，比如呼叫中心设计时可以分为：呼叫频繁的客户、偶然大量呼叫的客户、稳定呼叫的客户、其他，帮助呼叫中心寻找出这些不同种类客户之间的特征，这样的分类模型可以让用户了解不同行为类别客户的分布特征;其他分类应用如文献检索和搜索引擎中的自动文本分类技术;安全领域有基于分类技术的入侵检测等等。机器学习、专家系统、统计学和神经网络等领域的研究人员已经提出了许多具体的分类预测方法。下面对分类流程作个简要描述：

训练：训练集——>特征选取——>训练——>分类器

分类：新样本——>特征选取——>分类——>判决

下面看一个基于决策树的分类器的示例：

2、聚类

聚类：将数据对象划分为若干类，同一类的对象具有较高的相似度，不同类的对象相似度较低。从这个简单的描述中，可以看出聚类的关键是如何度量对象间的相似性。较为常见的用于度量对象的相似度的方法有距离、密度等。

聚类分析的原理可以根据下图来看：

对牌进行分组：

按花色分：

按符号分：

按颜色分：

按大小程度相近分：

下面就是一个聚类的示例：

3、预测

数据挖掘预测与周易预测有相似之处。周易建立在阴阳二元论基础上，对天地万物进行性状归类(天干地支五行论)，精确到可以对事物的未来发展做出较为准确的预测。许多学者认为周易理论依据是万事万物的相似性、关联性和全息性原理。这三个原理已被现代科学所证实。全息性是指事物的某一局部包含了整体的信息。例如，法医工作者对一根毛发进行化验，得出受害者或嫌疑人的许多身体特征。

周易预测通过对历史事件的学习来积累经验，得出事物间的相似性和关联性，从而对事物的未来状况做出预测。数据挖掘预测则是通过对样本数据(历史数据)的输入值和输出值关联性的学习，得到预测模型，再利用该模型对未来的输入值进行输出值预测。一般地，可以通过机器学习方法建立预测模型。DM(Data Mining)的技术基础是人工智能(机器学习)，但是DM仅仅利用了人工智能(AI)中一些已经成熟的算法和技术，因而复杂度和难度都比AI小很多。

机器学习：假定事物的输入、输出之间存在一种函数关系y=f(x, β)，其中β是待定参数，x是输入变量，则y=f(x, β)称为学习机器。通过数据建模，由样本数据(一般是历史数据，包含输入值和输出值)学习得到参数β的取值，就确定了具体表达式y=f(x, β)，这样就可以对新的x预测y了。这个过程称作机器学习。

数据建模不同于数学建模，它是基于数据建立数学模型，它是相对于基于物理、化学和其他专业基本原理建立数学模型(即机理建模)而言的。对于预测来说，如果所研究的对象有明晰的机理，可以依其进行数学建模，这当然是最好的选择。但是实际问题中，一般无法进行机理建模。但是历史数据往往是容易获得的，这时就可使用数据建模。

典型的机器学习方法包括：决策树方法、人工神经网络、支持向量机、正则化方法。其他常见的预测方法还有近邻法、朴素贝叶斯(属于统计学习方法)等。

预测的模型可以参考下图：

4、关联

分析各个物品或者商品之间同时出现的机率。

在各种数据挖掘算法中，关联规则挖掘算是比较重要的一种，尤其是受购物篮分析的影响，关联规则被应用到很多实际业务中。

首先，和聚类算法一样，关联规则挖掘属于无监督学习方法，它描述的是在一个事物中物品间同时出现的规律的知识模式，现实生活中，比如超市购物时，顾客购买记录常常隐含着很多关联规则，比如购买圆珠笔的顾客中有65%也购买了笔记本，利用这些规则，商场人员可以很好的规划商品摆放问题。在电商网站中，利用关联规则可以发现哪些用户更喜欢哪类的商品，当发现有类似的客户的时候，可以将其它客户购买的商品推荐给相类似的客户，以提高网站的收入。

下图就是一个关联的示例：