数据挖掘方法论—企业数据挖掘成功之道(方法篇)

在过去几年,随着信息化技术的高速发展,数据逐渐变为企业最有价值的战略资产,人们迫切希望能够从数据中发掘价值和探索规律,以便为企业在研发、生产、营销、管理、运维等各个环节遇到的问题提供新的解决思路,用数字化战略为企业赋能。

在过去几年,随着信息化技术的高速发展,数据逐渐变为企业最有价值的战略资产,人们迫切希望能够从数据中发掘价值和探索规律,以便为企业在研发、生产、营销、管理、运维等各个环节遇到的问题提供新的解决思路,用数字化战略为企业赋能。

为什么需要一个数据挖掘方法论
要实现对数据价值的深度发掘,数据挖掘技术无疑是最有效的手段之一。对于企业来说,要开展数据挖掘项目,就必须要了解数据挖掘项目是区别于传统的软件开发类项目,其呈现出复杂性高、周期长、不确定高等特点,特别是不确定性高,是其最典型的特点,主要体现在数据的不确定性、结果的不确定性和方案的不确性等方面,这样就导致整个数据挖掘项目管控难度高,因此一个行之有效的数据挖掘方法论(明确的流程模型)是非常有必要的。

数据挖掘方法论

行业数据挖掘方法论都有哪些?

长期以来,随着数据挖掘市场的发展和成熟,由不同的组织机构提出过很多的方法论,如CRISP-DMSEMMA、5A等,其中CRISP-DM、SEMMA是应用最为广泛。CRISP-DM (cross-industry standard process for data mining),即为“跨行业数据挖掘过程标准”。此KDD过程模型于1999年欧盟机构联合起草. 通过近几年的发展,CRISP-DM 模型在各种KDD过程模型中占据领先位置,采用量达到近60%。排在其后的是由SAS公司提出的SEMMA。SEMMA更偏重于数据挖掘的建模过程,与SAS的EM工具进行整合,其模型管理部署部分则体现在另外的工具套件中。CRISP-DM是从一个数据挖掘项目执行的角度谈方法论,CRISP- DM的考虑的范围比SEMMA 要大。CRISP-DM强调,数据挖掘不单是数据的组织或者呈现,也不仅是数据分析和统计建模,而是一个从理解业务需求、寻求解决方案到接受实践检验的完整过程。因此,从一个项目的管理实施完整流程来说,CRISP-DM更适用一些,本文后续主要以CRISP-DM为主进行详细介绍。

行业数据挖掘

CRISP- DM方法论

CRISP-DM方法论将一个数据挖掘项目的生命周期分为六个阶段,其中包括业务理解(business understanding),数据理解 (data understanding),数据准备(data preparation),建立模型(modeling),评估模型(evaluation)和结果部署(deployment)。这六个阶段的顺序是不固定的,我们经常需要前后调整这些阶段。这依赖每个阶段或是阶段中特定任务的产出物是否是下一个阶段必须的输入。图中箭头指出了最重要的和依赖度高的阶段关系。

CRISP- DM方法论

阶段一:业务理解(business understanding)

业务理解,指从业务角度来理解项目目标和要求,接着把这些理解知识转换成数据挖掘问题的定义和实现目标的最初规划。

数据挖掘-业务理解

在这个阶段,主要通过业务需求调研,明确要解决的业务问题,如果业务问题一开始不明确,就需要从整个企业的内部不同业务板块(如营销、生产、管理等)或从企业与上下游产业链之间的关系来切入与业务专家进行研讨,形成分析主题库,同时需要对每个业务问题的产生背景、业务流程、业务价值、传统解决方法及效果、相关数据资源、涉及哪些部门及领导等内容,调研一定要充分,基于这些调研内容可以对于主题库中的分析主题从可行性、价值性、难易度等多方面进行衡量,为分析主题开展的优先级提供指导。业务目标确定后,一方面需要从业务角度确定成功的标准,这个有利于最后判定结果的有效性和价值性,另一方面也需要确定数据挖掘目标、初步方案和成功标准,在成功标准度量指标这里需要结合当前传统方式的效果和历史建模经验综合来确定,同时也必须要保障该标准具备可验证性,这也是最后保障项目验收成功的重要依据,很多项目最终失败,都是忽略了这个环节,一定要慎重。

阶段二:数据理解 (data understanding)

数据理解,指从数据收集开始,然后接着是一系列活动,这些活动的目的是:熟悉数据,甄别数据质量问题、发现对数据的真知灼见、或者探索出令人感兴趣的数据子集并形成对隐藏信息的假设。

数据挖掘-数据理解

在这个阶段,主要的工作就是基于业务理解阶段梳理的数据需求,收集原始数据,同时对于数据的数据量(维度和样本大小)、数据的质量(缺失值、异常值、不一致性等),数据的分布规律(各种统计指标)等进行初步探索,初步判断该数据是否具备初步分析的可行性,形成一份数据质量分析报告。同时对于预测性问题,如分类、回归等问题,需要明确目标变量,很多目标变量可以不是通过单一变量直接获取,需要通过多个变量结合业务进行确定,如确定一个用户是否是欠费用户,则需要从欠费次数和欠费金额两个维度确定欠费用户的判定规则,规则定义的严苛程度,需要与建模的正负样本分布、业务的认可度、数据的分布等多个方面综合制定。

阶段三:数据准备(data preparation)

数据准备,指从最初原始数据构建最终建模数据的全部活动。数据准备很可能被执行多次并且不以任何既定的秩序进行。包括为建模工作准备数据的选择、转换、清洗、构造、整合及格式化等多种数据预处理工作。

数据挖掘-数据准备

在这个阶段,最终目标是要基于业务理解阶段的建模方案构建建模所需的宽表,即将多个表信息进行整合,包括表之间的联接,明细数据的汇总加工等,同时在过程中需要对于数据的质量问题(包括缺失值、异常值等)进行处理;对数据的字段进行变换,如规范化和标准化,或都将数据进行映射变换,如Log变化,数值型按区间转换成名词型字段等多种加工策略;在特征工程这里,一方面需要从业务角度加工新的计算指标,另一方面需要进行自动特征构建、特征选择、特征降维等方面的工作,来提升模型的性能。数据准备阶段的工作,经常会随着模型性能的评估结果进行反复调整和优化,以便为建模提供更高质量的数据。

阶段四:建立模型(modeling)

建立模型,指选择和使用各种建模技术,并对其参数进行调优。一般地,相同数据挖掘问题类型会有几种技术手段。某些技术对于数据形式有特殊规定,这通常需要重新返回到数据准备阶段。

数据挖掘建模

在这个阶段,主要基于业务理解阶段确定的建模方案,选择相应的建模算法,开始建模和评估模型。这个阶段在建模算法的选择方面,需要注意两个问题,一是算法和参数的选择上,可以按照经常选择常用的方法和参数来调试,也可以使用自动学习类的方法,如自动择参/分类/回归/聚类/时序等方面,来自动选择算法和参数,降低在这个阶段的尝试成本,提升效率。二是需要结合建模的精度,对于建模方案进行优化,最为典型的就是开始定位为某一类数据挖掘问题,可以转换成另一类数据挖掘问题的方式来解决,如回归问题,可以转换成分类问题来解决,当然前提是对于数值预测的单值准确性要求不高。时序问题,可以转换成回归问题来解决等方面,这个更依赖于个人的建模经验。

阶段五:评估模型(evaluation)

评估模型,指在此阶段,需要从技术层面判断模型效果以及从业务层面判断模型在实际商业环境当中的实用性。

数据挖掘模型评估

在这个阶段,已经从建立模型阶段获取了从理论上性能表现更好的模型,需要结合业务阶段确定的数据挖掘模型的成功标准,回归到实际业务中进行模型性能的实测,可以采用A/B测试的方案进行评测。这个阶段的工作,是需要有相关的业务部让或营销部来来配合的,所以需要提前在项目计划中确定需要协调的资源和评测的方案,评测的对比方案一定要得到客户方认可才行,以便降低反复评测的风险。

阶段六:结果部署(deployment)

结果部署,指将其发现的结果以及过程组织成为可读文本形式或将模型进行工程化封装满足业务系统使用需求。

数据挖掘结果部署

在这个阶段,已经得到的理论和实际验证后的模型,需要将模型的成果书面化,从六个阶段进行总结,形成数据分析报告,在这个过程中,也是对整个分析流程的再度审查,保障模型成果的真实性和准确性。如果涉及到工程化应用,还需要将模型发布成不同方式(调度、同步/异步服务API、实时服务等),供其它业务系统进行整合,形成最终的决策应用系统,指导实际业务的开展。最后,对于模型上线后的性能需要定期进行监测,以便后期对于模型性能进行持续性的优化工作。

以上,是我结合个人实际项目经验对于数据挖掘项目实施方法论的理解与总结,希望能给企业决策者、数据分析师和项目管理人员有一定的启发和收获,最后,我想强调的一点是,数据挖掘项目的特点决定了它是有失败的风险的,方法论可以降低的项目失败的风险,但我们必须要正确看待失败,因为项目的探索过程中沉淀的知识和成果是对于企业来说是也非常宝贵的,因此从企业的管理层来说,必须要有足够的耐心和信心对于这类项目以足够支持。

本文由 Tempodata 投稿至 数据分析网 并经编辑发表,内容观点不代表本站立场,如转载请联系原作者,本文链接:https://www.afenxi.com/64331.html 。

(3)
Tempodata的头像Tempodata专栏
上一篇 2019-05-24 14:00
下一篇 2019-05-27 18:03

相关文章

关注我们
关注我们
分享本页
返回顶部