为什么数据挖掘很难成功？

大数据时代，数据挖掘变得越加重要，曾经做了很多，成功有之，失败的却更多，举一些例子，探究其失败原因，也许于大家都有启示吧。

数据缺失总是存在。

为什么数据挖掘的数据准备工作要这么长时间，可以理解成取数时间很长、转换成所需的数据形式和格式时间很长，毕竟只有这样做，才能喂给数据挖掘引擎处理。

但数据准备的真正目的，其实是要从特定业务的角度去获取一个真实的数据世界，数据的获取比处理重要，技巧倒是其次了。

离网预测一直是很多业务领域关注的焦点，特别是电信行业，但这么多年做下来，其构建的离网模型却难言成功，为什么？

因为数据获取太难了。

离网预测希望用客户历史的行为数据来判定未来一段时间离网的可能性，但国内的电信市场并不稳定，不仅资费套餐复杂，大量的促销政策时时轰炸眼球，大家看得是热闹，但对于数据挖掘人员来讲，却是业务理解和数据准备的噩耗了。

因为业务的理解很困难，数据完全被业务扭曲，如果要预测准确，不仅自身业务促销的因素要考虑进去，还要考虑竞争对手策反政策、地域影响等等，你训练时看到的是一个简单的离网结果数据，但诱导因素异常复杂，这类因素相关的数据根本取不到或者难以量化。

比如电信离网很大程度是竞争对手策反、客户迁徙离网等等，你知道竞争对手何时推出的促销政策吗？你知道客户什么时候搬的家吗？你如何用数据来表达这种影响？你的数据能适应市场变化的节奏吗？

因此，如果某个合作伙伴来跟你说，我可以做电信行业的离网模型，那是个伪命题，离网模型已经被电信行业做烂了，几乎没有成功的案例，即使一时成功也持续不了多久，只要业务不统一，就不大可能出现一个基本适用的离网模型，你无法想象全国10万个电信资费政策会对预测建模造成怎样的影响。

与互联网大一统的数据相比，其搞的风控模型显然要简单的多了，因为数据的获取难度和稳定度不在一个量级上。

数据挖掘，难就难在要为预测的业务提供跟这个业务相关的数据环境，因此，有时离网模型做不好，并不是模型师的错，也不是算法的问题，而是业务惹的祸，是数据问题。

你让开发出Alphgo的DEEP MIND团队来做离网模型，也是一个死字，这可能也是传统行业数据挖掘很难出效果的一个原因。

阿里的蚂蚁金服，所以能算法取胜，一个原因是它天生具有线上的资金往来数据，如果让它去分析传统银行的线下数据，估计难度也很大。

数据挖掘师特别强调要理解业务，就是希望你基于业务的理解能找到所需的解释数据，外来的和尚所以做不好，也是这个因素，因为打一枪换一个地方的方式，跟扎根理解业务的建模文化背道而驰。

数据准备，不确定性总是存在，因此一定程度上讲，这个世界是不可预测的，预测的能力，跟我们采集数据的能力成一定的正相关关系。

大数据的意义，就在于可以采集到更多的数据，这个决定了我们用机器解释世界的可能程度。

假数据真分析。

还是拿离网的例子，你就知道很多时候，所谓的解释数据，都是假数据，虽然你不是故意的，你还很认真，但因为受限于业务能力，决定了你只能使用假数据，结果可想而知。

以前新手，在做离网预测的时候，总喜欢拿订购成功的数据作为训练的数据，但这个显然是个大谬误。

要知道，大量的业务订购是套餐附带订购的，并不能反映用户的真实意愿，拿这个数据去训练，能训练出什么东西？这就是业务能力不够造成的现象。

现在互联网上估计这个现象很严重，比如刷单，这些假数据严重扰乱了模型，去伪存真是数据挖掘师的一个必修课。