数据挖掘是是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程,这个发现的模式就是我们一般意义上的数据模型。
在移动互联网时代,我们每天产生着海量的数据,各个行业的企业则基于这些数据研发出各类模型,我们实际已经处于一个被模型包围的世界,模型甚至已经主导了我们的大多日常行为,从购物到出行再到娱乐,不一而足。
无论你是哪一类公司,只要需要基于数据进行决策或业务拓展,你就需要好的模型,大数据时代,模型能力甚至决定了企业的核心竞争力,阿里说自己是个大数据公司,但更是个模型公司,因为模型是其业务的大脑。
但正如业务发展有好有坏一样,即使针对同样业务研发的模型也有好有坏,比如你会比较喜欢亚马逊的图书推荐但却不喜欢当当的,因此你会想,难道不能把亚马逊的推荐模型分享出来吗?
对的,这个就叫做模型的最佳实践推广,最佳实践被咨询公司、研究机构、政府机构和行业协会定义为持续有效地达到企业目标而采取的最成功的解决方案或解决问题的方法,亚马逊当然不可能把自己的最佳实践模型分享给竞争对手,这是它的商业机密,但如果有个大型企业有很多的分公司,某个分公司研发出了很好的模型,取得了不错的效果,这个企业的领导自然会想到能不能把这个分公司的最佳实践快速复制到其它分公司,这样整个公司获益最大。
互联网公司在线业务打破了地区差异性,模型往往是一点发布,全网共享,最佳实践不存在推广的问题,但很多传统大企业则不同,不仅研发一个模型不易,推广模型更是困难重重,为什么?
数据挖掘首先需要依托于大数据平台进行数据处理,同时也要部署专门的数据挖掘引擎进行模型训练,传统大企业由于历史原因,比如有集团-省-地市-县市的管理划分方式,推广方和被推广方的平台环境往往是有差异的,大数据平台尤甚,这意味着巨大的代码转化和移植工作,当然现在很多企业随着大数据平台的统一建设,情况在逐步好转。
但你会发现,即使平台环境基本一致,模型移植推广也非常不易,为什么?
模型由数据挖掘产生,比如一个区域的模型要复制到另一个区域,就要看两个区域营造的数据挖掘环境是否存在差异,如果差异很小,说明可复制性就较高,否则,就会水土不服。
一般来说数据挖掘可以分为业务环境、数据理解、数据准备、算法选择、模型训练、测试验证、生产应用、迭代提升等步骤,我们可以看看这些步骤在不同的区域环境下的差异,从而一探模型水土不服的原因。
1、业务环境
组织越统一,业务越统一,创造的数据环境越一致,数据环境的一致性是模型能高效复制的一个基本前提,这里的业务的统一性不仅仅是指业务名称,还包括了政策、产品、渠道等各种要素及其组合。
大家都知道数据挖掘的结果依赖于数据,而数据依赖于人的行为和业务施加在人身上的影响,也就是说,不仅仅是地域差异导致的人行为的差异性,而且由于地域业务的不一致,往往也造成了数据更大的差异,我们经常提为什么在一个地方的模型效果很好但在另一个地方不好,很大原因是业务(各个区域同样的业务名称其实内涵相差很大)和数据变了,比如促销可能短期内改变用户的行为数据,比如政策完全一样但选择的渠道不一样造成的实际模型不可用等等。
互联网公司由于其组织、业务的统一性和全网数据强大的归集能力,具备了先天统一的业务环境,即使各个地方的人的消费行为也不一致,也可以按照地域快速分建多个模型来克服。
很多大型传统企业最佳实践推广是不得已为之的,这是由其组织、业务、数据的割裂性造成的,而互联网企业的模型往往没有试点推广一说,人家一做就是全网的。
2、数据理解
大数据时代、数据的统一归集及标准化价值有多大,想想秦始皇的“书同文,车同轨”就知道了,秦始皇要下个命令,如果还需要翻译成各国文字,其管理成本有多高不可想象。
模型复制也一样,如果推广和被推广的单位在源系统、基础模型到融合模型存在任何不一致的地方,比如表,字段、枚举值,就需要投入巨大的人力成本去克服。
关键是企业还很难找到对双方环境都熟悉的人去干这事,比如大企业的长期外包及由此形成的核心能力缺失,使得做这种事情的效率往往不高,因此,打造一套标准化的数据管理体系是非常重要的。
3、数据准备
整个数据挖掘过程的70-80%时间是花在数据准备工作上的,包括清洗转化整合等,由于数据实体的不同造成原始数据准备代码无法拷贝黏贴,本地数据的准备一般是要重新来过的,但即使数据处理逻辑一致,但只要代码不一致,就有可能造成统计的误差,我们在做报表,取数的时候,这种苦头吃多了,明明业务描述一致,不同的人来取就是不一样。
但即使大企业已经建设了一个统一的大数据平台,即使各个区域(或租户)已经能使用同样的平台和基础数据,但这还不够,物理上的统一并不代表一个区域的数据准备过程就能被另一个租户快速复制过来,因为如果每个租户缺乏约束的自建一套数据仓库,特别是整个数据处理过程还不规范透明,复制将非常困难,比如直接在后台写代码,随意命名表名等等,我们是吃过很多苦头的。
因此,建立一套透明化,标准化的数据管理体系对于集约化异常重要,没有数据开发管理规范的约束会让最佳实践的快速复制化为泡影,企业在建设统一大数据平台的时候,一定要考虑数据管理体系的建设,大数据平台技术也许可以依赖外部力量,但数据管理能力则更多的需要依赖自己,这个很难拿来主义,传统企业如果真的做到了数据准备过程的“一点发布,全网复制”,则意味着数据管理的高水平,可以高效率的推进全网数字化运营。
4、算法选择/训练/验证
各类数据挖掘引擎的出现让算法的选择不成为问题,换个算法的成本也很低,因此复制过程中更要关注的是过拟合问题,尽量让算法能抓到超越了地域限制的共性规律,比如随机森林等不易过拟合的算法。
但笔者对于直接沿用最佳实践模型的训练结果(比如逻辑回归的参数)是没有太大信心的,毕竟是根据某个特定区域的数据训练出来的规律,过拟合不可避免,准确率必然下降,因此模型移植还是需要一定的人力投入进行重新训练,推广的时候如果能基于全网的数据建模,可以考虑将地域也作为一个输入变量。
如果各个地域的特征差异(比如收入差距)非常明显,则基于统一数据平台训练多个模型也是很自然的事情,分而治之是一种提高模型准确率的方法,当然如果地域的差异性到了影响变量的选择程度,这个时候就无所谓最佳实践,完全是另一个模型了,需要重新研究。
5、生产应用
传统企业线下业务为主,很多应用场景中,价值链中数据模型的比重其实不是很高,倒是各个区域的市场环境,用户特点,政策选择,渠道能力直接决定了最终的效果,比如由于外呼水平的不同导致的巨大效果差异,最为合理的验证方法是AB测试,保持所有环境变量都一样,就是模型不一样,最后看效果是不是一致,但这么苛刻的环境在很多企业的最佳实践推广中很难创造,因此可能的结果就是效果不佳或者差异巨大。
因此,如果没有一套相对客观的模型验证的方法论,就没法区分到底是模型的问题还是其它的问题,甚至,这个市场问题根本就不是模型所能解决的,比如区域市场的促销问题,那就是鸡同鸭讲了,这个时候,场景的选择就很重要了,一定要是能让模型的价值凸显的场景。
由此可见,模型最佳实践复制其实是个非常复杂的问题,需要有对于业务和技术都非常熟悉的人来操盘,这对于传统企业的挑战可不小。
6、迭代优化
有点悲伤的是,由于模型是对历史规律的把握,但历史是在变化的,今天的历史跟明天的历史不一样,今天再好的模型,也会随着历史的变化而变得逐步不可用,这是必然的,因此,一般来说越是稳定的市场,模型的生命力会更长点,但如果面临的市场是变化的,那模型也要与时俱进。
这个时候模型的运营才是王道,所谓“小步快跑,快速迭代”,因此,模型最佳实践推广不仅仅要强调模型本身的复制,更应该强调模型运营能力的复制,但有点遗憾,模型运营能力提升很难一蹴而就。
既然短期内不能奢望各个区域都有这个模型运营能力,对于大型传统企业来讲,建立一支中台运营团队就很重要了,即一般所说的“小前台,大中台”,你看,笔者以前讲了很多中台的东西,这回说模型复制也被绕回来了,但万变不离其宗,这的确是大企业解决能力共享问题的一个办法。
你可能会说,为什么不提机制流程?
机制流程的确很重要,但企业只要真的重视这个事情,一般不会成为问题,关键是能否在推广前把存在的问题和挑战说清楚,把需要的资源说清楚,模型推广不是某个专业部门就能解决的问题,不仅牵头方、被推广方及推广方要协同,业务、数据、技术各条线更要协同,只有这样,才可能把PPT里面美好的东西落下来。
当然,提了这么多困难并不是说最佳实践复制就不要做了,而是要能更全面的考虑问题,从而确保模型复制效果,同时,通过一场战役的形式在短期推进某个最佳实践的快速复制也是可能的,但成本是比较大的。
但长期来讲,一要靠业务的真正统一,二要靠系统化,自动化的复制手段,才能真正达到目标,否则很容易昙花一现。
本文为专栏文章,来自:与数据同行,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/51651.html 。