大数据产业发展了两年之后,从探索阶段进入了应用阶段。企业和政府看到了数据价值,从被动了解走向主动拥抱。数据被定义成重要的资源,正在得到企业的重视,在企业的经营过程中发挥着重要的作用。数据部门或者数据负责人也成为热点,正在帮助企业实施数据战略,寻找数的商业价值。
数据的商业应用成为企业认识数据价值的一个切入点,也是企业实施数据战略的一个重要前提。数据如何应用,数据如何同场景结合,数据如何变成生产力,数据如何指导业务决策成为了企业最关心的问题。大多数企业还是将精力放在数据架构,技术平台,数据采集等探索工作,没有理顺数据价值应用的发展路径,也没有从数据中看到真正的商业价值,看到智慧的力量。
数据本身是没有价值的,必须同商业需求结合在一起,才能够产生化学反映,体现商业价值。数据的应用场景常常成为企业在数据应用中最迫切的需求。中国有句古话,不积跬步无以至千里,数据的价值应用需要经历多个阶段,完成所有基础工作之后,数据的商业价值才能体现出来。就像一个武功高手,必须先拥有多年修炼的内功,才能够吐纳自如,于无形中取得优势,一击而中。
一企业需要重新认识数据工程
从数据到智慧,从数据到资产,从数据到价值需要系统化思维和严谨的数据工程,没有经历过数据工程,数据应用将失去一个重要基础,无法在企业中发挥出作用。
企业发展过程中经历过业务工程和技术工程,业务工程是指商业模式寻找的过程,主要是指的业务流程的建立。经过多次试错,企业通过业务工程找到了成熟的商业模式。企业借助于业务工程建立了业务流程,业务工程帮助企业解决了业务环节中分工和责任的问题,帮助企业高效运转起来,并从根本上解决了企业扩大规模,高速运转过程中需要解决的管理问题,业务工程也可以看成是管理工程。
技术工程是指在业务工程实施过程中,业务流程的工具化、系统化过程。借助于信息系统的搭建和实施,企业对业务流程实施控制,提高流程效率,降低业务运营成本。技术工程就是信息化过程,帮助企业利用系统和工具来管理业务流程,实现业务工程。业务工程和技术工程都解决了一个问题,就是现代化生产,标准化企业的商业模式和业务流程。业务流程成为业务工程和技术工程的核心,数据成为业务工程和技术工程的附属品和重要的流程产物。
在企业以产品为中心的时代,客户缺少选择权,数据作为副产品,主要是用于财务控制和资源管理。数据没有被作为一种资产来看待,更多的时候,数据只是一个流程的记录,是业务流程的副产品。企业不会化太多的精力去经营,企业将大部分精力放在了产品和是市场宣传。
当进入以客户为中心的时代之后,用户成为了企业的中心,数据也成了联系客户和洞察客户的直接桥梁。如果企业想更多地了解客户,分析客户需求,优化产品,提升客户满意度,企业就必须利用数据了解客户的消费,行为,心理以及预测客户未来的需求。数据将不再是业务流程中的副产品,将会是企业了解客户的一个途径。数据不再仅仅是业务流程中的记录,将会成为一类特殊的资产,从数据中看到更多的价值。
数据工程就是以数据为中心,从数据采集到数据应用的过程。
数据工程也是从数据到智慧的过程,其必须经历四个阶段,原始数据到原数据,原数据到信息,信息到知识,知识到智慧。
- 原始数据到原数据是数据采集和处理过程
数据以多种形式存在,主要的形式是流程中记录下来的数据,多为结构化数据,直接采集信息系统的数据库里面,形成原数据,直接就可以调用。另一部分是行为数据,分为主动行为数据和被动行为数据,主动行为数据包括社交数据,点击数据,浏览数据,言论数据等。被动行为数据就是传感器数据,包括GPS数据,WIFI,ibeacon,摄像头,压力感应器,气压记,湿度记等传感器采集的数据,这些数据只有通过数据采集和处理,才可以放到数据库里面进行应用。
原数据就是指放到结构化数据库里面,可以直接调用和分析的数据,是数据应用的基础,数据标签的主要来源就是原数据。
- 原数据到信息是数据统计分析的过程
这个阶段是数据统计汇总,以不同维度和角度展现的过程,我门看到的数据报表和数据可视化过程就是数据到信息的过程。
信息是数据具有价值的第一个产品,从信息中可以看到业务发展趋势和业务经营情况。经常看到业务数据的环比、同比、对比、百分比、热力图等都是数据作为信息的展示方式。从数据统计汇总中基本上可以了解业务经营情况,产品销售情况,客户增长情况,客户满意情况等基本信息。信息可以帮助企业从数据中了解商业经营情况,从数据中了解运营成本,单个客户价值等情况。
信息是数据价值应用的第一个阶段,企业主要通过信息统计来了解客户满意度和产品销售情况,大部分企业的数据应用处于这个阶段。数据还没有开始帮助企业进行一些商业决策。
- 信息到知识是数据分析挖掘过程
这个过程需要人的智慧,借助于数据分析,企业可以发现一些商业机会,包括产品体验和客户需求,高价值客户和流失客户,潜在客户的基本特征和基本需求,也包括用户行为的分析以及需求。
在这个阶段企业可以借助于数据分析和挖掘发现产品销售的相关性,提升相关产品搭配销售。借助于知识图谱技术找到羊毛党和网络欺诈分子的特征,制定反欺诈的规则。通过分析用户下班之后在App中的行为,针对性推送一些具有价值的交易信息,帮助客户进行决策。通过分析客户物理行为轨迹和品牌偏好,帮助企业客户制定广告营销策略以及商铺搭配策略等。
信息到知识的过程是商业机会总结发现的过程,数据的价值体现在对客观事物规律的总结,在这个阶段,数据应用价值主要依靠人的智慧和高质量的数据分析结果。
- 知识到智慧是人工智能决策的过程
企业面临的数据纬度是海量的,数据对于商业决策影响是多方面的。一个商业决策可能需要考虑和分析数十万个数据个体和数据纬度,通过传统的方法和工具已经无法短时间内帮助企业计算出结果,同时复杂无序的非结构化数据也在一定程度上加大了数据分析的难度。
基于新数据技术的人工智能或者说是数据模型已经可以帮助企业在复杂的数据中去发现一些规律,帮助企业进行商业决策。例如金融企业可以借助于TDA拓扑分析、RF(随机森林),GBDT,深度学习,遗传算法等方式来进行基于行为数据的风控。可以取得90%以上的判断准确率。另外互联网企业的开源计算框架(软件库)正在提升算法的速度和精度。
二数据资产管理和应用功能的平台SmartDP
数据过去分散在企业的各个系统中,数据是企业流程中的副产品,企业主要利用数据进行ROI分析和财务分析。即使是信息化程度较高的金融行业,也仅仅利用了不到40%的数据。大量数据的价值没有被发现,数据还没有被当作一种资产去管理和挖掘价值。
大数据时代,企业面临海量的数据,其中80%的数据为非结构化数据。企业需要对所有数据进行整合,将数据作为一种资产进行管理。海量数据产生还有另外一个特点,那就是数据的实时性。数据的商业价值在很大程度上是同数据的实效性正向相关的。要求企业的数据平台需要具有实时数据处理能力。根据统计大数据企业80%的资金投入都在数据的清洗和整理,也就是我们说的ETL过程。硅谷80%大数据公司正在从事数据清洗和整理的工作,一方面说明大数据的清洗加工ETL是一个巨大市场,另一方面也说明了海量数据的处理难度是大量数据价值没被发现的主要原因。
数据的ETL过程是耗费企业资源的一项大工程,市场上很多著名的可视化软件例如Tableau,Qlikview都不提供ETL功能,只是提供数据可视化和分析功能,避开了数据处理的脏活累活。但是对于企业来讲,多源数据的汇聚和实时清洗仍然是一个必须要解决的问题。如果企业想将数据作为资产统一进行管理,就必须解决多源数据ETL和整合的问题。
硅谷的一些企业正在开发一些多数源实时整合软件,但是目前还没有取得较大的突破,基本上三种以上的数据源汇聚和打通就会出现较大的困难。另外一些数据科学家正在尝试利用机器学习的方式来帮助工程师,半自动化地进行多数据源整合和清洗。当ETL工程师进行数据整合和清洗时,有一个具有active learning功能机器学习模块将监控和学习整个过程。例如其可以通过机器学习来判断11位数字可能是手机号码,一些字段代表价格,一些字段代表年龄,分析出地址、姓名、交易、评价等字段具有什么特点。当机器学习模块训练达到一定程度,其就可以代替ETL工程师,从事数据清洗和加工的脏活累活。机器学习模块如果带有自我进化的功能,在不久的将来就会在ETL准确度上超过人类工程师,这不是一个假设,而是一个正在发生的现实。
企业需要智能数据平台SmartDP,对企业多源数据进行实时ETL和整合,并建立企业的数据资产。帮助企业用户打通企业拥有的数据、采集的行为数据和非结构化数以及外部购买的数据。并进行统一管理,建立数据资产管理目录,为数据打上标签,通过可视化拖拽或者数据模型找到具有价值的数据。SmartDP不同于企业现有的系统和平台,其核心是数据资产的管理和应用,数据资产管理包含多数据源实时引入和打通,数据治理和数据质量管理,数据处理过程监控;并按照业务场景和需求,对数据打上标签,为业务场景提供具有价值的数据产品。这种数据产品可以是统计分析结果、逻辑运算的场景化标签、具有直观商业价值的数据筛选、甚至是具有决策力的数据结果。例如潜在高价值客户标签,潜在购买理财产品的人群,未来会购房和购买某种商品的客户群体,甚至筛选出欺诈人群和未来违约客户等。数据资产的应用主要在三个方面,一个是从数据资产中发现商业机会,提升销售收入,一个是通过数据资产分析,降低企业运营成本,另外一个就是为商业决策提供支持或者进行预测。
我们不再鼓吹大数据的魔力,我们提倡掌握智能数据,一种经过处理和分析,可以帮助企业实现商业价值的数据。智能数据来源于我们企业生产经营,也来源于行为数据等非结构化数据,还来源外部商业环境生产出来第三方数据。大数据时代提升了人们对数据价值的认识,智能数据(Smart Data)帮助实现数据对商业的价值。人工智能是实现数据商业价值的重要手段,SmartDP是实现数据价值的载体。
SmartDP是数据工程和数据应用的完美结合体,从功能上其可以帮助企业进行多源数据的引入和整合,实时处理和打通数据,完成数据治理和管理的工作,监控数据资产质量和数据工程完成情况。数据价值应用方面,SmartDP可以帮助企业进行用户画像,基于业务需求打造场景化数据标签,通过EDM/SMS/Push等方式来打造数字营销闭环。企业可以利用其营销管理工具来设计营销活动,并进行营销活动的管理,包括数字营销活动方案的选择、设计、发送、监控,帮助企业了解营销活动的ROI,并依据营销反馈效果调整营销活动方案、推送人群、营销时间、投入预算、统计方式等。人工智能应用也可以移植到SmartDP,利用SmartDP提供的交互数据和交易数据,帮助智能投顾、智能管家、智能客服、智能风控等具有人工智能应用优化其输入数据和输出结果。企业运营需要的可视化报表和数据大屏都可以基于SmartDP提供的数据进行开发和设计,数据分析和挖掘工作也可以在SmartDP进行。数据工程带给SmartDP的一个优势就是引入行业领先的算法,结合客户的实际业务进行模型开发和优化。
SmartDP另外一个数据工程优势是数学模型的自动调参,基于小样本量的模型建设,以及基于海量数据的高速运算。数学模型建立源于业务需求,不同业务需求和业务数据,数学模型中对应的变量和参数不同,数据模型的参数调整和最优解的计算往往会消耗大量的时间,影响数据模型的整体应用。
下面这段文字引自TalkingData数据数据科学家张夏天的文章,主要介绍开源机器学些库Fregata和模型自动调参。
一般机器学习算法都会依赖一个或者多个参数,对于同一问题,不同的参数设定对模型精度的影响是很大的,而同一参数设定在不同的问题上的效果也有很大的不同。对于从事机器学习工作的人来说,调参始终是一个令人的头疼的问题。知乎上有个问题是“调参这事儿,为什么越干越觉得像老中医看病?”[3],里面有不少关于机器学习调参的经验,心得,吐槽和抖机灵。
对于大规模机器学习问题,调参的难度显然是更大的:首先,一次训练和测试过程的时间和计算资源开销都是庞大的,不管采用什么调参方法,多次实验都会带来很大的时间和计算资源消耗。其次,大规模机器学习问题通常都是数据变化很快的问题,如计算广告和推荐系统,之前确定好的参数在随着数据的变化,也有劣化的风险。
目前来说大规模机器学习存在的主要挑战是两个:第一是计算资源的消耗比较大,训练时间较长的问题,第二是调参比较困难,效率较低。TalkingData在大规模机器学习的实践中也深受这两个问题的困然,特别是公司在早起阶段硬件资源十分有限,这两个问题特别突出。为了解决这个问题,数据科学家们做了很多努力和尝试。最近开源的Fregata项目[4],在这方面取得的一些成果的总结。
Fregata是TalkingData开源的大规模机器学习算法库,基于Spark,目前支持Spark 1.6.x, 很快会支持Spark 2.0。Fregata包括了Logistic Regression, Softmax, 和Random DecisionTrees三中算法。
三种算法中LogisticRegression, Softmax可以看作一类广义线性的参数方法,其训练过程都依赖于凸优化方法。我们提出了Greedy Step Averaging[5]优化方法,在SGD优化方法基础上实现了学习率的自动调整,免去了调参的困扰,大量的实验证明采用GSA 优化方法的Logstic Regression和Softmax算法的收敛速度和稳定性都是非常不错的,在不同数据规模,不同维度规模和不同稀疏度的问题上都能取得很好的精度和收敛速度。基于GSA优化方法,我们在Spark上实现了并行的Logistic Regression和Softmax算法,我们测试了很多公开数据集和我们自己的数据,发现在绝大部分数据上都能够扫描一遍数据即收敛。这就大大降低了IO开销和通信开销。
其中LogsiticRegression算法还有一个支持多组特征交叉的变种版本,其不同点是在训练过程中完成维度交叉,这样就不需要在数据准备过程中将多组特征维度预先交叉准备好,通常这意味着数据量级上的数据量膨胀,给数据存储和IO带来极大压力。而这种多组特征交叉的需求在计算广告和推荐系统中又是非常常见的,因此我们对此做了特别的支持。
而RandomDecision Trees[6][7]算法是高效的非参数学习方法,可以处理分类,多标签分类,回归和多目标回归等问题。而且调参相对也是比较简单的。但是由于树结构本身比较复杂而庞大,使得并行比较困难,我们采用了一些Hash Trick使得对于二值特征的数据可以做到扫描一遍即完成训练,并且在训练过程中对内存消耗很少。
总结起来,Fregata的优点就两个,第一是速度快,第二是算法无需调参或者调参相对简单。这两个优点降低了减少了计算资源的消耗,提高了效率,同时也降低了对机器学习工程师的要求,提高了他们的工作效率。
GSA算法介绍
GSA算法是TalkingData最近提出的梯度型随机优化算法,是Fregata采用的核心优化方法。它是基于随机梯度下降法(SGD)的一种改进:保持了SGD易于实现,内存开销小,便于处理大规模训练样本的优势,同时免去了SGD不得不人为调整学习率参数的麻烦。事实上,最近几年关于SGD算法的步长选取问题也有一些相关工作,像Adagrad, Adadelta,Adam等。但这些方法所声称的自适应步长策略其实是把算法对学习率的敏感转移到了其他参数上面,并未从本质上解决调参的问题,而且他们也引入了额外的存储开销。GSA和这些算法相比更加轻量级,易于实现且易于并行,比起SGD没有额外的内存开销,而且真正做到了不依赖任何参数。
[3] https://www.zhihu.com/question/48282030
[4] https://github.com/TalkingData/Fregata
[5] http://arxiv.org/abs/1611.03608
三从数据中寻找智慧的力量
从数据到智慧不仅仅需要智能数据和智能数据平台SmartDP,更加需要人类的智慧(HI,Human Intelligence)。目前人工智能正在高速发展,但是其发展离不开人类的智慧,即使是名声大噪的Alpha Go其背后也是六段职业棋手的训练以及海量人类棋谱的学习。
我们不再宣扬大数据时代,这个时代已经来临。我们要宣传智能数据时代,因为智能数据更加贴切,更能代表数据的价值和数据的未来。智能数据时代,企业需要借助于三方面力量来实现上商业价值,分别是智能数据、智能平台和人类智慧。三个因素缺一不可,互相协同,共同帮助企业实现数据价值。
从数据中寻找智慧的力量就是利用智能数据、智能平台、人类智慧从数据中发现商业机会,帮助企业在营销、风控、运营、决策、用户体验等方面时间数据价值。对于零售行业,企业可以利用智能数据了解客户需求,为客户定制产品,找到目标客户,降低营销成本,提升营销效果,并为产品库存管理和供应链管理提供决策支持。在广告行业,智能数据可以帮助企业确定广告摆放地点和时间,可以帮助企业定位目标客户,通过线上和线下数据的打通来帮助企业精准推送广告,提升用户体验和提高效果广告转化率。金融行业,智能数据和智能数据平台可以帮助企业利用外部数据和内部数据,激活休眠客户、提升单客价值、低成本获客、识别欺诈分子、实现数据风控。房地产行业,智能数据可以帮助企业精准评估土地价值,实现智能投策。帮助企业进行商铺规划,提升商业地产收益,帮助企业找到潜在购房客户,优化小区资源配置,降低房产营销成本,协助进行社区金融建设。
过去的一年中在多个领域和多个行业,我们团队借助于智能数据、智能数据平台、人类智慧从数据中发现了智慧的力量。例如利用机器学习和数据分析,通过不同的运营活动,帮助银行销售出30多亿理财产品,增加了50%活跃客户,短信的转化率最高达到11%,降低了百万元的营销费用。利用外部数据发现了潜在高价值客户,一周之内从10位客户中获得的5000万存款。通过渠道数据分析,关闭了两个获客ROI较低的渠道,节约上百万元的营销成本。利用数据分析和游戏引入,激活了40%左右的休眠客户。借助于群体喜好消费品牌的分析,优化了商业店铺的配置,提升了20%客流量。利用群体活动轨迹,优化了广告位置,提升了15%的到店种子客户。通过内外部数据的结合,利用LR模型,挖掘出潜在高价值客户,AUC达到0.9,营销效果提升十倍以上。通过TDA(拓扑分析)+RF(随机森林)识别出潜在违约客户,AUC达到8.5。利用图谱技术发现羊毛党主要特征,建立羊毛党模型,拦截了90%以上的恶意羊毛党用户。
2016年数据应用主要集中在数据思维和场景应用,2017年数据应用将会是从数据发现智慧的力量。利用智能数据和智能数据平台(SmartDP)以及人类的智慧(HI)去帮助企业实现数据的价值变现。人工智能(AI)在各个领域的应用也将成为一个热点。
微信公众号【ID:bankinnovation】
本文为专栏文章,来自:鲍忠铁,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/46372.html 。