大数据技术助力传统企业精细化运营（上）

摘要：面对庞杂而分散的数据以及对快速实时产生数据的渴求，不仅传统企业的IT及经营分析部门束手无策，就连消费品行业一直倚重的管理咨询公司也爱莫能助，因为数据规模之庞大和其中涉及到的相关数据挖掘与分析技术，已经大大超越了管理咨询顾问们的算力。

一家大型消费品企业，其数据生产能力与中等规模的互联网公司已不相上下，支撑日常业务的IT系统多达十余个，越来越多的企业管理层都希望能像互联网公司那样管理用户和数据，用数据驱动决策。

然而，面对庞杂而分散的数据以及对快速实时产生数据的渴求，不仅传统企业的IT及经营分析部门束手无策，就连消费品行业一直倚重的管理咨询公司也是爱莫能助，因为数据规模之庞大和其中涉及到的相关数据挖掘与分析技术，已经大大超越了管理咨询顾问们的算力。

2015年，我们团队有幸为中国一家时尚消费品龙头企业搭建数据平台。历时半年，就完成了内部数据的打通和洞察、用户画像和会员体系的搭建以及外部数据的获取与跟踪。本文将从这三个方面分享一些主要经验，希望有助更多传统企业用数据驱动的方式来进行精细化运营。

大数据与商业智能

“大数据”三个字的意义更多是指一种概念和思维方式，既不是某种具体工作也不是某种特定技术。它至多可以看作是与数据科学有关的各种算法、技术和工具的总称，比如数据挖掘、机器学习、自然语言处理、分布式运算，等等。在企业管理领域，相比大数据，“商业智能”(Business Inteligence，BI)的历史要久远许多。在各大企业软件厂商(如IBM、Oracle、Microsoft、Informatica、SAP、Sybase和Teradata)的不断教育下，大中型企业几乎都采用了BI软件。其实，BI的概念也很宽泛，包含了各种技术和工具如数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等等。那么，二者相比，究竟有何区别与优劣

商业智能(BI)

一般而言，大型消费品企业日常运营所需IT系统多达十余个，包括：

分销系统: 全国上千家实体店面每日的销售配货，日订单量在数十万量级
电商订单系统: 负责处理十余个电商平台(京东、天猫、唯品会、一号店、聚美、亚马逊、当当网、有赞等)的订单管理与客服
仓库管理系统，负责全国各大区域的仓储物流，数千个SKU的备货情况
BI系统: 负责各主要业务系统的数据聚合，制成日常统计报表
其他财务、人力资源、绩效管理、品牌/分公司订货系统等，日数据量极其庞大

为了追求高度的抽象化与通用性，企业BI软件大部分时间所承担的责任是一家公司的各类报表应用：将各个IT系统的数据聚合至BI，进行统计汇总，并统一在前端呈现出图表与数值，便于业务人员了解日常数据和运营情况。所以，除了ETL[1]部分，BI软件绝大多数的功能通用性极强，具有跨行业、非定制化的特点。

这也就决定了BI软件的卖点在于监控和绘制通用性的统计报表，比如时间序列统计、分布统计、分段统计等等。图1展示了这家消费品企业两年间平均价格变动与总销量的时间序列，可以看出销量两年来稳步增长，有小周期性(1、2月份卖得少，换季月份卖得多)，而卖出商品的价格两年保持基本一致，并呈明显周期性变化(冬季产品价格比夏季高出许多)。图2展示了公司旗下各品牌的销量分布和占比，可见此公司有一个相当强悍的主品牌，以及2-3个在垂直领域表现不菲的子品牌，定期输出销量分布，可以监控各品牌的发展情况并衡量品牌策略是否成功。

BI软件的强项是将这些业务数据汇总起来，无需编程即可绘制出可供长期监控的可视化报表，同时实现随时更新，而不是传统管理咨询所能提供的静态报告，这些报告往往在出炉第一天就过时了。

数据科学

在一个数据工程师的眼里，BI软件做的事情其实就是数据分析的范畴，任何数据洞察、数据挖掘工作都需要涉及到这些通用维度的基本统计。但在这种浅层分析的基础之上，数据科学家可以通过带入较强的人为干预和行业性输入，做到许多高于BI的数据洞察。而将这些洞察落地，运用至具体产品设计、营销方案、会员体系构建和售后服务中，便可以像互联网公司一样，实现以数据驱动业务。

图3是用户重复购买间隔的CDF曲线(Cumulative distribution function)。横坐标代表天数，纵坐标代表百分比。数据显示，有37%的用户在第一次购买后的一个月(30天)内会进行第二次购买，而45%的用户在第二次购买后的一个月内进行了第三次购买，51%的用户在第三次购买后的一个月内进行了第四次购买。随着购买次数的增加，CDF曲线向左倾斜，也就意味着用户在建立了品牌认知后，购买频率显著增高，两次购买之间的间隔明显缩短。因此，诱发新用户建立品牌意识，进行二次购买的窗口为3-4个月的换季档，而对老客户的消费唤醒窗口期则更短，以1-2个月为最优。这是一个很典型的数据工程师利用自己的行业知识和经验来实现数据洞察的例子，也是BI软件无法做到的。首先研究复购间隔是消费品行业独有的场景，更重要的是想要完成这个洞察，其中所涉及的统计工作具有很强的定制性，也较为复杂，需要编写统计脚本或是使用多条复合SQL[2](结构化查询语言，Structured Query Language)来实现，数据工程师的价值也在此有了体现。

除了复杂和高定制性的统计逻辑外，对于非结构化数据的处理和挖掘也并非BI软件的强项。对于大型消费品公司来说，全电商渠道的运营已经成了常态，每日来自京东、天猫、唯品会、一号店、聚美等大型电商平台的订单数高达数万个。这些订单的邮寄地址里包含了巨大信息量，比如用户所在城市、地理位置，甚至身份、职业、消费能力等等。通过程序和地图API[3](Application Programming Interface，应用程序编程接口)将这些邮寄地址转化为经纬度后，可以对用户群做大量的精细研究。图4便是我们利用送货地址做的用户群分布热力图，以北京海淀区为例，大量用户密集集中在中关村周边，其次便是各大高校宿舍聚集的区域。红色标签为品牌线下店铺位置，可见门店已经覆盖了中关村、北京大学和五道口等地，但对于知春路片区以及用户相对集中的牡丹园并未开设分店。相比之下安贞里分店四周并没有特别多的目标用户群出没。

热力图这样的算力往往超过了管理咨询公司的能力范围，对于用户选址却很有价值。对于一些并无日常监控必要的统计，有时也会贡献许多有价值的洞察。

图5展示了线上用户购买时间的分布情况。可以看出，周末线上购物的时间十分均匀，除了半夜之外大部分时间段都有网购发生。相比之下工作日的线上购物时间分布就变得十分有趣，大量的订单集中发生在早上9点和10点之间，也就是说大量的时尚白领在上班途中或是步入办公室后的第一件事便是“败”一件自己心仪的宝贝，然后才能心情舒畅地开始一天的工作。那么不管是自营电商促销、短信推广还是各宣传阵地的推送，工作日早上8点至10点都是一个不错的窗口。

和图5类似，图6将线上用户的购买数据按照一周7天进行分布统计，也发现一些有意思的现象，比如周六、周日上网买东西的用户极少，每周网购的高峰出现在周一和周二。或许上班族们都是通过线上血拼来抚慰自己，治愈“周一综合症”的。而越临近周末，大家在线买东西的热情也就越低。

像图5、图6这样的数据洞察往往也是BI软件无法捕捉到的。数据工程师们可以将这些没有长期监控意义的指标转化成具有商业价值的洞察。同时这又是传统的管理咨询公司无法做到的，因为他们缺乏能力整合如此海量的数据并按天甚至按小时进行实时输出。

个人认为，数据科学(大数据)和“广义”的商业智能没有本质区别，两者都涵盖了非常广泛的内容，并且核心都是通过数据处理和分析，提升业务表现。但我们平时所谈论的“BI”主要是软件厂商所提供的BI软件/套件，用于实现业务报表和统计监控的功能，和数据科学还是有着比较大的差异。可以说BI软件提供了一种非常抽象、便利的数据汇总、统计和可视化工具，完成了数据科学的一部分工作;但许多深层次、行业性、高于BI软件的分析与洞察，则需要数据工程师参与以及特定数据系统的支撑来共同完成。

(未完待续，敬请关注)

[1] ETL即Extract-Transform-Load 的缩写(也往往被简称为“数据抽取”)，用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。传统消费品企业面对零散的数据库，特别需要ETL的服务。

[2] 结构化查询语言(Structured Query Language)简称SQL，是一种特殊目的的编程语言，是一种数据库查询和程序设计语言，用于存取数据以及查询、更新和管理关系数据库系统;同时也是数据库脚本文件的扩展名。

[3] API(Application Programming Interface，应用程序编程接口)是一些预先定义的函数，目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力，而又无需访问源码或理解内部工作机制的细节。

来源：上海交大巴黎高科评论
作者：任栋霓&何明科
任栋霓，一面网络联合创始人。香港科技大学计算机科学本科、硕士、博士毕业。曾就职于腾讯(腾讯视频)、日本国立情报学研究所(东京)。曾在华为诺亚方舟研究院(香港)从事移动大数据(MBB)系统研究与开发。并曾就职于快播技术架构组，从事图像/人脸识别和搜索技术的研究与产品开发。
何明科，一面网络联合创始人、CEO。毕业于清华大学汽车工程系获工学学士学位，就读于斯坦福大学商学院获MBA学位。曾担任58同城集团高级副总裁、软银赛富副总裁。一面网络成立于2014年，是一家从事数据沉淀、处理、整合、理解以及可视化工作的公司。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。