大数据技术助力传统企业精细化运营（下）

摘要：无论是提供商品还是服务，用户画像都是数据挖掘工作的重要一环。准确和完整的用户画像甚至是许多互联网公司赖以生存的宝贵财富。

建立用户画像和用户体系

无论是提供商品还是服务，用户画像都是数据挖掘工作的重要一环。准确和完整的用户画像甚至是许多互联网公司赖以生存的宝贵财富。我们也已经听过了无数用户画像的神奇功能和成功案例，比如亚马逊、淘宝的机器学习团队使用用户浏览行为、购物车状态和购买记录开发关联推荐系统，使点击率和销量大幅提升；比如应用市场根据过往APP安装记录对每个使用者进行精准推荐；再比如音乐、图书和新闻网站通过协同过滤的方式为用户呈现个性化的定制内容。

而传统管理咨询公司只能通过“人肉式”的市场调研和抽样方式，进行粗糙的用户画像。

对于消费品公司而言，虽然用户行为数据的丰富程度和互联网产品相比稍显逊色，但也拥有庞大的用户信息和交易数据沉淀、散落在各个IT系统中，而且更真实，噪音更少。我们在深入了解了这些用户信息和交易数据，并对它们进行了清洗、汇总、打通之后，发现数据质量比我们想象的好很多，可以支撑许多有意思的用户画像的建立。

数据标签化

用户画像的底层是机器学习，那么无论是要做客户分群还是精准营销，都先要将用户数据进行规整处理，转化为相同维度的特征向量，诸多华丽的算法如聚类、回归、关联、各种分类器等才能有用武之地。对于结构化数据而言，特征提取往往都是从给数据打标签开始，比如购买渠道、消费频率、年龄性别、家庭状况等等。特征标签选得好可以使对用户的刻画变得更丰富，也能提升机器学习算法的效果（准确度、收敛速度等）。

在消费品公司的项目中，我们根据不同维度提取了数十个标签，图7展示了其中一部分。这些标签主要有三个来源，一个类是在IT系统中可以得到的信息，比如办会员卡时留下的信息（性别、年龄、生日）、购买渠道、积分情况等；第二类是可以通过计算或统计获得的，比如用户对某类促销活动的参与程度、对某种颜色/款式商品的偏好程度、是否进行过跨品牌购买等；第三类是通过推测所得，比如送货地址中出现“宿舍”、“学校”、“大学”等字样，则用户身份可以推测为“学生”，出现“腾讯大厦”、“科技园”等信息时，则可判断是“上班族”，并有很大概率是技术从业者；标签设计上也带有较强的行业性，比如是否偏好购买当季爆款或是偏好新品多于经典款（时尚度），是否更倾向购买低价或打折商品（价格敏感度），是否喜欢购买高价商品或限量版（反向价格敏感度），等等。

对于已经打好的标签，根据不同的分析场景进行离散化，或将分类类型的标签拆成多个0/1标签，就可以进行机器学习的建模了，如聚类、分类、预测或者关联性分析，最终生成的向量维度多达数千个。

说到这里，管理咨询公司的Excel软件是不是已经快宕机了？

关联性分析

关联性分析（Association rule learning）是在零售行业中应用最广泛的一种机器学习方法，营销学里经典的“啤酒/尿布”(超市里购买尿布的消费者往往同时购买啤酒)案例也已经是家喻户晓，虽然后来被证实这是一个为了教学目的而虚构的案例，但从其“上镜率”也可以看出关联性分析在零售领域的重要程度，这个例子在中国改成“泡面/火腿肠”会更亲切。

和购物篮关联规则不同，我们数据挖掘过程中的基本单位是用户，而特征向量则是基于提取出的用户标签而构建的，下表是一个简单的示例。

我们获得了一个NxM的特征矩阵，N为用户数，量级在百万级，M为特征维度，约数千个二元标签。基于这个特征矩阵我们使用了最基础的Apriori算法[1]计算相关度，并在支持度、置信度和增益三个层面设置临界值，输出符合要求的关联规则。由于输出的关联规则可能涉及到客户隐私，在这里仅做一个示例。下表中的前项（antecedent）为用户所在地，后项（consequent）为最高的活动敏感度，结果如下：

可见，上海与江浙地区对于促销活动的敏感度和参与度是最高的，增益均高于2倍，上海更是达到了3.3倍之多。

另一个例子是颜色的关联规则，下表展示了用户对于不同颜色的产品以及SKU之间的偏好特征，可见某些用户是有较强的颜色偏向的，比如金色和银色之间、咖啡色和绿色之间等等。买过紫色和杏色的用户中，接下来比较可能买金色，把这些数据反馈给店面或线上团队，推荐颜色和配货就会轻松一些。

RFM Model

值得注意的是，做关联分析时要确保前后项的独立性（independence）。提取特征时有些维度是从相同或相关的字段提取的，比如用户的星座和出生月份，不做控制就会得出“11月出生的天蝎座特别多”这样让人啼笑皆非的规则。

RFM模型是用户价值研究中的经典模型，基于近度（Recency）、频度（Frequency）和额度（Monetory）这三个指标对用户进行聚类, 找出具有潜在价值的用户, 从而辅助商业决策，提高营销效率。

RFM建模所需要的数据源相对简单，只用到购买记录中的“时间”和“金额”两个字段。基于交易数据中用户最后一次的购买时间、购买次数和频率以及平均/总消费额，我们针对每个用户计算出三个维度的标准分。通过对三个维度赋予不同的权重，再基于加权后的分值应用K-Means算法[2]进行聚类，根据每种人群三个维度与平均值之间的高低关系，确定哪些是需要保持的用户、哪些是需要挽留的用户、哪些是需要发展的用户等，进而对不同用户群使用不同的营销策略（引导、唤醒等），提高复购率与转化率。值得注意的是，三个维度的权重制定并没有统一标准，比较通用的方法是用层次分析法[3]（Analytic Hierarchy Process，简称AHP），再结合行业以及具体公司的特点进行优化。

图8是通过RFM模型进行用户聚类后的结果，可以清楚看到几个人群用户的数量以及比例。同时这些分群也会作为标签重新输入至用户画像以及CRM（客户关系管理）当中，作为圈定特定用户群以及营销的入口。

图9展示了用户群之间在各个维度上的分布。消费、金额、频率这些模型直接相关的标签上自然有非常显著的差异，同时在一些垂直(orthogonal)的特征维度上也有很大不同。

用户体系

最后，对消费品公司而言，所有在数据挖掘和用户画像方面的投入，根本目的还是要提升业务表现，所以如何将数据挖掘的结果进行落地就变成了尤为关键的一环。对于用户画像所输出的所有标签和关联规则，都需要通过某种渠道抵达用户群。这种渠道可以是一个强大的CRM系统，通过不同标签圈定用户群，定向发布营销方案；也可以是一个会员客户端，推送个性化的打折券或新品推荐；甚至是自营电商，实现像天猫、京东一样的数据自生产和自消费循环。

使用外部数据理解趋势

随着电商平台和社交网络的蓬勃发展，通过网络爬虫和解析程序等技术已经可以从互联网上获取大量高度结构化的行业信息。所以除了分析挖掘企业内部生产的数据之外，长期跟踪和分析各大网络平台的数据同样可以产出巨大价值，做到真正意义上的知己知彼。这些爬虫收集及存储数据的能力，也是传统管理咨询公司无法企及的。

本文仅分享和天猫相关数据挖掘的一些思路。我们采用了天猫这个细分子类5个月的数据，包含5000个品牌的7000家店铺、24万种商品、100万个SKU（库存量单位，Stock Keeping Unit），共计2600万条用户评论。

行业趋势

如下表所示，对于每一个独立产品，天猫已经将各类特征以较高的质量进行了结构化，以女性服饰为例，其中就涵盖近20种不同的属性。对于24万个价格与销量各异的产品进行统计分析，即可得出行业的流行趋势，比如每种风格服饰的价格区间分布，或是哪个版型更畅销，哪个品牌的哪个颜色更受欢迎等等。

图10展示了几个不同风格产品的销量对比。可见“双十一”和“双十二”对各种风格的销售撬动都十分明显，而去年韩版风格是当之无愧的“爆款”制造者，表现完胜其他各种风格。

用户决策语义

“当我们谈论商品的时候我们谈论什么？” 这是所有品牌商都想知道的问题。对消费品企业及管理咨询公司来说，其能力决定了其只能通过“类咨询”的方法做小组（焦点）座谈（Focus Group）或者调查问卷，利用严重有限的样本尝试提取出一些规律。

而在数字化程度极高的今天，这件事情开始变得简单。在天猫的例子中，仅5个月的时间跨度就提取出了2400万条用户评论，而且每条评论都精确到了具体商品、SKU一级的颗粒度，并带有明确的时间戳，给了我们挖掘和洞察用户的机会。

图11展示了用户在评论中提到不同场景次数的时间序列。我们首先为每个场景定义了十余个关键字，然后对所有用户评论进行了分词以及中文索引，再对这些场景相关的关键字进行提取，最后得出每日的数据量。在图中我们可以得出很多有意思的信息点，比如排除掉“双十一”和“双十二”的干扰后，提到婚礼场景的用户在9月中旬达到了一个波峰，或许和伴随“十一黄金周”到来的婚礼高峰期有直接关系。再比如旅游外出的场景在8月初和10月初有这两个波峰，也就意味着大家会为暑假以及黄金周的出行置办旅游新品。

天猫本身对每个用户都有内置的等级，从T0到T4总共5个，T0是入门级的用户，消费较少额度较低，T4是最高级的用户，消费额度和频率都很高。用户的等级数据在评论页面也是可以拿到的，我们对不同等级用户的购买场景也做了分析。图12和13展示了T4和T0两个等级用户所关注的场景，可见在婚礼、旅行和开车等场景上，T4用户的讨论占比远高于T0用户，而反观逛街、学生和办公通勤则在T0用户的讨论中占有更大比例。对于不同的人群，品牌商可以根据自己的定位主动迎合某些人群更关心的场景以及产品点。

品牌与定价策略

使用电商平台上的用户数据，让品牌商有机会近距离接触竞争对手的品牌定位与定价策略。图14展示了行业内四家主要集团旗下销量前五品牌所拥有的商品个数，可见除集团B的主品牌一家独大之外，其他三个集团在主品牌之后也有数个产品量级相似的子品牌。

图15展示了各品牌实际贡献的销量，与图14结合来看，集团A各品牌的产品数和销量是完全成比例的；集团B的主品牌依旧贡献了绝大多数销量；而在集团C中，各品牌的产品数相似，销量贡献却主要来自一个主品牌，从一个侧面也反映了集团C的多品牌策略开展得并不成功。

想想以前咨询公司要拿到竞争对手的数据，可真是难于上青天。

即使是十分成功的品牌，有时候对自己的目标人群和市场定位也会出现偏差。图16、17展示了各集团在各个价格区间内的产品数以及产品销量，值得关注的是集团C，在200-400元档安排了大量的产品个数，却没有卖出最多的销量。反而是产品数更少的400-600元档产生了最多的销量。可以看得出集团C把自己定位在了一个价格亲民的位置上，没想到它的粉丝们却青睐品牌里更加奢侈的商品。

口碑监控与情感分析

当前国内的舆情监控技术发展并非想象当中成熟，我们发现甚至找一个中文行业分词包和情感包都很困难，只能自己搭建。我们选择了关键词+依存文法的方式做语义提取和情感分析。这种基于规则和机器学习混合的分析方式，和直接训练分类器（SVM或是神经网络）进行正负语义判断相比，优势在于除了可以分析语义的正反面之外，还能提取讨论的主体以及修饰主体的词语，用来进行更深层的客户研究。

图18展示了4个集团正面评价。集团B仍旧特点鲜明，以低价捕获消费者的心，而集团C在客服方面收到的好评明显少于其他三个集团。

图19是负面指标的时间序列，可见平时大家的各项吐槽相对平稳。到了“双十一”期间负面评论的出现发生了急剧增加，以物流、客服为首，抱怨的声音最大，而包装破损和色差褪色只是稍有上升。

结语

数字化时代，消费品企业使用内部产生以及外部采集的数据，像互联网公司一样建立用户画像与会员体系，以数据驱动的方式进行精细化的生产、运营和销售，这样的需求早已超出了依靠大脑和Excel表格的传统管理咨询行业的能力范围。数据技术就如同《魔戒》水晶球Palantiri，赋予了人类及精灵看到任何地方的能力；而无论视力多么了的的人类，至多看到目力所及的有限范围。

如今几乎所有行业都在谈论“大数据”，曾经位于整个打工界顶层的高端服务业（一般包括投行、咨询、会计和律所等行业），又会怎么面对？大家的节奏基本都是：说得多动得少。其中最为尴尬的莫过于管理咨询。当管理咨询公司勤勤恳恳地为客户规划“大数据战略”时，客户会不会问一句：你的大数据战略呢？

[1]Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集，后文提及的支持度、置信度和增益都是Apriori的核心概念。Apriori算法已经被广泛的应用到商业、网络安全等各个领域。

[2]K-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。

[3]层次分析法（Analytic Hierarchy Process，简称AHP）由美国运筹学家、匹兹堡大学T. L. Saaty教授在20世纪70年代初期提出，是对定性问题进行定量分析的一种简便、灵活而又实用的多准则决策方法。它的特点是把复杂问题中的各种因素通过划分为相互联系的有序层次，使之条理化，根据对一定客观现实的主观判断结构（主要是两两比较）把专家意见和分析者的客观判断结果直接而有效地结合起来，将一层次元素两两比较的重要性进行定量描述。而后，利用数学方法计算反映每一层次元素的相对重要性次序的权值，通过所有层次之间的总排序计算所有元素的相对权重并进行排序。

来源：上海交大巴黎高科评论
作者：任栋霓&何明科
任栋霓，一面网络联合创始人。香港科技大学计算机科学本科、硕士、博士毕业。曾就职于腾讯(腾讯视频)、日本国立情报学研究所(东京)。曾在华为诺亚方舟研究院(香港)从事移动大数据(MBB)系统研究与开发。并曾就职于快播技术架构组，从事图像/人脸识别和搜索技术的研究与产品开发。
何明科，一面网络联合创始人、CEO。毕业于清华大学汽车工程系获工学学士学位，就读于斯坦福大学商学院获MBA学位。曾担任58同城集团高级副总裁、软银赛富副总裁。一面网络成立于2014年，是一家从事数据沉淀、处理、整合、理解以及可视化工作的公司。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。