数据分析为啥我爱《射雕》而不爱看《三生三世》

最近我和老婆分别在追两部电视剧。我看的是《射雕英雄传》，老婆看的是《三生三世十里桃花》。我陪着她零星的看过几集，也听她讲了故事的大概。她看的是不亦乐乎，可我对这剧就是提不起兴趣，到底是为什么呢？《三生三世》与《射雕》到底有什么样的差异，让我对后者着迷，而对前者兴味索然？突然就很有兴趣比较下这两部同期播放的电视剧。

差异表现

《三生三世》是非常显著的女性视角，而《射雕》则偏男性视角。

剧中镜头时长女主+女配与男主+男配的对比超过七三开；而《射雕》则是四六开，男性占得稍多。

图1 主配角镜头时长性别比例

而且角色整体数量上《射雕》也比《三生三世》更男性化。

图2 演员数量性别比例

《三生三世》是明星剧，而《射雕》是新人剧

《三生三世》男女主角用的都是当红明星，女配也是知名演员；而《射雕》男女主配都是不知名的演员。

《三生三世》是玄幻外衣下的言情剧，《射雕》则是情节多元的武侠剧

《三生三世》爱情是绝对的主题，其他都是背景；《射雕》这一版本对原著还原度高，以侠义为主线，内容类型多元。

图3 情节时长类型比例

《三生三世》观剧体验较为轻松，而《射雕》略紧张

《三生三世》不单在观剧体验较为轻松的爱情内容上耗时大半，而且节奏也较为平缓，一集的冲突点在10次；而《射雕》的冲突点则高达26次。

《三生三世》更重配乐调动观众情绪；《射雕》则相对平衡

《三生三世》配乐时间超过88%，且其中94%是柔情忧愁类；而《射雕》配乐时间只占全剧时长的46%，且紧张与柔情忧愁+俏皮相当。

图4 配乐时长类型比例

综合来看，《三生三世》是一部较为轻松的女性视角明星言情剧，而《射雕》则是一部较紧张的偏男性视角素人武侠剧。因此

《三生三世》会更吸引成熟女性，

《射雕》则更吸引男性或新一代年轻人。

所以我偏爱后者就好理解了。

上述这些论断就是数据之道——数源思维的最后一步——“谋”。

但是这样的结论是通过什么样的分析思考得来的呢？为什么是比较时长、人物等等指标？又是怎能得来这些数据的呢？为什么……如果有兴趣知道比较思路的来源，不妨继续往下看。

问：

现在我们大部分人都知道拿数据说话是思考和解决问题最好的方法，因此很多人会热衷学习各种处理数据的方法、工具。但到实际解决问题的时候就发现空有方法、工具却对问题无处下手，或者拿着一堆数据却不知从何而起。这就是忽略了思维方法，只知数据之器，而不得数据之道的缘故。

那比较两部电视剧的差异应该从哪里开始比较呢？

答案是：不忙着开始比较，先问问为什么比，比什么，怎么比……规范的提这些问题，你可以采用如下的形式：

决策对象：《三生三世》与《射雕》在吸引观众上的主要差异

约束条件：分析时间

核心因素：电视剧内容

数据决策：建立电视剧内容评价体系

完整问题：如何建立起电视剧内容评价体系，可以使得在有限时间内比较出《三生三世》与《射雕》两部剧在吸引观众上的主要差异。

这就是数据之道——数源思维的第一步——“问”。

拆：

完整问题实际包含了以下4个一级子问题：

如何建立评价体系
怎么满足有限时间的约束
收集数据并评价《三生三世》与《射雕》的结果如何
根据评价结果怎么得出两剧在吸引观众上的差异结论

上述一级问题1可以继续拆分为3个更细的二级问题：

[1.1] 选取哪些方面（指标）来考察电视剧的内容

[1.2] 如何收集这些方面的数据

[1.3] 这些方面如何合成一个对电视剧的评价

其中问题[1.1]还可以再拆分为2个三级子问题：

[1.1.1] 电视剧的内容可以由哪些方面（指标）来考察

[1.1.2] 上述指标哪些在吸引不同观众上可能作用更大

一级问题2可以继续拆分为2个更细的二级问题：

[2.1] 有限时间是多少

[2.2] 怎么选择合适的方法使得问题1的中各方面的考察耗时不多于[2.1]结论

一级问题4可以继续拆分为3个更细的二级问题：

[4.1] 怎么建立对比标准

[4.2] 对比的结果怎么样

[4.3] 这样的对比结果说明了哪些差异

这就是数据之道——数源思维的第二步“拆”。

解

由于咱一不是电视剧从业者，二问题主要分析电视剧对观众的吸引力，因此对内容的分析就只能从一个普通观众角度进行。

[1.1.1]从观众角度看，电视剧的内容大概就反映在下面这些方面。

一级项目	二级项目	三级	四级
视	演员/角色	数量	N/A
		性质	主配角星级
			性别（数量、比例）
			主配角分性别时长
	情节	类型	次数
		类型	时长
		冲突点	次数
		冲突点	密度
	画面	主色调	N/A
		场景	室外风光时长
		场景	建筑及室内时长
		特效	逼真度
		特效	次数
听	配音	总体风格	N/A
	配乐	播放次数	N/A
	配乐	类型	N/A
	声效	类型	N/A
	声效	次数	N/A

上述这些评价指标中有些从观众角度看其实很难评价，比如特效。因为特效做得好就看不出是特效了；还有主色调、配音总体风格、声效类型，受主客观条件限制很难评价。

[1.1.2]哪些指标可能体现吸引观众的差异。

因为是非专业人士，缺乏经验，在看到数据之前也很难有判断。可能就演员或者说角色的数量一般情况下偏好差异不会很明显。只要不是极端情况，比如有些文艺电影，从头至尾就2个人对话，大部分观众应该对出现的人物数量不会太在意。

指标	算法
演员总数	有台词的演员人数各集平均数
演员性别数量	演员总数中男女演员各是多少
主配角知名度	男女主角和男女配角知名度分当红、知名、不知名三级，分别记a/b/b，按照男女主、男女配排序
主配角分性别时长	男主男配时长总和，女主女配时长总和。同场景时双记
情节分类次数	情节分情感-亲情、爱情、友情；事业-习武学习、武斗、文斗、探索；
情节分类时长	单集某类情节起止点之间所耗时长各段落总和均值
情节冲突点次数	调动观众情绪的情节点在单集中出现的次数均值
情节冲突点密度	次数/单集时长，均值
室外风光场景时长	内容背景在非建筑群的室外，山水、田园等风光中的时长均值
建筑及室内场景时长	内容背景在室内或大型建筑群中的时长均值
配乐播放次数	单集次数均值
配乐分类时长	单集时长均值。分柔情忧愁、激昂庄重、紧张、俏皮四类

[1.2] 根据算法收集上述指标的数据办法可以跟一级问题2的约束条件结合起来看。

[2.1] 有限的时间也就一周内可以整块使用的业余时间，加起来可能也就十几个小时。

[2.2] 因此不可能对两部电视剧全部内容进行收集，而且《射雕》剧还没播完（一周才更新4集啊，太凶残了，顺便讨伐下播出方！！！）。数据收集时间不能超过全部时间的三分之一，也就是5个小时左右的时间。而且没有视频分析AI工具可用，只能人肉采集。5个小时也就够收集2集数据的时间。于是决定比较的对象是3月1日两部剧同期上的两集，《射雕》31集，《三生三世》57集。在内容上这两集《三生三世》是大结局前一集，《射雕》是一个承上启下大节点，基本能代表全剧的核心主题。

[1.3] 将分散的指标合成一个评价在量化分析上有很多种办法，不过这里采用定性定量结合汇总的方式就可以，不求精确，但求看出区别即可。

[3] 因为《射雕》是在某网站独播的，因此整个数据收集都是在该网站上进行的。

最后数据的采集是全人工的。基本结果如下：

指标	细项	三生三世57集		射雕31集
指标	细项	次数	时长	次数	时长
演员总数		17	N/A	23	N/A
演员性别数量	男	11	N/A	18	N/A
演员性别数量	女	6	N/A	5	N/A
主配角分性别时长	男主	N/A	9’16	N/A	29’34
	女主	N/A	23’51	N/A	28’26
	男配	N/A	5’15	N/A	12’59
	女配	N/A	12’36	N/A	1’29
主配角知名度		aacb		cccc
剧总时长		12	40’24	15	39’54
情节分类	爱情	8	31’18	4	5’31
	亲情	2	5’12	2	4’34
	友情	0	0	1	0’32
	习文武	0	0	2	3’47
	武斗	0	0	1	9’08
	文斗	0	0	0	0
	探索	2	3’54	5	12’55
情节冲突点次数		10	N/A	26	N/A
室外风光场景时长		N/A	24’05	N/A	8’15
建筑及室内场景时长		N/A	16’19	N/A	31’36
配乐播放次数		19	35’44	14	18’24
配乐分类时长	柔情忧愁	15	33’43	5	4’44
	激昂庄重	3	1’08	0	0
	紧张	0	0	5	8’42
	俏皮	1	0’53	4	4’58

这就是数据之道——数源思维的第三步“解”。

不过人工采集数据的效率实在太低，我一个人足足花了两个晚上才做完2集。每部剧仅仅采集1集的数据对于分析来说并不一定有说服力。如果能开发一套程序实现自动化视频内容数据的采集，那就是视频数据挖掘。如果程序的算法用到了深度学习，那就是机器学习，就是人工智能了。如果将这套人工智能程序推广到采集网站所有影视内容数据上，那就是大数据。

采用这些数据技术能使我们解题的效率获得极大提升，但是这些技术第一不能提出问题，也就是AI不会好奇为什么我不喜欢看《三生三世》；第二更不能让你看到，并喜欢这篇分析文章，也就是AI没有向你分享并期待认同的欲望。所以说，不管是AI，还是大数据技术，它们都是数源思维第三步——“解”中可供利用的工具、手段，数源思维的“问”和“谋”在可预见的将来还是人类专有的能力。面对AI大潮，我们无需惶恐，只要提升自己的思维，认清各自所长就好。至于是AI融入人，还是将人融入AI其实都不重要。

——本文摘自《数源思维：业务导向的数据思维秘籍》，由电子工业出版社投稿

编辑推荐

作者20年执着专研，勇敢实践的真实分享。

写给非专业数据技术从业人员利用数据解决问题的思维方法。

读者对象：管理者、咨询师、行业分析师、产品经理、运营经理、市场营销人员等。

内容提要

《数源思维：业务导向的数据思维秘籍》为非专业数据技术人员提供了一种有效利用数据解决问题的思维方法——数源思维。这种方法的简单描述，就是“从业务中来，回业务中去”。《数源思维：业务导向的数据思维秘籍》的上篇使用实例和典故详解了数源思维内涵和四个操作步骤。下篇同样以实例方式展示了数源思维如何在各部门的业务中发挥威力，并将企业策略制定工作从传统被动、慢速、静态的方式转变为主动、快速、动态的方式。

《数源思维：业务导向的数据思维秘籍》可以帮助企业市场、产品、运营等业务管理者建立或提升数据导向的业务问题解决能力，可以帮助战略规划或中高层管理者提升数据导向的战略分析能力，同时《数源思维：业务导向的数据思维秘籍》也可以作为商学院高年级学生的思维方法学习与训练用书。阅读《数源思维：业务导向的数据思维秘籍》不需要任何高等数学或统计学基础。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。