换个姿势看《权力的游戏》,第七季回归之推特数据分析

作为一部红遍全球的美剧,《权力的游戏》可谓是当之无愧的神剧。自2011年第1季问世以来,就吸引了无数粉丝。该剧第7季于上周7月16日回归,下面让我们对回归首集的推特数据进行分析。

作为一部红遍全球的美剧,《权力的游戏》可谓是当之无愧的神剧。自2011年第1季问世以来,就吸引了无数粉丝。该剧第7季于上周7月16日回归,下面让我们对回归首集的推特数据进行分析。

凛冬已至。《权力的游戏》第7季已至,而这个我们所钟爱的美剧总共只剩下12集了,且看且珍惜。或者我们可以换个姿势,以数据的角度对《权力的游戏》进行分析,何乐而不为呢?

换个姿势看《权力的游戏》,第七季回归之推特数据分析

“死亡是如此可怕的结局,而生活充满了可能性。”

——提利昂·兰尼斯特

在没有明确的目标和方向时,我开始考虑针对最近《权力的游戏》的回归首集做些有趣的探索性数据分析。经过一番思考之后,我决定选择针对推特。推特上,普通观众和铁杆粉丝们都一起,实时讨论或吐槽剧情。在当中一定会发现一些有趣的见解。让我们开始吧。

剧透预警

如果你还没有看最新一集并打算看的话,那么前方可能涉及剧透。建议先耐心追完剧再看,如果无所谓的话,那么继续看关于《权力的游戏》S7E1的数据解读吧。

换个姿势看《权力的游戏》,第七季回归之推特数据分析

收集数据

由于缺乏真正抓取数据的经验,我经过了抓取数千条“权力的游戏”相关推文的过程。进而,我决定抓取只标记了#GoT的相关推文。事实证明这已足够,因为我在一周内共抓取了超过215,000条推文。更重要的是,在首播期间就有超过25,000条实时推文。这些将作为我分析的主干。

关于首映

正如人们所想象的那样,随着时间的推移,人们对该剧回归首集的兴奋之情也逐渐升温。下图显示了7月10日-7月18日一周内相关推文的数量。

换个姿势看《权力的游戏》,第七季回归之推特数据分析

在11日和13日可以看到一些波动。老实说,我不太清楚这是什么原因,通常可能是由于炒作或者发布了头条新闻。

更明显的是,可以发现在剧集播放的一小时内数据出现了一个明显的高峰。接下来,让我们单独分析这一个小时内的实时推文情况。

播放时的推文活跃情况

从来自世界各地关于《权力的游戏》的近25,000条推文中,我们可以了解到许多信息。下图中可以看到精确到分钟,在首集播放的那一个小时内,推文数据的活跃程度并不是完全不变的。

换个姿势看《权力的游戏》,第七季回归之推特数据分析

可以马上注意到:有4个时间段,推文数量达到峰值。下面让我们具体看看,峰值期间剧情到底发生了什么:

0-4分钟(被提及约800次):剧集刚开始,艾莉亚做了重要演讲。

8-12分钟(约1300次):主题曲时间,我们听到了一直在等待的熟悉旋律。

3436分钟(约400次):山姆出场,有一段非常不适合吃饭时观看的蒙太奇片段。

4044分钟(约600次): Ed Sheeran莫名其妙地出来客串。

关键词分析

经过一般行为分析,下面我们来进一步深入分析这些推文的内容。我选择使用nltk包,以便创建整个剧集的推文语料库。

为了证实这个语料库是有意义的,必须采取一些措施。我使用nltk内置的功能删除了所有典型的停用词。接着,我删除少于三个字母的单词。同时我也删除了英语字典中没有的单词。最后,我重新添加了关于该剧的术语,比如人物的名字。比如由于某种原因,“丹妮莉丝”(daenerys)就未收录在英文字典中

现在,我们已经清理了这个包含超过50万不同词汇的巨型语料库,可以开始分析数据了。为了对该语料库进行可视化,我创建了20个最常用单词的数据框架,以及词云。

换个姿势看《权力的游戏》,第七季回归之推特数据分析

正如所看到的,提及最多的词是“首映(premiere)”(没毛病)。接下来,还有一些有趣的关键词,如“红色(red)”,“乔拉(jorah)”和“瓦里斯(varys)”。稍后我将进一步对人物角色进行分析。这里所有关于“红色”的推文,可能均指向剧集开端艾莉亚精心策划对血色婚礼(red wedding)的复仇。此外,“黄老板(sheeran)”被提及超过4000次,排名12,好的吧。

换个姿势看《权力的游戏》,第七季回归之推特数据分析

被提及的角色

在剧集结束时,我们经常会与朋友讨论:“哪个角色赢了(或输了)?”通过数据分析,我们可以更准确地回答这个问题。

换个姿势看《权力的游戏》,第七季回归之推特数据分析

得到的结果非常有趣。乔拉为第一位(由于他悲催的遭遇),被提及超过6000次。瓦里斯与之不相上下,位居第二(不太记得为什么会这样…..)。之后,分别是:艾莉亚,囧,瑟曦珊莎。令我感到惊讶的是,尽管作为最后15分钟的焦点,丹妮莉丝却位居第七。我猜可能是因为她的名字难写吧,也可能是错的。最后是阿多(Hodor),他以被提及了超过500次挤进前十。Hodor。

换个姿势看《权力的游戏》,第七季回归之推特数据分析

结语

在写完这篇文章时,我想反思几件事情。通过这个项目,我意识到在一些看似微不足道的事情背后所积蓄的力量,比如本文分析的推特。我打算在之后的工作中,继续充分利用推特和其他媒体资源。

(已经更新第二集了呢,话不多说,要去追剧了)

github 完整代码:

https://github.com/conordewey3/GOTS7E1-EDA/blob/master/GOT%201%20EDA.ipynb

原文链接:

https://medium.com/towards-data-science/game-of-thrones-s7e1-twitter-analysis-8dcd0bec958b

本文为专栏文章,来自:CDA数据分析师,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/46413.html 。

(0)
CDA数据分析师的头像CDA数据分析师专栏
上一篇 2017-07-18 18:47
下一篇 2017-07-28 12:18

相关文章

  • 【大数据分析】做数据分析是一份怎样的工作?

    做数据分析是一份怎样的工作,这是一个完完整整的获取数据→处理数据→分析数据→呈现数据的过程,需要用到编程语言,统计工具、数据处理工具、模型、算法、逻辑、业务理解等。

    2016-10-18
    0
  • Python教程:7款数据图表工具的比较

    摘要:本文介绍7款 Python 数据图表工具的比较 Python 的科学栈相当成熟,各种应用场景都有相关的模块,包括机器学习和数据分析。数据可视化是发现数据和展示结果的重要一环,只不过过去以来,相对于 R 这样的工具,发展还是落后一些。 幸运的是,过去几年出现了很多新的Python数据可视化库,弥补了一些这方面的差距。matplotlib 已经成为事实上的…

    2016-03-13
    0
  • 数据分析领域常提到的数据预处理,说的到底是什么?

    数据预处理一方面是为了提高数据的质量,另一方面也是为了适应所做数据分析的软件或者方法。一般来说数据预处理步骤有数据清洗、数据集成、数据变换、数据规约,每个大步骤又有一些小的细分点,当然了,这四个大步骤在做数据预处理时未必都要执行。

    2018-11-04
    2
  • 音乐业务数据分析与挖掘思路

    音乐业务对于运营商而言,是一个比较重要的增值业务,一年能够贡献上亿或几十亿的收入,因此,对音乐业务的深度挖掘与分析显得更为重要。 本人查阅了相关的资料,参考了很多数据分析/挖掘前辈的成果,整理了一份音乐内容分析思路的框架,以便能够帮助自己更好地理解并深入了解运营商增值业务、移动互联网APP业务等方法的分析。 以下是整理完毕的音乐内容分析思路: 所涉及的数据挖…

    2015-01-28
    0
  • 网易数读:我们分析了67万个村名,找到了中国地名的秘密

    每个国家的地名都有自己的文化特色。中国的地名,也有着自己独特的韵律。

    2018-11-24
    0
关注我们
关注我们
分享本页
返回顶部