大数据为你预测2016美国大选

近年来,社交媒体逐渐成为民众在大选时发表观点和对候选人意见的渠道。推特,为一个公共和广泛使用的渠道,提供了一个衡量和预测竞选动态的平台。现在,“超级星期二”已经过去,让我们来分析一下党内初选的情况。

摘要:近年来,社交媒体逐渐成为民众在大选时发表观点和对候选人意见的渠道。推特,为一个公共和广泛使用的渠道,提供了一个衡量和预测竞选动态的平台。现在,“超级星期二”已经过去,让我们来分析一下党内初选的情况。

我们以模式匹配的方式从推特的API 10%的样本中收集了关于每个候选人的政治性推文。以下,我们展示了2015年1月1日至2016年2月25日的推文日频率以及相应的平均感情指数(由我们的LaBMT幸福感数据库得出)。2015年期间的峰值发生在电视辩论期间。至于平均感情指数则需要进行进一步的分析,我们将分析集中在几个主要候选人上。

大数据为你预测2016美国大选让我们从两个民主党候选人开始分析:希拉里·克林顿和伯纳德·桑德斯。对于每个候选人,分析都包括各自支持者和反对者的推文,以及包括多位候选人的推文。在幸福感时间序列中,我们可以看到桑德斯的平均指数比克林顿的略高(5.85比5.7)。在两党领先的候选者中,关于桑德斯的推文的关键词有最高的平均幸福指数。在本文后面部分,将会分析是哪些具体的词语造成了这个差异。

大数据为你预测2016美国大选至于共和党,在同样的时间序列中,特朗普在推文中的提及率占有明显的领先优势。其他候选人在同一个坐标轴中几乎不可见。而关于每位共和党候选人的推文的幸福感指数则可进行比较,特朗普相对于克鲁兹和卢比奥有微弱的优势,对于卡森有明显的优势。并且,特朗普的平均幸福指数比克林顿略高(5.79比5.70),但仍比桑德斯低(5.79比5.85)。

大数据为你预测2016美国大选知道了相对幸福指数还只是一个开始,我们要知道对于每位候选人而言是哪些词推动了分值。在下面的词语图中,词语的颜色根据感情状态表示(越蓝越快乐,越紫越悲伤),词语的大小由加权平均tf-idf值决定,一种原始频率和相对“惊奇”因素的结合。

桑德斯

大数据为你预测2016美国大选在桑德斯的词图中,词语的大小差不多,表明关于桑德斯的竞选有比较多的可述范围,他的推文反映了一系列的讨论主题,其中,偏正面的词汇包括了“支持”,“真相”,“赞同”,“胜利”。偏负面的词汇有着政治的天然属性,反映了他对华尔街的贪婪的抵制以及一般民众所面对的财务问题,而这也正是他的竞选运动的焦点。

克林顿

大数据为你预测2016美国大选克林顿的词图中,正面词汇与负面词汇相交织,其中比较重要的正面词汇有“经验”,“才能”,“女性”,“世界”;负面词汇有“犯罪”,“调查”和“谎言”,也许是与电子邮件服务器丑闻相关。

共和党的词图有着相似的主题。特朗普的权重最大的词汇包括支持者形容的“前行”,以及现在的共和党初选中的“胜利”;负面词汇,或许来自于他的反对者,包括“羞辱”,“攻击”,“种族主义”,“骗子”和“危险”。参议院克鲁兹有着相似的词图,反映了他的支持者的政治理想,而负面词汇则多是政治行话及“谎言”。卢比奥和卡森则是负面词汇偏多。

特朗普

大数据为你预测2016美国大选

克鲁兹

大数据为你预测2016美国大选

卢比奥

大数据为你预测2016美国大选

卡森

大数据为你预测2016美国大选接下来,我们用词汇转移图对平均幸福指数进行了量化分析。词汇转移图展示了最重要的词汇在比较集和参照集之间的相对位置。比较集包括了我们所收集的所有政治推文,而不包括竞选者,这些推文都产生于2016年 1月至2月25日之间。

第一个词汇转移图比较了与桑德斯相关的推文和其他政治推文。无论是对比参照分布(5.86比5.75)还是其他参选者,与桑德斯相关的推文相对来说更积极一些。这种转移是由于对诸如“自由”,“胜利”,“健康”,“我们”,“年轻”,“民主”,“大学”等正面词汇的越来越多的提及,以及对诸如“骗子”,“谎言”,“憎恨”,“不”,“失败者” ,“坏”等负面词汇的越来越少的提及。使用率最高的负面词汇是“逮捕”,“抗议”,也许是由于参议院桑德斯民主权利运动中因抗议隔离政策而被捕。

大数据为你预测2016美国大选克林顿的词汇转移图与参照分布比较相似(5.76比5.77)。负面词汇包括电子邮件调查及“监狱”,“犯罪”,“囚犯”,“丑闻”等。此外,“票据”是以负面形式呈现的词汇(被理解为支付票据),但是在克林顿这里则是指比尔·克林顿。正面词汇主要有“她”,“女性”,“感谢”,“健康”,而负面词汇“憎恨”,“悲伤”,“失败者”,“诈骗”,“种族主义”较少被提及。

大数据为你预测2016美国大选在共和党候选人中,特朗普有最高的幸福水平(5.79),其正面词汇有“伟大”,“爱”,“美国”,“更好”等,显然,这与他的宣传口号相关:使美国再次伟大。有趣的是,他的负面词汇包括了更多:“憎恨”,“种族主义”,“死亡”,“失败者”,“悲伤”,“禁止”,以及以亵渎的方式,反映了他的反对者的观点。有两个需要注意的地方:我们没有特别分析特朗普和他的竞选团队的推文;而“悲伤”这个词语几乎完全来自于莱克斯康的广播。

最后三个共和党候选人有非常多的负面词汇,这也反映了他们在辩论时所关注的焦点和他们团队的关注中心。

大数据为你预测2016美国大选大数据为你预测2016美国大选大数据为你预测2016美国大选大数据为你预测2016美国大选我们要再次强调这次初步分析没有调查推文是来自每位候选人的支持者还是反对者。为此,我们现在的工作内容就在于解决这个问题。

社交媒体正在使一般民众有机会去表达他们的政治观点,而这有可能会显著地影响大选的结果。从我们目前的结果来看,如果正面指数是唯一的预测指数(当然有可能并不是),那么我们可以期待一场桑德斯VS特朗普的美国大选

原文链接: On Positivity and Politicians: Measuring Public Political Sentiments Across Twitter

原作者:Eric Clark

来源:Intetix Foundation(授权转载)

本文为专栏文章,来自:英明泰思基金会,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/16766.html 。

(0)
英明泰思基金会的头像英明泰思基金会专栏
上一篇 2016-05-15
下一篇 2016-05-17

相关文章

  • 2016百分点数据与价值国际论坛(2016年5月28日)

    百分点携手北京大学商务智能研究中心将于5月28日共同举办“2016百分点数据与价值国际论坛”

    2016-05-17
    0
  • 涂子沛:借力大数据,通往开放社会

    数据开放本质上是一种内开放。 数据如果是开放的,就代表知识是开放的,权力是开放的,为开放社会提供了真正的基础。 开放社会的内涵就包含了对权威的挑战,给普通人提供自我做主的可能空间。 今天的微信,从你使用的第一天开始,所有的对话都会保存在云端,将永不消失,理论上,子孙后代万年之后还可以看到。保护隐私,就要捍卫你的数据。 “其实《数据之巅》要比我的第一本书《大数…

    2015-11-21
    0
  • 上海联通“沃+”开放数据应用大赛(2016年3月25日正式开幕)

    摘要:上海联通“沃+”开放数据应用大赛 3月25日正式开幕 优质数据携高额奖金 打造DT时代智慧应用 比赛动画宣传视频为http://v.qq.com/page/x/t/x/x019048e2tx.html 中国最有价值的大数据资源在哪里?在政府单位?阿里巴巴?还是腾讯微信?最终的答案可能是在通信运营商。三大运营商记录着每位手机和互联网用户的所有主要网络行为…

    2016-03-24
    0
  • 百度大数据实验室:大数据到底有何用?

    在硬件不挣钱服务挣钱的思想影响下,企业尤其是创业企业越来越重视大数据,企图最后利用大数据挣钱,然而,大数据是一个高高在上的存在,大多企业所做的,仅仅只是收集数据而已,至于后续怎么运用其实至今还没有一个明确的可复制模式。近日,齐家网在北京组织了一场互联网泛家装论坛,百度资深数据专家吴海山分享了百度LBS大数据的运用,或许能够对大家有所启发。 以下内容根据吴海山…

    2015-12-08
    0
  • 360首席隐私官谭晓生谈大数据与个人隐私的博弈:可以平衡

    大数据和分享经济给我们带来了很多机遇,但这也是把“双刃剑”,个人信息安全受到的挑战越来愈多。这场大数据和个人隐私之间的博弈,谭晓生认为这二者之间的博弈最后会达到一个平衡点

    2016-10-12
    0
关注我们
关注我们
分享本页
返回顶部