近期最火的好莱坞大片,莫过于2016年的美国大选了,两位候选人秉承了一撕到底的精神,为广大的吃瓜群众提供了茶余饭后的最佳谈资。
不过,在这里,让我们暂且抛去那些绯闻八卦,来看看技术专家们利用人工智能和大数据,对未来的美国总统做出了哪些预测?
2016年6月,有“数据巫师”之称的美国统计学家纳特·西尔弗(NateSilver)在知名数据博客538(FiveThirtyEight)发表最新分析,预测希拉里·克林顿有八成可能击败唐纳德·特朗普,当选第45任美国总统。西尔弗在博客中提供了三种不同模型的预测,而该博客将持续跟踪美国选情,根据最新民意调查每天更新预测结果,直到11月8日大选。不过,根据其网站11月2日的最新数据显示,希拉里获胜的概率下降到了67%左右。
2016年10月中,微软大数据分析预测希拉里·克林顿极有可能赢得选举,概率 87%。微软使用搜索,社交网络聊天和其他相关数据智能预测即将到来的事件,包括今年的选举。根据在上周日的最后更新显示,希拉里·克林顿将有高达 87%的机会成为下一个美国总统,她的共和党对手唐纳德·特朗普,只有12%的机会。
2016年10月底,印度的一家人工智能企业根据其模型得出的结论是:共和党候选人特朗普将赢得本次的总统大选。要知道,这可是在10月底联邦调查局重启电邮门旧案之前! 根据外电报导,印度这家公司推出的人工智能系统名为 MogIA,是通过在Google、Facebook、YouTube等网站上收集超过两千万份资料进行分析,最后的结果令人意外。
不仅仅是预测未来的总统,甚至是总统自己也会使用技术手段来为自己保驾护航。 坊间有传言,2012年,美国总统奥巴马仰仗其大数据分析团队,击败竞争对手成功连任。奥巴马团队的竞选总指挥吉姆·梅西纳表示,在整个竞选过程中,奥巴马的每次活动都是以数据作为支撑,而对多种来源的数据进行搜集、整理、分析和运用,确保了以数据为基础的决策。在每一次动员活动和公开辩论前,奥巴马团队都能根据受众的特点选取其最关心的议题,精心准备、博得支持。动员渠道和互动方式的选择也为目标选民量身定做,例如,奥巴马发现很大一部分目标选民在社交新闻网站上,于是决定在社交新闻网站上回答问题。
这时,你可能会好奇,机器怎么能预测总统大选的结果呢?这里简单为大家剖析一下。对于人工智能和机器学习的建模,其标准的步骤主要包括以下几个步骤:特征化工程、数据的获取,数据的清理、建模和最后的评估。
- 数据的特征化:和专家的常见观点略有不同,笔者认为首先,也是最重要的步骤,不是获取数据,而是确定特征化工程(feature engineering)如何做。什么是特征化?举个简单的例子,机器是无法理解总统候选人是什么,我们需要将候选人的特征用数据表示出来,最终达到机器可以处理的目的。这些特征包括人类本身的特点,例如性别、身高、学历等等,还可以包括候选人与候选人之间的关系、候选人与选民之间的互动等等。这也是为什么很多预测模型都热衷于互联网选民的行为分析,因为这些数据不仅直接反应了选民和候选人直接的关系,而且本身都是数字化的,很容易获取并进行特征化处理。之所以个人觉得这步非常关键,首先是因为良好的特征,可以帮助我们更有效地刻画事物,提升机器学习的效果。此外,只有特征集合确定了,才能确定获取哪些数据。
- 数据的获取和清洗:确定了刻画候选人的特征,接下来就需要通过各种渠道来获取相关的数据。不得不说,互联网是个好时代,很多信息都已经数据化,这大幅降低了这个步骤的工作量。但是,来自互联网的数据也意味着更多的噪音和错误,我们需要一些方法来清洗数据,使其变得可用,或将负面印象降到最低。
- 建模:对于目前主流的机器学习算法,这里不再赘述。你可以尝试不同的模型,对比效果。例如,你可以将历届竞选成功的总统作为正例,而竞选失败的总统作为负例,训练一个分类模型。也可以使用两位总统候选人直接的特征差异,做一个线性回归的模型等等。总之,可以玩的还很多。
- 评估:你可以通过历史数据,使用交叉验证(crossvalidation)的方式,确定模型的精准度。如果验证后的精度足够准确,就可以尝试对未来的总统大选进行结果上的预判。显然,最有效的评测还是和真实结果做比对。
相信根据这些方法,你也可以打造自己的人工智能预测。我本人也利用业余时间构建了一个简单的模型,其预测的结果是川普获胜的概率为57%,而大热门希拉里仅为43%。结果是否准确?很难说,因为最近爆出的料是越来越猛,估计机器已经很难学习了。。。。。。所以,最终的谜底,敬请期待美国当地时间2016年11月8日的年度大戏!
注:本文部分内容和观点摘自IBM研究院科学家黄申博士的最新力作《大数据架构商业之路:从业务需求到技术方案》
来源:微信公众号浩瀚星辰
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。