最近,美国联邦商务委员会发布了一份历时两年研究的报告,针对使用大数据的益处和风险(尤其是对于相关消费者保护法规的风险)进行了详细分析。
这份报告备受业内关注,因为它提及大数据的「阴暗面」。该报告提醒,社会在使用大数据时,需要特别注意《公平信用报告法》、《联邦贸易委员会法》及《机会公平法》。因为大数据若使用不当,恐将助长社会的机会差距、伤害弱势群体利益、加剧贫富悬殊,甚至可能导致歧视和排斥。
诚然,虽说大数据的创新使用,为弱势群体带来了增加教育的机会、通过非传统管道获取信贷、更容易获得就业机会等积极面,但其阴暗面也不容忽视,例如大数据的数据偏差和失准,有可能导致错误判断,对社会产生慢性损害。
要相信而不迷信
不久前,《哈佛商业评论》刊登了一则有关大数据伤害特定人群利益的案例,来自波士顿市政府推出的一款手机程序StreetBump,原意是让市民透过这个App,向政府报告路面坑洼,藉此帮助政府分配修路资源,进行优先级安排。但研究发现,由于老人家使用智能手机的比率偏低,导致收集的数据不全面,结果令一些并不影响年轻人、却会妨碍老人家步行的小型坑洼,长期受到市政府忽视。
这种隐性偏差风险,对统计学家来说并不陌生,数据分析就是从庞大体量数据中提炼真相,因此结果往往是「差之毫厘,谬以千里」。在过去,我们担心的问题是小样本导致的统计误差;而在大数据领域上,这问题并不会消失,反而可能更加复杂,更难发现和解释。
大数据的偏差,通常来自多种来源和异类结构的整合,尽管经历了海量数据分析,依然有可能得出失真结论。在商业运作中,我就见过因为数据清洗的偏差,以致KPI完成率彻底逆转,最终影响到晋升的决策。作为数据从业者,我们每天都在与误差奋战。我们一方面相信数据的客观,却不可以迷信,要清楚面对大数据也有「阴暗面」的现实。
Via:品觉大数据
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。