亚信科技戴一鸣:大数据的十大局限

“忽如一夜春风来,千树万树梨花开”,似乎在一夜之间,大数据就红遍了南北半球,在神州大地更是一时风头无两;与此同时,大数据也被神化得无处不在,无所不包,无所不能。这里面有认识上的原因,也有故意忽悠的成份。鞭者以为,越是在热得发烫的时候,越是需要有人在旁边吹吹冷风。在这里谈谈大数据的局限性,并非要否定其价值。相反,只有我们充分认识了大数据的特点和优劣势,才能更好地利用大数据,充分挖掘和发挥其价值。

肺话不多说,直接上靶子,众位数据君可以举枪瞄准了。

先阐述一个观点:大数据本身并没有也不直接产生价值,只有对其进行有效地管理、加工,挖掘出隐藏在其中的有用信息并加以合理、有效地利用,才能使其充分发挥作用,产生价值。这一观点构成了以下阐述大数据局限性的基础,如果你不认可这一基础,那么请就此打住,别浪费你的宝贵时间了。基于这种价值导向的衡量标准,大数据本身及其管理、加工、应用均具有多方面的局限性。

1、数据噪声:与生俱来的不和谐

大数据之所以为大数据,首先是因为其数据体量巨大。然而,在这海量的数据中,并非所有的数据都是有用的,大多数时候,有用的数据甚至只是其中的很小一部分。随着数据量的不断增加,无意义的冗余、垃圾数据也会越来越多,而且其增长的速度比数据信息更快。这样一来,我们寻求的重要数据信息或客观真理往往会被庞大数据所带来的噪声所淹没,甚至被引入歧途和陷阱,得出错误的结论。

2、 真实性:不得不接受的虚假

“引领我们进入困局的并不是我们不知道的事物,而是我们知道、但不那么真实的事物。”真实性是一切数据价值的基础,然而这同时也是大数据的一大先天性缺陷。

网络是大数据最重要的来源之一,而网络本身就充斥着大量的虚假信息。例如,网络数据中存在着大量的虚假个人注册信息、假账号、假粉丝、假交易、灌水贴及虚假的意思表示等。这种失真是由网络本身的特性决定的,比如说,绝大多数社交网站很难也不会对会员注册信息的真实性进行全面核查,电商平台也无法控制一人注册多账号,或账号与实际消费个体的非对应关系(想想你家有没有共用一个宽带或电商账号的情况)。

除了网络数据,即便是通过原始方法采集的个人信息数据也无法保障其真实、准确。就拿电信运营商来说,即便推行了实名制,但圈内人都知道,数据质量与期望仍有相当差距。

可以预见,在相当长的时间内,即使最优秀的数据科学家、最先进的数据处理方法也无法消除或修正某些数据固有的错误和不足,对大数据真实性的追求无疑是摆在我们面前的又一挑战。

3、 代表性:永不可能的全样本

迈尔·舍恩伯格在《大数据时代》一书中阐述的一个核心观点便是,大数据是全样本,因此不再依赖随机取样。鞭者认为,这种观点是错误的。

大数据来源大致可以分为两类,一类来自于物理世界的科学数据,如实验数据、传感数据、观测数据等;另一类则来自于人类社会活动,主要是互联网数据,如社交关系、商品交易、行为轨迹等个人信息。然而,这两类数据的产生、收集都存在很大的盲区和局限性。归纳与演绎、由点及面是科学研究与应用的主要逻辑和方法,科学数据主要是精心设计的抽样数据。至于互联网数据,虽然我国网民数量已达7亿,但这意味着仍然有6亿人因不能或不愿上网而被排除在互联网大数据之外,让7亿人来代表另外的6亿人,你确认这6亿人乐意被代表吗?

很多人在网上订餐或消费的时候往往会参考其他人的推荐和点评,但经常在消费以后发现并不如意。撇开个人口味和刷评的因素,还有一个重要原因在于,网上点评的人并不具备足够的代表性。喜欢上网的本身就只是消费人群中的一部分,上网消费同时又喜欢点评的人更只是其中的一小部分,所以,他们并不能代表整个消费群体。

无论科学技术如何发达,来自于物理世界和网络社会的大数据永远都不可能覆盖整个自然界和人类社会;如果再考虑宗教、法律、伦理、道德上的诸多限制,那么大数据就更不可能成为“全样本”了。而且,被遗漏的那部分数据往往并不是随机偏差,而是系统偏差,在统计分析时不能不考虑。也正因为如此,社会学家对大数据的代表性总是保持着一份可贵的疑虑和审慎,在许多领域仍然坚持用传统的抽样方法而不是大数据来进行社会研究。

4、 完整性:广度与深度的缺失

大数据的完整性不足主要是指单个组织所能获取的数据体量虽然巨大,但所包含的实际信息却十分有限,以致难以以此为基础进行复杂的逻辑运算或全面描述。这种不完整主要包括信息维度(决定信息广度)的缺失和维度信息(决定信息深度)的缺失。

举例而言,电信运营商由于把控着数据管道,从而可以较全面地掌握用户的上网信息,比如上网时间、频率、上网终端、访问网站、浏览内容等等,有着较好的信息广度,但其掌握的信息深度却不够。运营商可以清楚地知道用户在什么时间、什么地点、以什么终端、什么网络访问了京东、亚马逊、天猫等电商,浏览了何种商品,停留了多长时间等等,但却不能掌握用户是否在某电商平台上购买了商品、购买了何种商品、参与了什么促销活动、以什么方式付款、支付了多少款额等等。很显然,京东对用户在自己商城的浏览、消费行为了如指掌(信息深度充分),但它却无法了解用户的其他互联网行为及在其他电商平台的消费行为(信息广度不足)。

在大多数情况下,对某种自然、社会现象的深入研究或者对用户的超级刻画(包括超维度和超粒纵横度两个切面),信息广度和信息深度缺一不可。大数据的价值恰恰在于广泛的交叉融合,从这个意义上讲,真正的大数据应是建立在共同的标准基础之上,融合了企业、政府、科学研究等跨领域、跨行业、跨平台数据的集合,是社会大数据(这是一个很有意思的提法,另案讨论)。

然而,当前的大数据依然以独立孤岛的形式存在,没有任何一个组织能够获取在广度和深度上都足够充分的数据。应该大力推进全社会的数据公开和共享,其中政府数据开放尤其重要。毫不夸张地讲,真正核心的数据绝大部分掌握在政府手中,没有政府参与,就没有真正的大数据。

5、 时效性:秒级价值存在

任何数据都位于一个连续的时间轴上,都有其时间属性,即数据年龄。不同年龄的数据有着不同的价值特性,往往老数据具有总体或趋势分析价值,新数据则更具有个体应用价值。大数据时代,信息更新速度非常快,从应用的角度看,大数据的时效性往往相当短。

用于探测地震和海啸的传感器所产生的数据时效往往只有几秒钟,在此之后就基本失去意义了。美国国家海洋局的超级计算机能够利用传感器传输的数据,在日本地震后9分钟内计算出海啸的可能性及强度。短短的9分钟,基本反映了当前人类计算的最高水平,但这对于瞬间消失的生命来说还是太长了。

实时营销对用户状态信息的时效性也有很高的要求,试想想,如果你的目标用户在离开店面500米后才收到你所谓“量身定做”的促销信息,他(她)是不是会对此嗤之以鼻?

大数据时效性的要求对数据的实时采集、实时加工、实时分发提出了极高的要求。数据处理上有一个著名的“1秒定律”,即要在秒级的时间范围内计算出分析结果并分发出去,超过这个时间,数据就失去价值了。这在许多时候还很难做到,从而在相当程度上限制了大数据的应用。

6、 解释性:不能没有因果关系

对于舍恩伯格关于大数据的另一个核心观点,“不是因果关系,而是相关关系”,只需要了解是什么或未来会发生什么,而不是为什么和事情发生的内在原因,鞭者同样不敢苟同。

相关关系仅代表着过去和个案,没有解释性,有时甚至是错误的,而且不能推而广之。只有掌握了事物之间的因果关系、原因机制和科学原理,才能举一反三,迭代更新,持续推动社会进步。这是很简单的道理,不必赘言。

关于相关性,一直为人津津乐道的便是啤酒与尿布的故事。然而,沃尔玛商品品种成千上万,相关关系上亿之多,我想类似的绝妙组合尚有不少,为什么再也难见?更何况,人们仍然对啤酒与尿布的相关关系进行了合理的因果逻辑解释。试想,如果首先发现了这样的因果关系,再通过相关关系予以验证,是否可以发现更多的“啤酒和尿布”?

Google的流感预测是另外一个被经常引用的大数据相关分析的成功案列。一个你可能不知道的事实是,自2009年Google的那次准确预测和高调宣传以来,其流感预测的准确性一直走下坡路。特别是最近两三年,其预测不准确的次数比准确的次数还要多。

数据分析需要借助机器来完成,而机器从来就只能给出数据间的相关关系,而不能说明因果逻辑。因果关系需要人的思考和判断,电脑现在没有、将来也不可能完全替代人脑。玩笑一下,如此急迫地强调相关关系而不是因果关系,难道我们真的不需要脑子了吗?

7、 预测性:让过去决定未来

大数据分析无论被赋予多么绚丽的光环,从根本上讲仅仅是对过去和现实的归纳和总结,其本身并不具有趋势和方向性的特征。决定趋势的是事物发展的内在因素及相互作用,在此方面大数据无能为力,这是大数据先天性缺陷之一。

舍恩伯格也坦言,与大数据同行是有一定风险的,大数据有可能会把我们锁定在以往的错误当中,使我们堕入让过去决定未来的陷阱。

现在有些基金公司推出大数据指数基金,期望通过大数据对股票行情进行准确的预测。历史行情走势只是过去已经发生的影响股票市场的诸多因素共同作用的结果,以此来预测未来的市场根本不靠谱。普林斯顿大学经济学教授伯顿·麦基尔早在1973年的畅销作品《漫步华尔街》中就指出,把一只猴子蒙上双眼后让它向报纸的金融版掷飞镖而选中的投资组合,和那些专家经过大量研究而谨慎选择的投资组合相比,盈利性可能一样好。近几年甚至有研究者提出,麦基尔的这种看法低估了猴子(应该是高估了基金经理吧)。2008年,好事的俄国人更是用实验证明了这一点。俄罗斯《财经周刊》从马戏团找来一只猴子,让它从代表不同股票的牌子中选择8支进行模拟投资组合,并投入100万虚拟卢布。一年后,当金融专家再次观察猴子所选股票的表现时不由大吃一惊,其市值上涨了近3倍,跑赢了94%的基金。

必须承认,我们处于一个不确定的世界里,有许多事件是无法预测的。过分依赖大数据和预测模型是危险的,因为有许多决定性的影响因素都不能纳入模型参数的覆盖范围之内。从天气预报、地震预测、足球比赛到金融危机等等,都对这一点做了很好的诠释。

8、 误导性:数据也会说谎

与大数据的代表性、真实性、完整性、解释性等局限性相关的,必然是结论的不可靠性和误导性,这两者之间可是强相关的,因果关系不多说,在此仅举几例以娱诸君。

先来一个经典的。电影《赌神》中,发哥扮演的赌神一直有一个摆弄戒指的习惯。对手通过研究大量的赌神职业比赛录像察觉到了他这一习惯,并发现他转动戒指往往伴随着出千。然而,在一场生死之战中,赌神利用长期以来一直发布的假数据欺骗了所有人。这次他依然像往常一样转动戒指,不同的是出千却没有随之而来,于是乎,对手瞬间崩溃。

对统计现象只看结果不重解释,很可能导致错误甚至危险的结论。二战时期英国与德国的空战中,工程师发现,每次战斗机回来机翼上都带有很多枪眼,因此认为机翼是最容易受到攻击的地方,需要进行特别防护。可是增加防护之后,飞机的损失率不但没有降低,反而提高了。问题究竟出在哪呢?原来工程师们被这一统计结果误导了,从而采取了错误地防护措施。对机翼枪眼的统计只针对成功返航的飞机,而那些不幸的飞机被击落的原因并没有被统计和发现。相反,机翼受损还能飞回来,说明机翼被攻击并不是飞机被击落的主要原因。至于为什么增加防护后飞机损失率反而提高了,原因很简单,因为负荷增加降低了飞机的灵活性和航程。后来,工程师们反其道而行之,在没有枪眼的部位加强防护,因为这些部位被击中的飞机都没有返航,事实证明效果良好。

还有一个高度相关却因果倒置的故事,也不知道是不是有意讽刺。说某国际慈善组织通过大量的数据分析发现,一个国家、地区电视机的普及率与富裕程度强相关。因此,他们就向一些贫困国家赠送了大批电视机,以期促进当地经济的发展。很显然,是因为经济贫困导致了电视普及率低,而不是反过来,做出那样的决策可能真没过脑子。

9、 合法性:数据安全与隐私保护

大数据本身及其采集、使用过程都极有可能会涉及个人隐私、商业机密、公众权益和国家信息安全。因此,安全性和合法性问题构成了大数据价值发挥的限制性因素之一。

商业和技术很重要,但商业和技术背后的价值观更重要。

Google曾将”不作恶”作为自己的公司价值观;百度为了短期商业利益售卖多个贴吧,公然践踏公众隐私,结果遭千夫所指,万人唾骂。这些都充分反映了公众对隐私和信息安全的关注和重视。

白宫曾在2014年发表书面声明称,大数据创造的社会价值与经济价值得以遵从该国提倡的“隐私、公正、平等、自主”。中国政府在此方面虽然尚未立法,也从来没有明确的说法,但民众的基本权益和诉求理当被审慎考虑。

诚然,安全性、合法性要求限制了大数据的使用和商业价值的充分发挥,但从社会价值的角度来看,是值得的,也是必须的。

10、 价值性:投入与收益的平衡

价值密度低是被公认的大数据特征之—,这也在一定程度上限制了大数据的研究和应用。

一方面,因为大数据的低密度价值特征,那么要使其价值达到可用的程度,就必须有足够规模的数据积累和有效的价值提取。以常规的监控视频为例,连续24小时的视频监控中,有用的数据可能仅有数秒。如何优化存储,并通过强大的机器能力迅速完成数据的加工处理和价值呈现,到目前为止还是大数据面临的一大难题。

另一方面,大数据边际效用递增规律的存在,使许多单位、组织的数据无法达到基本的规模要求,从而也使其数据价值无法充分显现。

同时,前面讲到的大数据代表性、真实性、完整性、解释性上的不足及由此引起的结论误导,不仅会降低数据的价值,甚至可能产生负面作用。

另外,大数据的采集、存储、加工和使用所耗费的资金和时间成本都是非常高昂的。作为大数据投资主体,应该在投入和收益之间进行合理平衡。当前的确存在那么一种势力,为了某种目的极力鼓动企业进行大规模的大数据投资,如果不审慎评估,很可能得不偿失。

在此讲了这么多大数据的局限性,最后再次重申,并非要以此否定大数据的价值;同时,也要再次强调,大数据代表的只是知识,而非智慧。对世界的改造仅凭有限的知识是远远不够的,更需要人类取之不尽、用之不竭的智慧。只有用好了项上这颗六斤四,才能逐步突破大数据的局限性,更好地发挥大数据价值。

来源:国统大数据

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

(0)
大数据精选的头像大数据精选编辑
上一篇 2016-04-06 12:00
下一篇 2016-04-10 16:10

相关文章

关注我们
关注我们
分享本页
返回顶部