品觉导读:
- 虽然数据囤积的危害可能不像实物囤积那么严重,但背后的心态都是相同的。收藏过去25年里每一期《纽约时报》的实物囤积者之所以这么做,是因为他们错误地认为,在未来的某个时候,他们将需要参考这份报纸上的内容。
- 20年前,内部数据是大部分数据仓库举措的数据来源。但现在,大数据囤积者却往往拼命收集现成的外部数据,尤其是社交媒体数据,它们经常被储存在数据湖中,因为它们能够与其他数据结合,产生有用的信息。但社交媒体数据常常“充满噪音”,商业价值令人存疑。
- 让人们对数据囤积问题有所认识乃是当务之急。“必须让人们明白他们应该如何处理他们的数据,尤其是在评估数据架构方面,特别是在云端。”他说,“人们不知道该如何在云端建立数据架构。
原文翻译:
在包含大量数据的环境中生活工作,有一个不好的地方:总想把每一个Byte、每一个字节都储存起来,以备未来使用。多亏了亚马逊简易存储服务(Amazon S3)和Hadoop等价格低廉的存储系统,让我们在技术上能够把收集到的所有数据都储存起来。但如果做过了头,也会导致数据囤积的危险局面。
虽然数据囤积的危害可能不像实物囤积那么严重,但背后的心态都是相同的。收藏过去25年里每一期《纽约时报》的实物囤积者之所以这么做,是因为他们错误地认为,在未来的某个时候,他们将需要参考这份报纸上的内容。同样,数据囤积者之所以收藏谷歌的每一份关键词报告,是因为他们错误地认为这将有助于开展营销工作。
数据囤积现象愈演愈烈,这不足为奇。毕竟,由于大数据热潮,我们拥有了大量且便宜的存储空间,其中很多都是云存储空间。EMC的数据传道者比尔·斯克马佐(Bill Schmarzo)说,用同样的钱,你在Hadoop数据湖里储存的数据量可以达到传统数据仓库的50倍。这是项巨大的优势。
数据囤积问题正在恶化,因为一些大数据方案提供商一直在告诉客户不要扔掉任何数据。再加上以为能从数据废气中轻松发掘出竞争优势的心理认知,以及囤积行为本身所带来的惯性,你会发现,数据囤积很容易变成一个严重的问题。
从一个极端到另一个极端
在过去20年里,我们从数据存储的一个极端跳到了另一个极端。以前(1995年),存储成本比现在高得多,企业只会储存对业务至关重要的数据。通常来说,当时的数据均来自操作数据存储系统,并且会严格按照预设模式进行转换,然后从中提取有用信息,基于这些严密控制的数据仓库生成数据报告。
但大数据湖却可说整个颠覆了数据存储的“剧本”。如今,企业不是只储存那些已证实具备商业价值的数据,而是把所有的数据都储存起来,哪怕在未来提供商业价值的可能性相当渺茫。其中有很多数据都属于原始数据或者“数据废气”。而数据废气以前都会被丢弃,因为它不具备直接可用的商业价值。
数据整合初创公司Xplenty的联合创始人兼首席执行官扬里夫·莫尔(Yaniv Mor)说,我们已经从一个极端走到了另一个极端。他认为,数据囤积问题正在逐年恶化。
“现在,企业出于保险起见,往往会把所有数据都储存起来,以防以后有人想要使用。”莫尔说,“如今,存储成本很低,所以他们把所有数据都塞进亚马逊S3或者谷歌云端硬盘。但当分析师需要从中提取某些信息时,却会变得很困难。这种情况一直都在不断出现。”
莫尔说,Apache Hadoop和云存储为数据囤积创造了条件。虽然这些平台降低了存储成本,但也暴露出从数据中提取有用信息的专业能力不足的问题。
“这是个巨大的挑战。”莫尔说,“梳理数据并从中获得有用信息不是件易事。你必须依靠那些具备数据分析能力的数据科学家和专业分析师。”
ROT数据越来越多
大公司和其他机构,比如政府机构,已经开始向数据囤积问题屈服。维尔软件(Veritas)美国国防部和美国情报部门业务主管乔迪·霍克(Jody Houck)说,联邦机构发现,增加更多的存储空间比直面他们的数据囤积问题更加简单。
“有很多错误的看法。”霍克在今年4月接受联邦新闻电台(Federal News Radio)的采访时说,“他们认为存储很便宜,所有数据都有价值,所有数据都有相等的价值,于是他们把数据全都储存到云端。既然存储是免费的,干嘛不用?”
霍克说,实际上并非所有的数据都有用。维尔软件的《2016年数据基因指数》(Data Genomics Index)报告显示,普通机构储存的数据中,有40%到60%都属于冗余、过时或琐碎(ROT)的数据。
而且,维尔软件发现,在各个机构的数据中,40%以上都属于过期数据(也就是在三年时间里都没人用过)。各机构都在花费大量金钱储存无数不再使用的文件。“每千万亿字节要花费他们500万美元,但储存的却都是些ROT数据。”霍克说。
瞄准营销
虽然数据囤积问题无处不在,但Xplenty的莫尔说,有一个企业部门格外容易遇到这个问题,那就是营销部门。
“营销人员只是收集所有的数据,却未必知道该如何处理这些数据。”莫尔说,“营销人员必须明白,不是所有的数据都同等重要。他们不必收集营销服务提供给他们的每一项数据。营销人员堪称创造数据沼泽的突出代表。”
对于囤积者来说,追踪事物情况(或曰“治理”)也变成了一个大问题。就像实物囤积者在塞满东西的房间里很难找到某件物品一样,数据囤积者也被大量数据弄得晕头转向。如果严密的模式控制失灵,“随便怎样”的心态占领了数据湖,那么那里很快就会退化成浑浊的数据沼泽。
数据囤积没有明确的定义,这个问题在很多机构都存在,只是程度各有不同。数据囤积也应该与法律强制保存的档案区分开来。例如,按照法律规定,银行必须将数据保存很多年,而一些医疗机构则必须将医疗数据保存几十年。
20年前,内部数据是大部分数据仓库举措的数据来源。但现在,大数据囤积者却往往拼命收集现成的外部数据,尤其是社交媒体数据,它们经常被储存在数据湖中,因为它们能够与其他数据结合,产生有用的信息。但社交媒体数据常常“充满噪音”,商业价值令人存疑。
数据囤积解决方案
解决数据囤积问题的第一步是承认问题的存在,然后可以采取几个策略。
维尔软件的霍克建议采取自上而下的数据治理方案,首先从认清数据及其价值开始。先建立一套更好的数据分类模型,然后让一位数据专家或者首席数据官全面掌管,实施更好的数据治理政策。
“我们相信,如果我们现在就实施信息治理策略,并且先从ROT和过期数据入手,然后制定解决方案,将没有价值的数据从我们的系统中移除,将能更好地帮助我们完成使命,压缩成本。”她在接受联邦新闻电台的采访时说,“这是企业文化上的改变。这是技术上的改变。手动检查每一项数据显然不可行,但我们有能力实现数据的自动盘查,记录下我们有什么,然后采取行动。”
Xplenty的莫尔说,让人们对数据囤积问题有所认识乃是当务之急。“必须让人们明白他们应该如何处理他们的数据,尤其是在评估数据架构方面,特别是在云端。”他说,“人们不知道该如何在云端建立数据架构。”
最终,数据囤积问题必须得到自下而上的解决,这意味着要让具体的人员改变他们对数据的看法。“重要的不是你最后收集到了多少数据,而是你从数据中获得了多少价值。”他说,“这是所有分析师和所有数据专家每天都应该问问自己的问题。”
原文: The Growing Menace of DataHoarding
来源:http://www.datanami.com/2016/06/13/growing-menace-data-hoarding/
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。