大约两年前「大数据」这个名词慢慢出现,一开始大家以为是个专有名词,只要专家懂就好了。两年过去,现在随时随地都可以听到,市面上也有不少书籍在讨论大数据。
阿里巴巴创办人马云来台演讲中就提到,未来的时代将不是IT时代,而是DT的时代,DT就是Data Technology数据科技,显示大数据对于阿里巴巴集团来说举足轻重。「数据科学家」也继电脑工程师、数位行销人才后,成为炙手可热的职缺,每个公司都在找数据科学家处理公司内部的大数据,连美国政府也看到大数据的重要性,白宫聘请了前PayPal和eBay的执行官DJ Patil做为首席数据长,给予政府专业建议,该如何使用大数据。不只大企业、政府,连餐饮业都开始引进大数据技术,来帮助餐厅营运成长,包含菜单改善和数位化点餐系统,但究竟什麽是大数据?要多大、多少的数据量,才能够称的上是大数据?又它会怎麽影响我们的生活?企业和政府到底从哪裡取得数据资料?都是我们这期要探讨的。
大数据究竟是什麽?
你一天会在Facebook上多久的时间呢?根据Facebook公布的资料,他们的注册用户在全球有14.9亿,如果每一个人每天贴3次文、回应10次,这样的资料量和讯息量非常的惊人,单用人工是无法蒐集每个用户在网路上的意见,一定要透过电脑。类似这样资料量非常巨大,单就人力也无法在合理的时间内,撷取、管理、运算,并且整理为我们能解读的资讯,就被许多人称作大数据(Big Data)。
4+1个V定义大数据
也因此有的学者会用「4V」来定义:Volume(容量)、Velocity(速度)、Variety(多样性)和Veracity(真实性)。容量大、处理速度快、来源多样性高的数据,同时具备真实性,并能创造Value(价值),可以让大家在多种层面应用,就是大数据的特质。
数据大小没有确切定义
那麽到底资料量要多大才能够说是大数据?根据维基百科的定义,资料大小从几TB(Terabyte)到几PB(Petabyte)不等,不过目前为止,没有一个准确的标准来界定大数据的大小,而资料的大小其实也不是大数据的重点,「有价值」才是大数据存在的意义。
大数据从哪里来?
那麽企业和政府到底是从哪裡蒐集到这些大数据呢?电脑、网路、行动装置普及之后,只要可以连上网的装置可以都蒐集到你的资讯,不管是购物的网站,开车行经的旅游景点,还是使用冷气、冰箱的时间及模式,日常生活的行为都可以变成数据。
你逛的网站就代表你
为什麽当你在使用Amazon.com一段时间后,书店会开始推荐你适合的书籍,且都挺合你的胃口,而大家最常点击的书籍也会出现在首页上,这些都是网路服务者透过cookie蒐集你的浏览资料后,分析使用行为,再显示为你「量身打造」的广告。Google的搜寻列也会显示常用的搜寻字词,这也是经过蒐集你和其他用户的搜寻资料后,所算出来的成果。
社群网路和物联网是未来关键
现在我们停留在Facebook、Twitter等社群网站的时间愈来愈长,上面留有大量的资讯(贴文、讯息等等),因此出现了后台管理工具,让小编可以管理粉丝页,这对企业和政府来说也是一种大数据的来源。不只网路服务,只要是可以连上网路的装置,未来也都可能是大数据的资料来源,包含家裡的冰箱、电视、烤箱,厂商透过网路回传的资料,就能瞭解你开冰箱的频率,温度都怎麽控制,大约都冰几分满,所有的日常行为都数据化了。
▲行动装置也是现在大数据很重要的来源,YAHOO买下的Flurry就能蒐集行动装置使用者的数据,并分析使用者行为,也因为是个免费的服务,受到许多使用者欢迎。
大数据潜在资料安全及资料误判风险
既然有这麽多方法可以取得大数据,除了前面讲到的显示个人化广告,大数据还可以怎麽影响我们的生活,如果真的要使用大数据,是否会遇到什麽风险?
资安问题及误判是风险
不管是政府还是企业都握有大笔的资料数据,使用者的行为模式资料是企业重要的资产,人民的户政、纳税、交通等等资料,也是政府制订、执行政策的重点依据,光从数据是不是就能判定我们的一切,当一个人有两台装置时就有两笔资料,资料的准确度够不够?还有如何保存这些资料以防有心人士盗用?都是在使用大数据时需要考量的地方。
国道塞车是误判吗?
讲到资料误判,交通部在今年就有举办大数据研讨会,透过ETC,道路的监视器、停车场的测路录影等,加上地方政府握有的观光资料,中央气象局的气象资料,可以研究出上车流都从哪裡来,哪个时段最会塞车,什麽天气最会塞车,进而制订高乘载管制等相关政策,但即使政府握有资料很久了,每逢连假必塞的问题目前还是没有解,怎麽有效利用手上的资料做出正确的判断抒解车潮,是现在交通部最需要伤脑筋的问题。
▲政府拥有许多类型的资料,怎麽做好资料安全及保密的工作,一直是政府所关注的,不过也有部分资料是可以公开的,政府会将可以取用的资料,放上「政府资料开放平台」让所有人可以自由使用,比起民间自己蒐集资料,政府可以做的范围更广,是一个十分方便的服务。
大数据不一定能够做出准确的预测
▲交通部发现每到连假,网友们上网查询国道5号的路况特别多,也会因此多加强宣导,同时,收假日前1天,会是国道5号最塞的时候,而且不管是休3天还是休4天,都是清明连假累积最多的车流量,大家就会知道清明还是避开走国道5号比较好。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。