“你还记得十年前的生活是什么样子的么?这十年间我们的生活方式到底发生了多少转变?互联网的迅速发展使得以手机为代表的电子产品成为我们生活中不可或缺的部分,它们也确确实实的给我们的生活提供了便利。俗话说的好,天下没有免费的午餐,为了获取这些便利我们究竟付出了什么?”
1、网络改变我们的生活
图:2005年与2013年教皇加冕现场对比图
这组图片描述的是围观教皇加冕的群众。早在2005年,人们大多是用眼睛记录下来这值得铭记的一幕,毕竟那个时代的数码相机也不是人人都有的。随着智能手机的出现,手机的像素变得越来越高,人们更加习惯随手拍照,记录人生。发微博、发朋友圈、拍短视频,随时随地记录、分享自己的生活。
社交软件的出现和大规模普及,使得人与人之间的关系变得更加的紧密,我们可以随时和远方的朋友分享生活,分享观点。哪怕到一个陌生的城市或者去一个自己不熟悉的地方,也不用担心,告诉手机导航软件你现在的位置和你将要去的位置,它就会为规划出一条最佳路线。坐公交车,坐地铁没有带零钱?没有关系,微信支付宝都可以一刷就付,说不定还能顺便领1毛1分钱的奖励金。
你是绿色低碳的践行者?那你一定对共享单车不陌生,骑共享单车上下班或者去地铁站都绝对是一个绝佳的选择,导航地图甚至都会为你计算好共享单车需要的骑行时间。下班太累,不想做饭,完全可以掏出手机点个外卖,等待外卖小哥哥的到来。睡前刷刷微博,逛逛淘宝这大概是我们现在的真实生活写照。
为了获取这样贴心的服务,我们允许共享单车获取定位信息、导航软件会知道我们曾经去过哪里,支付宝微信有我们的银行卡账号,外卖商家会记录公司地址,淘宝卖家甚至有我们家的门牌号码,更不用说大部分的软件应用需要我们实名认证。这些企业为什么要提供给我们免费的服务?
其实这一切其实都只是一场等价交换的交易,我们在接受互联网世界便捷服务的同时也向互联网世界提供了详细真实的个人数据。企业希望获得有关我们的所有数据,尽可能的详细,他想知道你什么时候会谈恋爱、结婚、怀孕,什么时候想买衣服、玩游戏、去旅行,在你最需要的时候推销他的产品,只有知道这些信息,企业才能够精准营销,给用户提供更好的服务,创造更高的商业价值。就像有白天也有黑夜一样,这样的代价付出蕴含着一定风险。
2、网络夺走了什么
当这些数据落入不法分子手中时,轻者你会接到骚扰电话,收到垃圾短信、垃圾邮件,严重就会发生信用卡盗刷,身份伪造等等情形。3月18日Facebook被爆出数据外泄事件,超过5000万用户信息被滥用,Facebook的市值蒸发了数百亿美元。这样的数据泄露事件已经不是第一次了,这种事件不仅仅给个人的生活带来了许多的麻烦、造成经济损失,也会使得企业承受潜在客户的丢失和经济利益损失。
图:图片来源于网络
中国互联网协会发布的《2016中国网民权益保护调查报告》显示,我国平均每人每周接受垃圾邮件18.9封、垃圾短信20.6条、骚扰电话21.3个。近一年时间国内6.88亿网民因垃圾短信、诈骗信息、个人信息泄露造成的经济损失达915亿。2016全年全球共发生1800起重大数据泄露事件,导致14亿条数据泄露。由此可见,如果数据没有合理的运用,将会给个人、企业甚至整个社会造成不良的影响,数据隐私问题亟待解决。
3、数据隐私VS法律监管
那么数据隐私包括哪些方面呢?我们所说的数据隐私就是个人生活中不愿为他人公开的个人信息,如用户身份、轨迹、位置等敏感信息。Banisar等[1]人把数据隐私分为4类:
- 一是信息隐私,包括身份证号、银行账号、收入财产状况、医疗档案、消费和需求信息、网络活动踪迹等;
- 二是通信隐私,包括手机号、QQ、E-mail、微信等;
- 三是空间隐私,包括家庭住址、工作单位及经常出入的公共场所;
- 四是身体隐私,如药物测试等。
全世界都在承受着数据隐私泄露之痛,而解决这一问题最有效的工具之一是健全隐私保护的法律。
近几年,我国各领域的数据安全保护政策相继出台。2016年国务院发布《促进和规范健康医疗大数据应用发展的指导意见》,要求对涉及到患者隐私的信息严格保护。2017年6月1日开始实施《网络安全法》,明确规定了个人信息保护的行为规范,非法获取、出售或者提供行踪轨迹信息、通信内容、征信信息、财产信息50条以上即可以侵犯公民个人信息罪入罪。
欧洲的“通用数据保护条例”(General Data Protection Regulation,GDPR)于2016年4月27日通过,在经过两年的过渡期后,将于2018年5月25日正式生效。在个人数据的经济价值增长的时代,GDPR为欧盟公民带来了一套新的“数字权利”。“通用数据保护条例”规定,欧盟消费者将有权知道自己的哪些数据被社交媒体公司保存了下来,并有权要求删除这些数据。新规实施以后,违规公司最高可能面临全球年收入4%的巨额罚款。
有健全的法律体系保护数据的隐私固然重要,可是也会造成一些意想不到的后果。
个人信息保护相关法律的出台直接影响与数据产业相关的公司业务。数据堂公司业务可能涉及泄露用户隐私数据,高管被警方调查,导致部分数据业务瘫痪,数据堂股票价格从9块多一度跌到4块多。由于“通用数据保护条例”的提出,QQ国际版宣布将从5月20日后不再为欧洲用户提供服务,QQ国际版本退出了欧洲市场。也就是说,相关数据安全保护措施的出台,使得有些服务我们没有办法享受到了。
欧洲为何没有大的互联网公司与企业?Google因违反反垄断法,被欧盟要求课以史上最贵罚金:27 亿美金,这数目对于科技公司来说,是有史以来最高额的数目。欧盟竞争专员玛格丽特(Margrethe Vestager)赞美Google“提供了许多创新的服务,让我们的生活更加便利。”但她同时也表示“收集海量用户信息,违反了欧盟反垄断法律法规,它否决了其他公司或服务能够有相同竞争机会的可能性,也让欧洲的消费者无法享受更全面的创新服务。”
所以,欧洲监管了,结果Google被罚,腾讯跑了。中国监管了,结果某些企业股票暴跌,某些服务无法使用。法律的出台必然会在某种程度上促进社会和行业的发展,遵守法律和提供更好的服务不是不可兼得的事情。用户的数据保护不单单是对用户来讲具有重要的意义,对于企业来说也同样重要。因此,从企业的角度出发,保护自己的用户的数据安全,不受攻击和拦截就显得尤为重要。那么企业可以通过什么样的方式来守卫自己的数据财富呢?
4、技术助力隐私保护
为了避免我们的个人数据被恶意使用,也为了保护一些企业的敏感信息不被泄露,一些数据隐私保护算法横空出世。其中最有名的算法是:K-anonymity,它是一种匿名技术。所谓匿名技术,就是在数据集被发布前对其中包含个人信息的数据进行一定的处理,期望通过这些处理使得攻击方无法通过这些数据识别出特定的用户,从而无法窃取用户的隐私[2]。
K-anonymity是怎么保护我们的隐私的呢?在这之前首先要了解一些相关概念。
我们将数据表中的属性按照功能划分为4个不相交的类别:
- 标识符:能够唯一标识个人身份的属性或者属性的集合,比如表1中的姓名。
- 准标识符:如果同其他的表连接,就能够唯一确定身份的属性集合。比如表1中的邮政编码、年龄和性别就可以组成一个准标识符。
- 敏感属性:发布时需要保密的信息,即敏感信息。比如表1中的疾病。
- 非敏感属性:可公开的属性。比如表1中的性别。
表1:数据发布前的原始数据表
5、数据攻击手段
在明确了这几个基本概念之后,我们需要知道的是攻击者究竟是用什么样的方式或者手段对数据进行攻击的。
链式攻击是从发布数据中获取隐私数据最常用的方式之一。什么叫链式攻击呢?我们来看表1。如果我们简单的只把姓名舍去,或者将姓名换成数字ID,并不能就此保护用户的身份。如果攻击者从其他途径获得了这样一张表格:
表2:其他相关人员信息的数据表
那么年龄、性别、邮编就组成了一个准标识符。攻击者通过准标识符连接两个表格就会得到Andy患有胃溃疡的信息,如果说我们发布的是医疗数据的话,攻击者就会知道患有胃溃疡的是Andy,从而泄露了隐私。在这里要注意一下,不同的表格,组成的准标识符是不一样的,要具体问题具体分析。
最后,我们来看看k-anonymity是如何保护我们的隐私的。K-anonymity在数据发布时会发布这样一份表格。
表3:经过处理后发布的数据表
从表3中,我们就可以看的出来,仅仅依靠年龄、性别和邮编是无法锁定特定的个人的。接下来解密一下,它是如何对表格进行匿名处理的。
K-anonymity中的K指代的是同一等价类中的记录数,我们上面这个简单的例子中K=2。说到这里你可能会想知道什么才叫同一等价类?具有相同准标识符的就算是同一等价类。K-anonymity的原理就是要求每条记录在发布中至少都与其他的K-1条无法区分。这样即使攻击者知道准标识符也无法将特定用户从这K条记录中剥离出来。这叫做身份攻击防范。
实质上,这些数据保密算法大多都遵循着这样的原则,尽可能的剥离用户敏感信息和用户个体之间的关系,使得使用数据的人无法通过数据追踪到具体的用户是谁。
6、数据隐私保护算法的应用举例
1、医疗数据发布:目前各大医院都会建立自己的数据库来保存病人的信息,以便于对疾病防御、药物研制等等方面提供信息。但是病人不愿意暴露除了自己的疾病信息之外的其他个人基本信息。因此,在进行这样的数据发布之前需要对数据进行隐私保护处理。
2、金融数据共享:各个银行之间可能需要共享数据和信息来查找不良信贷用户,但是共享数据的过程中并不希望其他银行得到自己的用户信息,将自己处于竞争的不利地位,这个时候就需要对数据进行处理。
3、数据交易:由于数据的价值日益被人们所重视,数据的买卖交易也渐渐出现在人们的视野中,有些研究机构或者公司想要对某一领域进行分析调研的时候,除了自己亲自动手采集数据之外可能购买数据也是一条可行的道路。那么这个时候数据的售卖方应当根据法律条文规定,隐去其中的个人隐私信息后发售。
4、人口普查:我们国家总是会定期进行人口普查工作,并公布相关的数据信息,如果直接将调查数据发布,必然会导致个人隐私的泄露。因此往往就需要对数据进行处理之后再予以发布。
除了以上的这些应用,其实数据隐私的工作更多应该于企业当中进行。每一个企业都拥有大量的敏感数据,比如关键的业务信息。在如今这个大数据的时代,数据就意味着价值,企业也越来越重视数据隐私保护。
7、鱼?熊掌?
人工智能和隐私在业界看来一直是一个鱼和熊掌不可兼得的过程,大多数公司都在人工智能和用户隐私之间面临选择。然而有这么一家公司,与大多数的企业做出了不一样的选择,那就是苹果。苹果公司一直宣扬自己的社会责任,并且十分重视自己的用户的隐私保护。但是随着人工智能给人们带的方便越来越明显,苹果公司也选择了一条自己的人工智能的道路。即在最大化的保护用户的隐私的前提下,收集用户的信息。它率先大规模使用一种不同的技术来保护自己用户的隐私——Differential Privacy(差分隐私)。
图: 图片来源于网络
Differential Privacy技术8Differential Privacy是一种十分强大的隐私保护技术。简单的来说,它达到了这样一种目的,攻击者无法通过它获得的信息来推测出更多的信息,更无法推测出这条信息对应的特定用户是谁。有网友戏称这种方法使得敌人根本不知道你是不是在数据集里。
Differential Privacy 想要解决的是下面的这种情况。如果你对一个数据集中的数据做求和,求方差等等的基本统计操作的时候,去除一条记录与否对这个数据集的这些基本统计量产生了影响,那么我们就可以简单的推测出这条记录中的敏感信息是什么了。Differential Privacy可以做到无论你在什么条件下对该数据集进行查询、匹配,都无法查询到具体的特定用户信息。
举一个简单的例子,比如你去电影院看电影,你在买票前,某影片的售卖票数是66张,而我买票后,该影片的售卖票数变成了67,那是不是就有很大的概率推测你看的是这部电影?这样就会导致你的隐私遭到了泄露。
其实这个概念最早在学术界就引发了大量的讨论。由于它只是一种想法,没有具体的实现过程和方法,因此有很多人都在寻找使得它可行的实现路径。它的想法是假设有一个表A,在对它做一定的扰动后得到A1,而后在去掉表A中的某一行构成表B,在对表B做一个扰动得到B1,如果在数学意义上,表A1和表B1完全相同,这样就可以做到隐私保护了。因此某一条具体的数据是否在在这个数据集中,都不会对查询结果产生影响。但是这种方法有一个弊端,就是它可能会导致扰动后的数据集变得不可用。
9、群体偏好分析
基于差分隐私保护方法,在个人的苹果手机上的这些数据永远都是被加密的、部分的,甚至是包含随机的错误信息的。那么,苹果公司是如何利用这些的加密数据的呢?这样的数据可以让我们了解大部分的群体是什么样的,但无法得知具体的个人是什么样子的。针对用户所属的群体进行分析,分析这个群体里的人更喜欢什么,行为习惯是怎么样的,在推送给用户他所属群体的偏好。事实上,大多数人的选择结果往往不会和你个人的选择有太大的出入。因此效果还是完全值得期待的。
写在最后
不管对于个人还是企业来说,隐私数据都非常重要。法律监管的越严,企业越难获得个人隐私数据。而没有质量好的数据,企业给用户提供的服务质量就会下降。我们希望能在服务与隐私保护间找到一处平衡,即能享受贴心的服务又不用过于担心自己的隐私泄露,正如苹果公司的群体偏好分析。法律加强监管、技术助力隐私保护以及个人隐私保护防范意识的提高,未来数据企业发展会更为规范,期待企业能给我们推荐更多的惊喜。
【参考文献】
[1]Banisar D, Davies S. Global Trends in Privacy Protection: An International Survey of Privacy, Data Protection, and Surveillance Laws and Developments[J]. Social Science Electronic Publishing, 1999, XVIII(1).
[2]岳思,吴伟明,谷勇浩.数据发布中k-匿名隐私保护技术研究[J]. 软件,2017,38(11):12-17.
本文由 狗熊会 投稿至 数据分析网 并经编辑发表,内容观点不代表本站立场,如转载请联系原作者,本文链接:https://www.afenxi.com/56373.html 。