澳洲幸运5走势_大数据时代,用户的隐私如何守护

日期:2021-05-05 01:06:02 | 人气: 61067

澳洲幸运5走势_大数据时代,用户的隐私如何守护 本文摘要:(公共编号:)本文说明了学术界和工业界对用户隐私维护的希望成果,其中主要是k-anonymity(k-电子邮件化)、l-diversity(l-多样化)、t-closeness和privacy(差别隐私),分析了其优缺点。

(公共编号:)本文说明了学术界和工业界对用户隐私维护的希望成果,其中主要是k-anonymity(k-电子邮件化)、l-diversity(l-多样化)、t-closeness和privacy(差别隐私),分析了其优缺点。数据v.s.隐私在大数据时代,数据成为科学研究的基础。我们在享受推荐算法、语音识别、图像识别、无人驾驶汽车司机等智能技术的便利性的同时,数据在背后兼具驱动算法大幅度优化返回的作用。

在科学研究、产品开发、数据公开发表的过程中,算法必须收集用户数据,在这个过程中数据不可避免地暴露。历史上公开发表的数据暴露了用户的隐私。美国在线(AOL)是美国的互联网服务公司,也是美国仅次于的互联网供应商之一。

2006年8月,为了学术研究,AOL公开发布了电子邮件搜索记录,其中包括65万用户数据,共20M条搜索记录。在这些数据中,用户的名字被电子邮件的身份证所取代,纽约时报通过这些搜索记录,找到了ID电子邮件对应4417749的用户在现实世界的人。ID441749的检索记录中有60岁老年人的问题、Lilburn地方的风景和Arnold的检索文字。

通过以上数据,纽约时报发现Lilburn只有14个姓氏Arnold,最后直接联系了这14个人,证明IDN417749是Thelmanold这位62岁的老太太。最后AOL紧急删除数据,发表声明道歉,但已经太晚了。

因隐私泄露事件,AOL被起诉,最后赔不受影响用户总金额低约500万。在某种程度上,2006年,美国仅次于电影公司之一的Netflix举行了预测算法比赛(Netflixprize),比赛拒绝在公开发表数据中推断用户的电影评价。Netflix可以删除数据中唯一识别用户的信息,确保用户的隐私。

但是,2007年TheUniversity、ofTexasat、Austinin的两位研究者通过Netflix公开发表的数据和IMDb(网络电影数据库)的网站公开发表的记录需要识别有邮件的用户的身份。3年后,2010年,Netflix最后因隐私原因宣布暂停这场比赛,被罚款很高,赔偿金额共计900万美元。

近年来,各大公司继续关注用户的隐私安全性。例如,苹果在2016年6月的WWDC大会上明确提出了名为Differential的Privacy差别隐私技术。苹果主张通过数据可以计算出有用户群的不道德模式,但是不能得到每个用户个人的数据。

那么,隐私技术是怎么做到的呢?在大数据时代,如何确保隐私?要问这个问题,我们首先要告诉你什么是隐私。隐私是什么?我们经常谈论隐私泄漏和隐私维护。什么是隐私?例如,住在海淀区五道口的小明经常在网上销售电子产品。

澳洲幸运5走势

那个小明的名字、销售喜好和住址不是隐私吗如果一个购物网站统计数据显示用户的购物偏好并公开发布部分数据,公开发布的数据显示北京海淀区五道口的用户更喜欢卖电子产品,小明的隐私不会泄露吗?要明确隐私的维护,就必须讨论什么是隐私。对于私密性这个词,在科学研究广泛拒绝接受的定义是单个用户的某些属性,只要符合这个定义就可以视为私密性。当我们委托隐私时,我们特别强调单一用户。那么,一群用户的某些属性可以指出它们不是隐私。

以刚才的例子来看,对于小明这个单一用户来说,销售喜好和住址是隐私。如果公开发表的数据说住在五个入口的小明恋人卖电子产品的话,隐私似乎泄露了。

但是,如果数据中只包括一个地区的人的销售喜好,就不会泄露用户的隐私。更进一步地说,小明住在海淀区的五个入口,小明告诉恋人买了这个产品吧这种情况不是隐私泄露吗?答案是远比,因为每个人都只是通过这个趋势推断,数据并不意味着小明肯定会卖电子产品。因此,从隐私维护的角度来看,隐私是针对单个用户的概念,公开发表集团用户的信息远远超过隐私泄漏,但如果能够从数据中正确推测个人信息,即使隐私泄漏。

隐私维护的方法从信息时代开始,隐私维护的研究开始了。随着数据的快速增长,人们更加尊重隐私。我们在讨论隐私维护时也包括两种情况。

第一,公司为了学术研究和数据交流对外开放用户数据,学术机构和个人可以向数据库寻找催促,公司回到相应的数据时必须确保用户的隐私。第二种情况是公司作为服务提供商,为了提高服务质量,积极收集用户的数据,在客户端收集的数据也必须确保隐私。学术界明确提出了维持隐私的方法和测量隐私是否泄漏的工具。

例如k-anonymity(k-电子邮件化)、l-diversity(l-多样化)、t-closeness、冷冻(差别隐私)、同态加密、零科学知识证明等。今天主要说明k-anonymity(k-电子邮件化)、l-diversity(l-多样化)、t-closeness和(differentialprivacy)。这些方法从直观的角度来看,依赖于公开发表数据的隐私,用于密码学、统计学等工具保证数据的隐私。

接下来,我们将逐一理解维护这四种隐私的方法。k-anonymity(k-电子邮件化)k-anonymity是1998年latanyasweeney和pierangelasamarati明确提出的数据电子邮件化方法。让我们再看看下面的表格。

我们将要表中的公开发表属性分为三类。Keyattributes:一般是个人唯一的标志,如姓名、地址、电话等,这些内容必须在公开发表数据时删除。-Quasi-identifier:类似于邮政编辑、年龄、生日、性别等不是唯一的,但可以协助研究者的相关数据显示。

澳洲幸运5官网

-Sensitiveattributes:敏感的数据,如销售喜好、工资等,这些数据是研究者最关心的,一般需要公开发表。非常简单,k-anonymity的目的是确保公开发表的数据中包含的个人信息至少不能通过其他个人信息来确认。也就是说,公开发表数据中的quasi-identifier信息,完全相同的人必须经常出现最少的k次。

举个例子,假设公开发表的数据开展了2-anonymity维护。如果攻击者想证明一个人(小明)的脆弱信息(销售偏好),通过寻找他的年龄、邮政编辑和性别,攻击者在数据中至少有两个人有完全相同的年龄、邮政编辑和性别。

这样,攻击者就无法区分这两个数据中哪一个是小明,从而确保小明的隐私被泄露。以下表格是2-anonymization的信息:k-anonymity的方法主要有两种,一种是去除对应的数据佩,用星号(*)替换。另一种方法是用总结的方法来区分年龄这个数字。

对于邮政编辑这样的数据,如果所有的邮政编辑都被删除,研究者就不会失去很多有意义的信息,所以可以自由选择删除最后的数字。从这张表中,即使我们告诉小明是男性,24岁,邮政编辑是100083,也不能告诉小明的销售偏好。研究人员可以根据这些数据统计资料取得有意义的结果,考虑个人隐私,为研究取得有效的数据。k-anonymity可以确保以下三点:1.攻击者不能告诉某个人是否在公开发表的数据中2.等价,攻击者不能证明他是否有某个脆弱的属性3.攻击者不能证明某个数据对应的是哪个人(这个假设攻击者除了quasi-identifier信息以外对其他数据一无所知,推荐例子。

如果所有用户的喜好都是销售电子产品的话,k-anonymity也不能确保隐私泄漏)的反击方法没有排序例如,如果攻击者说小明在数据中排在小白面前,他可以证明小明的销售偏好是电子产品,小白是家用电器。解决问题的方法也非常简单,在公开发表数据之前打乱原始数据的顺序可以防止这种反击。

补充数据反击:公开发表的数据种类繁多,如果k-anonymity方法不同,攻击者可以通过相关数据推断用户信息。此外,如果脆弱的属性在同一类quasi-identifiers中缺乏多样性,或者攻击者有其他背景科学知识,k-anonymity也无法防止隐私泄露。我们告诉李雷的信息,表中有两个相应的数据,但他们的销售偏好是电子产品。

由于这种脆弱的属性缺乏多样性,尽管是2-anonimity邮件简化的数据,但我们仍然需要获取李雷的脆弱信息。如果我们告诉小绿的信息,告诉她不喜欢卖护肤品的话,从表中可以证明小绿的销售喜好是烹饪器具。l-diversity(l-多样化)通过以上例子,引导了多样化的概念。

非常简单,在公开发表的数据中,quasi-identifier完全相同的数据中,脆弱的属性需要多样性,以确保用户的隐私无法通过背景科学知识等方法推断。l-diversity确保完全相同类型的数据中至少l种内容具有不同的脆弱属性。例如,在右图的例子中,有10个完全相同类型的数据,其中8个销售偏好是电子产品,其他2个是书籍和家用电器。

在这个例子中,公开发表的数据符合3-diversity的属性。除了以上说明的非常简单的l-diversity定义外,还有其他版本的l-diversity,引进了其他统计资料方法。例如,基于概率的l-diversity:频率最低值的概率在1/l以上。基于湿度的l-diversity:一种敏感数据产生的湿度至少是log(l)。

迭代(c、l)-diversity(c、l):非常简单地确保最常出现的值频率。l-diversity也有脆弱属性的性质要求,即使确保一定概率的diversity也容易泄露隐私。例如,在医院公开发表的艾滋病数据中,脆弱的属性是艾滋病阳性(频繁发生的概率为1%)和艾滋病阴性(频繁发生的概率为99%),这两个值的敏感性不同,结果也不同。

在某些情况下,l-diversity没有意义。例如,艾滋病数据的例子中只含有两个不同的值,确保2-diversity也没有意义。l-diversity很难达成协议。

例如,如果我们想在10000个数据中确保2-diversity,最多需要10000*0.01=100个完全相同的类型。此时,以前说明的k-anonymity的方法很难超过。斜向反击(Skewnessatack):如果确保在同一类型的数据中经常出现艾滋病阳性和艾滋病阴性的概率完全相同,我们确保了diversity,但泄露隐私的可能性并不小。

因为l-diversity没有考虑脆弱属性的整体生产。l-diversity没有考虑脆弱属性的意思。例如,以下例子通过李雷的信息从公开发表数据中关联到两个信息,通过这两个信息可以得出两个结论。第一,李雷的工资相对较低;第二,李雷讨厌出售与电子电器相关的产品。

t-closeness上的最后一个问题引入了t-closeness的概念。t-closeness是为了确保在完全相同的quasi-identifier类型组中,脆弱信息的产生状况与整个数据的脆弱信息产生状况相似。

澳洲幸运5官网

如果是刚才的话。数据确保了t-closeness的属性,在李雷的信息中发现的结果,工资的产生与整体产生相似,很难推断李雷的工资强弱。

最后,如果确保k-anonymity、l-diversity和t-closeness,隐私会泄露吗?答案并非如此。在这个例子中,确保了2-anonymity。2-diversity,t-closeness(生产近似),工资和销售喜好是脆弱的属性。

攻击者通过李雷的个人信息找到了四个数据,同时告诉李雷有很多书籍,可以更容易地在四个数据中找到李雷的数据,导致隐私泄露。有些读者可能不会有疑问。用背景科学知识反击k-anonymity的前提是理解quasi-identifier吗?并非如此,对于脆弱属性的背景反击,k-anonymity也受到限制,因此无论确保什么属性,隐私泄露都很难防止。

差别隐私除了以前说明的k-anonymity、ll-divrsty、t-closeness三种隐私维护方法的反击外,还有一种叫做差别反击。举个例子,购物公司发布了购物偏好的数据,说我们有100个购物偏好的数据,其中10人喜欢销售汽车用品,其他90人喜欢销售电子产品。

如果攻击者告诉其中99人是喜欢汽车用品还是电子产品,可以告诉第100人的购物偏好。这样,通过比较公开发表数据和现有的科学知识来推测隐私,被称为差距反击。2009年,微软公司研究院Cynthia,Dwork明确提出了差额隐私的概念,差额隐私是为了避免差额反击,也就是说,尽管攻击者公布的100个个人以信息和其中99个人的信息,但他也无法通过检查这两个信息获得第100个信息。简而言之,差别隐私是用一种方法搜索100个信息,搜索其中99个信息的结果完全一致,攻击者不能通过比较(差别)数据找到第100个信息。

该方法是重新加入随机性,搜索100个记录和99个记录,输入某种程度值的概率相同,攻击者不能进行差额反击。进一步说,对于只有一个记录的两个数据集D和D。搜索结果完全相同的概率非常相似。

请注意,这里不能确保概率完全相同。同样的话,数据几乎必须随机化,公开发表数据也没有意义。因此,我们必须尽可能相似,以确保我们在隐私和可用性之间找到。冷冻-差别隐私(冷冻-differentialprivacy,冷冻-DP)可以通过以下定义回答。

其中m在d上给予检索操作者,检索后的结果加入一定的随机性,即给予数据特殊噪音,两个datasets加入同样的随机噪音后,检索结果c的概率比特定的数量大。这样,可以确保用户隐私泄露的概率在数学上,与传统的k-anonymity相比,隐私差异使隐私维护的模型更加明确。

我们用一个例子来说明差别隐私的定义。上图中D1和D2是两个neighboring的datasets,他们只有一个记录不完全一致。攻击者在寻找20-30岁之间有多少人喜欢销售电子产品时,这两个数据库获得的搜索结果100的概率分别为99%和98%,他们的比例比某个数大。对于给定的搜索,如果能够满足这样的条件的话,可以说这种随机方法符合PS的隐私。

D1和D2可以交换,所以更严格地说,他们的比例也小。不管是找什么,两个相邻的数据库回来的结果总是相似的。超过数据的差别隐私有四种方法:输入结果转换输出检索转换中间值转换取样和单体数据本文主要说明输入结果转换的方法。

该方法主要针对检索结果为数值或数值向量的情况,通过添加噪音,输入结果超过冰淇淋-DP。输入结果转换:重新添加噪音,避免隐私泄漏的最重要因素是在搜索结果中添加噪音,对于数值的搜索结果,一种罕见的方法是开展数值转换。为了说明如何重新添加噪音,让我们来看看以下例子。如果某公司公开发表数据,获得对外搜索数据的模块f(x),根据搜索x的不同,服务器输入搜索结果f(x)的高级噪音,重新添加噪音是为了确保s-的隐私。

那么如何自由选择噪音呢?在差别隐私方法中,作者利用拉普拉斯产生的特性,寻找合适的噪音方法。对于数值或向量的搜索输入,M(X)、M(X)、M(X)、M(X)、UI。我们可以得出以下结论:Lap出生于拉普拉斯,GS对globalsensitivity作出反应:详细证明可以参考差别隐私的相关文章。

我们有了这个结论,如果我们想确保某个搜索模块f(x),我们只需要在搜索结果中添加Lap(GS/e)的噪音。拉普拉斯与其概率密度函数如下:(、△)-differentialprivacy、(罗、△)-DP龙是严格的隐私维护,在数据库中添加和删除数据时,确保所有搜索的输入都类似。但是,△-DP允许在DP的确保中再次发生一定概率的错误。例如,用户在(K,I)DP的维护持续性中有概率的隐私泄漏。

基于这些概念,差别隐私也需要用于机器学习算法,少见的算法,如PCA、logisticregression、SVM。差别隐私在数据的实用性和隐私性之间超过了平衡,用户可以通过原作自己的隐私支出来调整数据的实用性和隐私性。但是差别的隐私也不是万能的,其中添加噪音的很多算法都需要大量的数据集才能简单。

此外,什么是隐私支出的合理原作也是个问题。这些都是差别隐私面临的问题和挑战。另外,由于差别隐私对背景科学知识的拒绝过于强烈,因此必须在结果中重新加入大量随机化,数据的可用性急剧下降。

但是,差别隐私作为非常高雅的数学工具,是隐私维护的研究将来的发展方向。差别隐私通过严格的数学证明,简化电子邮件的公开发表数据可以维持用户的隐私。

k-电子邮件的简化和k-差别隐私的关系在我们面前分别说明k-电子邮件的简化和k-差别隐私,k-电子邮件的化比较容易解读和实践,差别隐私从理论上证明了隐私维护的界限。方法的分析角度几乎不同,但有密切的联系。普渡大学的Ninghui.Li教授在Provably的PrivateDate?Date?Date?Date?Date?Date?Differntial?Privacy?文章中详细分析了k-电子邮件的简化和冷却隐私的关系。文章证明,在k-电子邮件化适当的情况下,可以满足一定的条件。

同时,k-anonymity的变形也明确提出了β-Sampling、dataindepdnt_gralization-Suppression(k、β)-SDGS通过变形的k-anonymity,可以满足差别隐私。通过差别隐私这个工具,我们可以正确地依赖于前人明确提出的k-anonymity,理论研究具有最重要的意义。实际案例在实际应用于差价隐私时需要考虑的问题还有很多,我们在说明差价隐私时,假设所有的搜索操作者都是由可靠的数据库处理的,数据库中存储着用户的原始数据。

如果数据库被反击,包括用户隐私在内的原始数据会泄露。如果不收集用户的原始数据,在客户端实现差别隐私,上传给服务器,这个问题就会解决。最近谷歌首次用于RAPPOR系统在Chrome浏览器上收集用户的情况数据。RAPPOR基于随机接收者(randomizedresponse)的方法维持用户的原始数据不泄露,随机接收者的流程如下:当用户必须显示个人数据时,首先要求投币是否显示现实数据。

澳洲幸运5走势

如果是正面,请显示现实数据。如果没有,请显示随机数据,然后扔硬币要求随机数据的内容。服务器收到所有数据后,告诉你投币是正面的概率,所以服务器需要辨别回来的数据是正确的概率。

这种随机接收者的方法,理论上也证明了遵循PS的隐私。对于用户来说,隐私数据在向服务器请示之前已经发出了噪音,确保了。对公司来说,也可以收集有效的数据。

RAPPOR用于随机接收者的方法解决了以前非常简单的搜索句子的允许,现在可以请示包括文字串在内的更简单的问题。RAPPOR在请示文字串信息时,首先用于布隆过滤器算法,将文字串列在一个数组中,然后再次添加噪音传递给服务器。

布隆过滤器不需要保存要素本身,可以作为检索要素是否集中在一个子上。这种方法可以在字符串数据中添加噪音,保持用户的隐私。苹果公司在2016年的世界开发者大会(WWDC)也宣布用于隐私差异的方法收集用户数据。苹果没有泄露明确的细节,从官方记述中推测苹果也用于简化客户端的电子邮件传输到服务器的方法。

Differentialprivacyistofferearchtopintheareastheareashofstaticticandatandatalticsthathashashing,subsampling提交文件,提交文件,提交文件,提交文件,提交文件这种差别隐私的做法,如果请示数据相互关联的话,就没有隐私泄露。谷歌的RAPPOR解决了同一数据多次请求的隐私泄露问题,但与数据请求有关的隐私泄露问题没有解决。

关于这个问题,苹果也没有详细说明。除Google和苹果在内部产品中使用差别隐私方法外,哈佛大学公开发表了名为PSI(⑥)的项目,获得了便利的差别隐私工具。

用户可以通过上传数据,调整差价隐私的参数,获得符合差价隐私的数据集。总结了学术界和工业界对用户隐私维护的希望成果。

我们,k-anonymity,通过转换隐私数据,确保具有完全相同特性的用户在数据库中经常出现的次数是k次。然后,为了避免攻击者通过隐私数据背景科学知识推断用户身份,明确提出用于l-diversity,确保完全相同特征的用户中,隐私数据完全相同的个数小于l。此外,我们还讨论了t-closeness。最后,详细说明了差别隐私的概念和实际应用于差别隐私的方法。

从最初的k-anonymity、l-diversity、t-closeness到现在的冷冻隐私,为了保证用户的隐私,也可以实际应用于研究获得有价值的数据。在大数据时代,各公司希望利用数据获得更好的服务,同时维持用户的隐私。这是法律的拒绝,也是安全性行业的执着。我们相信隐私维护技术不会受到更多的重视,从学术理论应用于工业空战。

参考文章-https://www.cis.upenn.edu/~aaroth/papers/privacybook.pdf-https://www.cs.cmu.edu/~yuxiangw/docs/diffrential上限priva。cy.pdf-htps://blog.cryptographyenering.com/2016/06/15/what-is-differential-privacy/https://www.chromium.org/devers/design-rappor-httrappor-https://statatic.chrorium.org/developers/design-derandents/rapraprapraphtht:/rapraphtpt:/chtitps://stapraprapraphtihtintic.g.cht.cerap.cht.cht.cherap.cherarat.cherat.cherat.cheraprarararat.cht.chererararenerap.cht.cht.chererereraperereraneram.cheraneras/dereras.corararanerat.coraprararerent.com.corererat.com.coranerereraneranererererenerant.com.com.corererererererererereras/deranerererent.cont.c.c.com.coneres/dererererererereras/deras/derererereraneranenene下一篇文章发表了注意事项。


本文关键词:澳洲幸运5,澳洲幸运5走势,澳洲幸运5官网

本文来源:澳洲幸运5-www.wallpaperzworld.com