百科问答小站 logo
百科问答小站 font logo



当隐私泄露成常态,如何在大数据时代更好地保障信息安全? 第1页

  

user avatar   feng-hao-zhe-66 网友的相关建议: 
      

@Serendipity 已经对隐私保护的重要性与硬件,软件层面的基础设施讲的很透彻了。在此我想从数据分析层面对隐私保护进行一些科普,包括隐私的定义,在数据分析的过程中泄露隐私的场景,以及一些隐私保护的AI技术。

“刚和朋友聊完种草的衣服,淘宝立刻推荐相似的款式;明明没录入过信息,却能被人脸识别系统所确认;收到的诈骗电话不断升级,甚至能说出高中班主任的名字...”,个人信息的滥用早已是互联网的普遍问题,但对于藏匿在重重人工智能客服后的利维坦式互联网企业而言,个人捍卫隐私的手段可说是杯水车薪。

从2018到2021年,各个国家和政府相继出台了隐私保护法案,如2018年欧盟出台一般数据保护法案(General Data Protection Regulation,GDPR),2021年中国人大通过个人信息保护法。虽然这些法案限制了个人数据的收集与滥用,但在实际执行中,各互联网企业往往会利用自己的平台优势,要求用户在各个APP上额外同意一堆冗长的数据使用条款,否则就无法使用相应的服务。这种店大欺客的方式将法律成本直接转嫁给了个体,而个人隐私并没有因为法案的出台得到相应的保护。

诚然,个人对于自身隐私的让步可以令AI模型的服务效果更好,从而获得互联网时代的便利性。但是,无节制的信息滥用也会使得每个人犹如裸奔。政治家有句名言,“即使最诚实的人写六行字,都能从中找到足够的理由来判处绞刑”,如果自己的每一次浏览记录,购物记录,以及在微博和知乎上的发言都被记录并精确关系到个人,那么从数据控制者的角度,用户会丧失一切尊严,成为互联网上的韭菜。

那么,当我们谈论隐私保护时,我们的诉求是什么呢?作为用户,我们固然舍不得信息时代的便利,但也不愿让自己的一切信息暴露。是否存在某种解决方案,使得我们在享受大数据推荐的便利时,又可以模糊个体的精确信息,从而构造个体数据的防盗门呢?答案是肯定的。在这篇科普文中,我们将讨论隐私的准确的定义,个体隐私保护与大数据推断准确性的平衡,然后简要介绍差分隐私联邦学习这两种先进的隐私保护技术,通过联合使用这两种技术,可以在保证AI模型准确性的同时保护参与推断的个体隐私。

大数据时代下隐私的合理定义与隐私泄露的场景

我们先对“什么是隐私”这一问题进行讨论。在不同的场景和尺度下,隐私的定义也不一样。比如,我们可以极端地认为,“一切关于个体的信息都是隐私”,那么应当拒绝填写基本信息,拒绝参加各种问卷调查和人口普查。但是,数据是社会运行所基本的燃料,适度贡献统计信息会帮助精准的政策制定,提升生活的便利。因此,目前普遍比较接受的定义是:“单个用户的某一些属性可以被看做是隐私,但是对群体数据的统计与加工则不认为是隐私”。譬如,某医院发布调查报告说,在该医院,吸烟者患肺癌概率是不吸烟者的20倍,这个不泄露任何隐私。但是如果医生说,张三因为吸烟,所以比其他人患病概率高20倍,这就是对张三隐私的泄露。再举例,高德地图交通大数据称,凯迪拉克车主偏好洗浴场所,这一度引发了隐私泄露的讨论。但是在上述定义下,只要不涉及具体的客户,则此统计信息也并不是隐私泄露。

在这种“保护个人信息,不保护统计信息”的隐私定义中,对于任何数据库中精确个体的信息查询与检索都会泄露隐私,因此禁止对于个人数据的精确查询是合理且基本的隐私保护诉求。但是,就算确保了个人数据的加密,数据分析的过程,即对一群用户的某些属性的统计信息查询(如查询个人收入的平均值,中位数),以及对查询结果进行加工与建模,往往也会泄露个人隐私。综合个体隐私与统计信息的贡献,对于数据分析的过程,我们希望达成如下的隐私保护:

对于任何数据分析员,要求其在对数据库进行分析后,对数据库中任何一个个体的了解都不会超过其在分析开始之前的了解。

个人数据加密存在对立的解密者与攻击者,但是在数据分析的过程中,分析师与“隐私攻击者”往往是同一个人,因此相比于数据加密,在数据分析的过程中进行隐私保护存在不对称性的难点,这就带来了很多意想不到的隐私泄露场景。

数据分析中隐私泄露的场景

数据分析是一个复杂的过程,就算严格禁止个人数据的查询,个体隐私也往往在不经意间泄露。我们先来举几个例子,看看什么样的数据分析行为会侵犯隐私,以及什么样的行为看似不会侵犯隐私,但是通过一连串叠加也会侵犯个人隐私

首先,不加监管的统计信息查询也会泄露个人隐私。考虑一个含有上百万条目的数据库,我们规定只允许查询摘要形式或者统计形式的信息,这种数据分析方法看起来保护了个人隐私。但是,如果分析师知道某个个体的信息包含在数据库中,就可以利用一种叫差分攻击的方法得到个体的信息。比如,如果已知张三的信息在某个医院数据库中。那么分析师可以查询:有多少人患血友病,以及通过条件查询,有多少个不叫张三的人患血友病。如果前者的查询结果是70人,而后者的查询结果是69人,那么经过差分比对,分析师就得到了张三患血友病这一个人隐私。·

其次,引入监督者去监管每一次的数据查询也会泄露个人隐私。对于上述的差分攻击,一个自然的想法是引入某个监督者去禁止"有多少个不叫张三的人患血友病"这种不安全的查询,或者允许该监督者在必要的时候对数据库进行匿名处理,这样似乎可以避免上述的差分攻击,那么是否存在一个监督机制能保证数据分析过程中隐私不被泄露呢?答案是否定的,原因有二:(1) 禁止查询的决定本身也会带来隐私泄露。比如国家不公布第七次人口普查的具体数据,或者从2006年开始不公布中国的基尼系数,这本身也具有某些信息。(2) 可以将单次泄露隐私的查询拆分成一系列查询,使得对于每次查询都很难判断是否构成隐私泄露。

最后,由于不同行业数据分析师的知识背景非常多样,因此分析师的先验知识会将一些不泄露隐私的查询变得泄露隐私,这种隐私泄露的形式称为辅助信息带来的隐私泄露。比如一个分析师是张三的邻居,他知道张三在某一天去了医院。而他同时也是该医院的数据分析师,而在医院的匿名数据库中,这一天的数据条目只有两三条,那么张三的就诊信息就会泄露。又比如作为张三的邻居,我们发现他常常去买蛋糕。但是有一段时间他忽然开始买不含糖的面包了,如果分析师是一个医生,可能会猜想他患了糖尿病,这就是辅助信息带来的隐私泄露。

综上所述,对于个体数据的查询加密是保护隐私的基础,但是仅仅禁止直接获取个体数据是远远不够的。差分攻击辅助信息会在对统计数据的分析过程中泄露个体隐私,而引入监管也不能保证隐私安全。但是,通过联合使用差分隐私联邦学习这两种技术,我们可以在严格保护个体隐私的情况下,允许对群体的统计信息进行全面分析。

构建隐私保护AI系统的技术:差分隐私与联邦学习

在介绍具体的隐私保护技术之前,我们先探讨一个社会科学对敏感性问题进行调研的例子。

假设我们想要调研已婚人群中的出轨比率,那么让每一个被调研者如实回答问题必然导致个人隐私被侵犯。但是我们想要获取的是统计信息,而非每一个个体的信息,因此可以构建一个随机回答的调研流程:首先,令受访者自己抛一枚均匀硬币,如果正面朝上,那么如实回答问题,如果背面朝上,那么再抛一枚硬币。如果这枚硬币正面朝上,那么回答“是”,背面朝上则回答“否”。在这种流程下,任意受访者都至少有的概率会回答“有过出轨”,因此就算受访者的回答是“有出轨”,也不能判定他是否真的出轨过。这样,他的个人隐私就得到了保护。但是对于研究者而言,总体的出轨比例可以通过简单的计算得到:

基于这种方案,我们就在保护个人隐私的同时得到了统计信息。社会科学的调研方法对隐私保护具有重大启示:

通过引入随机性,可以在获取统计信息的同时,给个人信息蒙上一层随机浓雾,从而构建个人信息的防盗门。

差分隐私:通过引入随机性给个人隐私上锁

差分隐私通过引入随机性,可以对抗由差分攻击辅助信息所带来的隐私泄露。回顾对于数据分析的隐私保护要求:对于任何数据分析员,要求分析员在对数据库进行分析后,对数据库中每一个个体的了解不会超过其在分析开始之前的了解。为达成这种目的,我们需要对差分隐私提出两个疑问:对于一个数据分析过程,应当在什么时机,以什么方式引入并实现隐私保护机制呢?在上文对于可能泄露隐私的场景讨论中发现,引入实时的监督者并不能保障个人隐私安全,因此差分隐私的作用时机必然是在数据库发布后,到所有的数据分析工作开始之前。基于这个结论,我们可以想象差分隐私所扮演的角色:

在数据分析的过程中,差分隐私扮演了一个值得信赖的数据库管理员角色,它的目的是保护数据库中每一行记录,同时允许整个数据库能够被分析。这个管理员在数据库面向数据分析师发布前,会对原始数据库进行一些操作:对数据库进行合成(例如,依据原始数据生成一些相似的虚拟数据)、对某些统计结果进行汇总(例如,将患者数据按年龄段进行分组,仅按年龄段发布统计信息,然后删除个体数据)、或者自行清除某些离群数据,然后发布新的数据库,销毁原始数据库,此后,差分隐私不再发挥作用。要求经过差分隐私后,对于新的数据库上任何可能的查询,以及根据查询结果的一系列加工都不会泄露个体隐私。

那么,差分隐私是如何工作的呢?考虑差分攻击的特性,如果每一次回答都是确定的信息,那么通过前后对比,则必然会泄露个体隐私。通过引入随机性可以应对差分攻击,以上文血友病为例,如果我们查询有多少人患血友病,数据库回答的是70到75人之间的随机数值,而条件查询有多少个不叫张三的人患血友病时,回答69到74人之间的随机数值,那么即使进行了差分攻击,对前后的回答数据做比对,仍然很难泄露张三的真实信息。基于这种直观理解,我们给出差分隐私的形式化定义:

差分隐私的形式化定义)我们称输出带有随机性的数据分析过程满足隐私损失为的差分隐私(记作DP),如果对于数据库上任意两个仅仅相差一条记录的相邻数据集,采用分别进行数据分析的结果分布相差不大,即对于所有可能的分析结论,满足

公式展示了差分隐私的基本目的,即要求对于任意的个体,在所有可能的仅仅相差该个体这一条记录的相邻数据库上,数据分析者无法仅通过输出结果对它们进行概率上显著的区分。那么,这种“无法区分”的性质会带来什么好处呢?我们可以从社会效用的角度对该问题进行探讨。

考虑数据库中的某个个体,我们记他在未来所有可能经历的事件集合为(譬如考研是否成功,就业是否顺利等都算事件),对于每一个事件,都可以认为该事件对于个体具有某种可以量化的影响,这种影响称为该事件的效用。譬如,用平均工资衡量效用,假设考研成功能够带来¥1000的平均工资增长,那么就可以记考研成功的效用为1000,而不成功的效用就是0。我们用效用函数衡量所有可能事件以及它对应的效用:

对于满足隐私损失为的数据分析过程,数据分析者可以用它进行一次分析行为,记为,如果这种分析行为泄露了个人信息,那么就会对未来的事件产生影响。例如,如果某个人的犯罪记录因为某次查询而泄露,那么就可能会影响个体事业的发展。我们记由于数据分析过程的查询所导致个体的未来事件分布为,所对应的概率分布为,此时对于个体的期望效用为:

此外,我们记除去个体后所得数据库为,在这种情况下,由于个体并未参加数据分析的过程,因此个人隐私并未泄露,我们以此时的效用函数作为零隐私泄露的基准。通过同样的方法,计算通过相邻数据库的分析对于个体的期望效用如下

利用差分隐私的定义,我们有

利用极限,我们可以得到

通过式可以从效用函数的角度理解差分隐私:虽然贡献自己的数据可能确实会导致自己面临一些伤害,但差分隐私保证了这种伤害的后果是可控的,个人的效用函数不会因他们的数据参与分析而显著减少。这种性质非常实用,因为数据的提供者往往无法控制分析结果的进一步利用,如果我们对隐私保护不加限制,那么数据分析过程对个体可能造成的影响是未知的。而有了差分隐私,任何数据分析师都可以保证个体预期的未来效用不会受到超过水平的损害。当个人决定是否贡献自己的数据用于数据分析时,他们可以根据的值来量化可能的损失,通过比较分享数据获得的激励,可以决定是否共享数据。

此外,差分隐私还有一个良好的性质叫做传递性,即对一个满足差分隐私的数据分析过程所得到的结果,对该结果进行任何进一步加工处理也具有差分隐私的特性。也就是说,数据分析师不能仅仅通过坐在角落里思考算法的输出,得到任何会泄露个人隐私的结论。因此,差分隐私也能够解决数据分析师的辅助信息所带来的隐私泄露

考虑本文开头的四个隐私泄露的场景,如果所有的数据收集与发布流程都满足差分隐私,那么个人隐私泄露的情况会有很大的好转:淘宝可以通过统计信息得到当季最流行的衣服款式,但是对于个人的喜好则只能以概率进行模糊推荐,而不会缩小到具体的商品;只要不进行个人同意的精准录入,人脸识别系统就无法工作;诈骗电话所获取的个人信息都是概率正确的,高中班主任有50%的概率叫张三,也有50%的概率叫李四,因此多问几个问题就会露馅。同时,添加差分隐私并不会使得我们的统计信息产生过大的偏差,这样就平衡了个人隐私保护与群体统计的需求。

对差分隐私的进一步了解需要涉及一些概率论知识,我们开设了专栏进行专业讨论:

  1. 差分隐私系列之一:差分隐私的定义,直观理解与基本性质
  2. 差分隐私系列之二:满足差分隐私约束的AI系统详解

联邦学习:限制个人数据的自由流通

数据是信息时代的燃料。在各大互联网公司,用户数据更是扮演了“生产要素”的角色。但是,与其他生产要素不同,数据的转移与复制具有零成本,不可控的特征。数据一旦产生了可流通的副本,数据发布者就几乎无法监管它的使用场景,因此,控制数据的流通是隐私保护的核心诉求。欧盟发布的数据驻留法案要求所有在欧盟的公司都必须确保数据存储在欧盟境内,而滴滴因为泄露国土安全数据的传闻,其产品现在仍未恢复上架。然而,存储在服务器内的数据无法产生任何价值,对数据流通的限制不能因噎废食。是否存在一种分布式的人工智能训练策略,使得我们能够令数据去中心化地存储在本地的同时,能够联合训练一个强大的全局模型呢?联邦学习(Federated Learning)是一种可行的技术。

联邦学习是一种满足隐私保护的分布式AI训练方案,它允许多个客户端(例如多个移动设备,多个数据供应商)能够在某个中央服务器的调度下协作训练AI模型,每个客户端都能从联合训练中受益,同时保持训练数据的去中心化存储,尊重各方数据隐私。关于联邦学习的进一步讨论需要一些深度学习的专业知识,我们也开设了相应专栏:

综合利用差分隐私联邦学习两种技术,可以在理想情况下构建完全隐私保护的AI系统。在每一个本地服务器上,数据分析模型的训练满足差分隐私的要求,因此可以对抗由差分攻击辅助信息所带来的隐私泄露。而联邦学习可以在数据不出本地的情况下,联合训练一个强力的全局模型。受益于差分隐私的传递性,全局的数据分析模型对于每一个本地数据库而言也满足隐私保护的要求。

此外,笔者也私心安利一下我们组在隐私保护与联邦学习方面的工作。在联邦学习中,多个客户端的数据往往会出现分布不一致的情况,而由于无法获取原始数据,这种分布偏移会极大影响AI模型的性能。为解决这种问题,我们提出了一种高迁移精度,低通信成本,并具有负迁移鲁棒性的联邦迁移学习范式,并在ICML2021上进行了报告:

总结与展望

大数据时代下,每个人的生活方式都发生了巨变。迅猛发展人工智能必然是以让渡了部分个人隐私权作为代价的。当各个AI科技企业在描摹元宇宙,书写星辰大海的公关文时,个体隐私,以及隐私背后的尊严都往往成为粉饰业绩的注脚。但是,如同煤炭般赤裸燃烧的个人信息背后,是一个个鲜活的个体。倘如“隐私权”之于科技发展,永远只是“科技进步”这一概念的注脚,那么我想生产力的发展,并不会带来更好的生活,而这也是我写作此篇科普文的初心。

隐私保护不仅需要国家层面的推动,也需要每一个个体有意识的维权。差分隐私联邦学习是两种可以实用的技术,也是作为普通人能用以维权的工具。如果在收集数据时,我们能够反问一句,数据收集者是否确保数据发布遵循了差分隐私原则,或者在使用推荐系统带来的便利时,关注一下用户数据的存储方式,那么隐私保护就能走出温室,成为信息时代的基本人权。

本文使用 Zhihu On VSCode 创作并发布


user avatar   youngfish42 网友的相关建议: 
      
“中国人对隐私问题的态度更开放,也相对来说没那么敏感。如果他们可以用隐私换取便利、安全或者效率。在很多情况下,他们就愿意这么做。” [1]


隐私保护,箭在弦上

最近几年,国内的互联网行业高速发展,一方面它改变了我们的生活,带来了很多便利,另一方面,由于该领域发展迅速,相关监管措施明显滞后于行业的发展,而早期粗放式管理带来的野蛮生长也一定程度上损害了用户们的权益。

好在我国数据立法进程也在不断加快。今年9月1日起,《中华人民共和国数据安全法》已开始施行,而《中华人民共和国个人信息保护法》也将于11月1日施行。我国将迎来个人信息保护及企业数据合规的新时期。


那么应该正如题目所述,隐私计算背景下,怎么才能保障数据安全呢?

当前,联邦学习(FL)、多方安全计算(MPC)、可信执行环境(TEE)三类主流的隐私计算技术正在被使用。

  • 联邦学习可以理解为多个参与方共同参与,在保证个人数据方原始数据不出本地的前提下,协作构建并适用深度学习模型的人工智能技术。
  • 多方安全计算是利用密码学和分布式特性来实现在交互过程中,让交互的个人或者机构达到身份和行为的匿名,或者无需透漏数据的明文与对方完成协作。
  • 可信执行环境基于硬件防护能力的隔离执行环境中的计算,进而实现数据安全和隐私的保护功能。


举个栗子,简述论文做法

这样说起来可能有些枯燥,我用最近在读的文章来展示一下相关场景。

FedSage中,各个医院各自存储医疗数据,当大规模流行病爆发时可通过图网络模型进行有效的传播预测。但各个医院的医疗数据通常并不共享,因此如何在不进行数据共享的情况下,保证图模型在多个子图下的有效性和泛化性呢?


在上图中,有四家医院和一个医疗管理中心。全局图(base graph)记录了某一时期的整个城市的病人(节点),他们的信息(属性)和互动(链接)。

图的左边部分显示了全局图是如何存储在每个医院的,其中,灰色实线代表明确存储在每家医院的链接,红色虚线代表跨医院的链接,红色虚线是可能存在但不存储在任何医院的跨医院链接。

图的右边部分表示算法的目标:

在不共享实际数据的情况下,系统获得一个全局的高性能的图模型。

  • 那么问题来了,使用单个子图分别训练模型,无法获取全局数据分布而且容易模型过拟合,如何从多个子图中联合学习呢?
  • 计算机视觉和自然语言处理领域中样本相互独立,但前述的图中样本间相互存在链接,并且多个子图中的节点之间可能具有潜在的边,它们难以被单个数据拥有者直接使用,如何应对这些缺失的边呢?

论文作者的做法是设计了基于FedAvg(联邦学习经典算法)训练的GraphSage(图网络经典模型)学习聚合学习多个局部子图的节点特征、边结构以及任务标签,还设计了用于学习生成多个局部子图之间可能缺失的边的算法,从而促进FedSage训练。(相关细节请参考论文原文[2]



另一篇论文OmniLytics的设想其实也挺契合痛点。模型所有者将其模型分成私有部分和公共部分,并将公共部分公布在合约上。通过合约的执行,参与的数据所有者安全地汇总其本地训练的模型,以更新模型所有者的公共模型。数据市场的智能合约会补偿那些为更新公共模型做出贡献的诚实的数据所有者,并拒绝来自于恶意的数据所有者的错误结果。(相关细节请参考论文原文[3]


工业界在做什么

当然,学界的案例一般有些超前难以落地,我们可以再看看工业界的相关方案。好在隐私计算联盟在《隐私计算与区块链技术融合研究报告(2021年)》[4]中,中国信通院做了一些统计,我们可以看下面的材料。


就以我们创作者们最头疼的创作侵权问题为例。

创作者在版权链上登记作品。版权服务平台日常监测侵权行为,通过网页取证、录屏取证等方式提炼证据包并在版权链上完成固证。当法院受理案件时,版权服务平台向法院提交存证地址和存证内容,法院调用存证服务的接口进行证据核验。通过跨链访问获取存证内容,保证了获取信息的真实可靠。通过把公证处、司法鉴定中心、法院、CA/RA机构拉入司法链,对数据进行相应的鉴定,保证了一旦数据资产发生纠纷,能够被公正有效的处理。





在以前,或许因为法无禁止即可为,隐私保护经历了一段蛮荒时期。到现在,因为相关法律法规的完善,研究者们和从业者们正在用奇思妙想和实践经验帮助用户在不泄露个人隐私的前提下获得同样水平,甚至更高水平的使用体验。

那么,现在已有哪些隐私计算平台和产品呢?


恰好,在10月22日的杭州云栖大会上,蚂蚁推出了新的隐私计算协作平台FAIR,实现了区块链和隐私计算的深度融合。换句话说,该平台在出场设置中直接引入隐私计算技术,实现原生级的隐私计算。

FAIR 平台继承了可信执行环境、多方安全计算、联邦学习等多种行业前沿隐私计算技术,从硬件到数据流通,再到模型建模全流程实现可用不可见。与此同时,通过将虚拟机或执行引擎置于可信执行环境内便可构建通用的可信计算框架。通用的可信计算框架依托于区块链带来的公开透明,通过将可信执行环境的信任根、代码度量、计算行为在链上公开验证,可构建区块链和可信执行环境的信任闭环。

根据《隐私计算与区块链技术融合研究报告》[4],2020 年、2021 年参与中国信通院可信区块链测评一共46项区块链产品。其中具备隐私保护能力的产品占 71%,国密算法支持率达78%。区块链支持的隐私保护手段逐渐多样化,以传统加密、同态加密、权限控制为主,可信执行环境、多方安全计算和零知识证明均有产品尝试。

其中同态加密被认为是目前最理想的隐私保护技术之一,从同态加密概念提出开始,经历了早期的半同态方案、类同态方案之后,高效的全同态加密方案一直是该领域的重点发展方向,但其存在基础理论复杂度较高,实际使用时存在效率低,密文存储空间占用大,计算代价仍然比较高的问题。FAIR 平台通过使用 CFCA 安全认证安全计算硬件,全同态硬件加速提升百倍以上性能,隐私计算性能超业内算法3-100倍,该平台已实现在金融、政务等多个大规模线上场景上线该技术。



未来,随着相关领域技术的快速进展,很快我们就能在现有的这些APP或服务中体验到隐私计算功能了(也有可能隐私计算将作为底层的模块,直接作为默认配置,无需用户干预)。

参考

  1. ^ 2018年,时任百度董事长兼CEO李彦宏在中国发展高层论坛上的发言。
  2. ^Subgraph Federated Learning with Missing Neighbor Generation https://arxiv.org/pdf/2106.13430.pdf
  3. ^OmniLytics: A Blockchain-based Secure Data Market for Decentralized Machine Learning https://arxiv.org/abs/2107.05252
  4. ^ a b 隐私计算联盟 《隐私计算与区块链技术融合研究报告(2021年)》

user avatar   zhu-wang-xiao-miao-o 网友的相关建议: 
      

互联网中的个人隐私权,一直以来都是甚少被谈及的一项权利。

网上曾流传着这样一段话: “我想中国人可以更加开放,对隐私问题没有那么敏感,如果他们愿意用隐私交换便捷性,很多情况下他们是愿意的,那我们就可以用数据做一些事情。

事实上,之所以国人过去对隐私问题不敏感,是因为在互联网野蛮生长的时代科技进步的幸福感掩盖了隐私泄露的危害,而人的认知水平受限于自身能感知的外界水平。

曾经,我们将隐私记录在密码本、电话簿以及账单上,将他们锁在床头柜里,当隐私被窃取时,我们能看到床头锁被凿开,密码本失窃的画面,可在大数据时代,隐私在我们每一次触屏点击中被后台偷偷记录并上传。作为数据的产生者和拥有者,我们应当有个人隐私数据保护的权利,然而目前在数据保护方面很难做到权责对等。

个人隐私数据的泄露就是对诈骗以及违法犯罪最大的助力,可是公司却很少因数据保护不力而受到处罚,作为数据使用方的企业更是只享受过度权利而不承担责任。

李彦宏当时的演讲还有后半段: “当然我们也要遵循一些原则,如果这个数据能让用户受益,他们又愿意给我们用,我们就会去使用它的。我想这就是我们能做什么和不能做什么的基本标准。” 可用户受益往往和企业受益相冲突,由于技术的不成熟导致用户利益在无形中受到侵犯,又加重了用户对平台的不信任感。

在今年 3·15 晚会中,多家知名商店安装人脸识别摄像头,科勒卫浴、宝马、Max Mara均在列,在商家未曾告知并征得用户同意前,海量人脸信息已然被悄悄搜集。某招聘猎聘平台大量简历流向黑市,企业账户低成本购入海量隐私信息,导致刚投完简历的用户收到无数招聘邮件、推销电话和诈骗短信......

诚然,随着存储和处理成本的不断降低,通过获取不同来源的数据进行大数据收集和分析,从而产生新的信息的方式,可以节省资源、提高流程效率、做出更好的决策。但当便利成了借口,大数据成了企业牟利的工具,只会导致个人权利被不断削弱。

权力没有边界,公益必定受损。由于数字信息极易被复制、存储和传播,用户隐私一旦泄露则无从追回,由于缺乏对用户个人信息价值的统一判断,隐私泄露的惩罚和补偿政策缺乏一个量化的标准,使得隐私保护政策具有很大的不确定性。

幸而,在2021年8月20日,出台《个人信息保护法》,这是为了保护个人信息权益,规范个人信息处理活动,促进个人信息合理利用,根据宪法,制定的法规,其中规定“收集个人信息,应当限于实现处理目的的最小范围,不得过度收集个人信息。任何组织、个人不得非法收集、使用、加工、传输他人个人信息,不得非法买卖、提供或者公开他人个人信息;不得从事危害国家安全、公共利益的个人信息处理活动。

滥用收集数据、侵犯用户隐私的平台和公司属于竭泽而渔,如果目光不够长远,只盯着眼前的经济利益不放,损害的是用户感情,最终失去的可能会是整个市场。

如今,人们越来越重视对隐私权的保护,能否把隐私保护体现在产品和服务的每一个细节中,越来越成为衡量一个APP优劣的重要指标,保护用户隐私需要各大APP平台承担起主体责任,只有赢得用户信任,才能更好更高质量地服务用户。“绿水青山就是金山银山”,而个人隐私数据则是网络空间里的绿水青山,小米的照明弹功能揭开了APP擅自访问、存储用户数据的黑手;IOS 也在最新版本提供了更完善的隐私追踪功能,曾经粗放开发增长的数据时代已然过去,我们需要期盼更实用更有效的数据保护技术。

那么在众多科研人员的推动下,是否有能够真正从源头保护隐私数据的方法呢?答案是:有

Gartner(全球最具权威的IT研究与顾问咨询公司)于近日发布了2022年重要战略技术趋势,将隐私保护技术与人工智能工程化、云原生平台等技术并列。目前业界最主流的三种隐私保护路线有三种:可信执行环境 (TEE,Trusted Execution Environment)安全多方计算(MPC, Secure Muti-Party Computation)联邦学习 (FL, Federated Learning).

1. 硬件层面: 可信执行环境

在计算平台上通过软硬件方法设计出一个安全的计算区域,可以保证在此区域内进行运行的代码及数据的隐私性和完整性。通过硬件提供物理层面的安全隔离和计算环境,即使设备底层的基础软件或系统被恶意攻击破坏,也不会影响到数据和代码安全,通过加密算法验证和计算隐私数据,参与方可通过验证整套代码来确认可信执行环境的安全性。

2013年, Intel推出SGX(software guard extensions)指令集扩展,提供隔离的可信执行环境TEE,即便操作系统、驱动、 BIOS、虚拟机管理器或系统管理模型都已经无法使用,Intel SGX仍可帮助防御软件攻击,防止恶意软件篡改代码和数据,从而保障用户的关键代码和数据的机密性。

此外,蚂蚁集团以保护隐私为前提开发安全的机器学习应用,推出了开源项目 Occlum,用于 Intel SGX 的内存安全多进程用户态操作系统,只需要修改少量代码就能保在 Intel SGX 上运行,且全流程高度透明。

2. 数据交互层面: 安全多方计算

什么是安全多方计算?

图灵奖获得者、中国科学院院士姚期智先生曾于1982年提出著名的百万富翁问题: 两个富翁的财产是1到10之间的证书,如何在不透露自己财产的情况下比较谁更富有?

该问题引发了全世界密码学专家的思考,一个最简单的方式使找一个公认可信的见证人,各方将自己数据给见证人进行比较得出结论,但在现实世界中,很少能找到这样理想的见证人。

如何实现安全多方计算?

在提出该问题四年后,姚期智先生提出了混淆电路解决了这个问题,随后开启了安全多方计算的研究热潮,现如今基于不经意传输、秘密共享等方式提出了BMR、GMW、BGW、SPDZ 等安全多方计算框架,实现了多方联合数据分析、数据安全查询等场景使用。

3. 数据建模层面: 联邦学习

在欧洲 GDPR 条例颁布后,Google 提出了一种新的人工智能建模方案 - 联邦学习。在传统建模过程中,用户数据需要上传到平台服务器端才能进行建模,但是这种数据集中化带来了巨大的隐私风险挑战,于是在联邦学习建模过程中,用户只需要计算本地存储的数据,并将计算的中间结果加密后发送给中心服务器即可完成模型建模和更新。数据不离开设备本地,意味着原始数据所有权被牢牢掌握在使用者手中,实现了真正的隐私安全。

用户日益增长的隐私保护需求需要更高的隐私计算要求。

10月22日,2021杭州云栖大会上,蚂蚁链宣布推出隐私计算协作平台,首次在单个系统中融入隐私计算和区块链技术,帮助政企用户在数据协作、共享过程中一站式使用区块链、数据安全、多种隐私计算能力,在“数据不出域”的前提下完成业务协作。

为什么需要区块链?

隐私计算解决的是“提取数据价值”,和“优秀学生评选”是一个道理。比如,市教育局提出要在全市评选10名优秀学生,主要看综合素质,而不是成绩单项。那各班级老师需要在自己班里挑,再综合与其它老师对比。最终给校长一份综合实力强的学生名单,这是提取价值的阶段。

但是,接下来校长要把这份名单交给教育局做评审。那么问题来, 教育局如何相信这份名单的真实性?以及如何判断这是众多老师共同选出来的结果。那这就需要区块链,老师评选的过程通过区块链记录存证,校长拿到的名单进行再确权,表明这份名单是多个老师共同的结果。当再流转到教育局时,能够清晰看到所有权是各个老师,而不是校长。

可以看到,区块链起到的作用是“流转价值”。

隐私计算技术只能保证使用过程中不可见,但无法恶意方进行识别和溯源。通过区块链技术,能够保证各节点的数据目录标签进行上链,链上流转的数据标签形成数据目录上链,任何对数据的使用通过对数据目录来确定数据来源和数据使用权限。

另一方面,通过链上可信身份,链上可信授权,链上业务模型流转和数据运算结果传输,保障链上数据使用的公开透明,流程清晰。

基于此,Nature 今年刊登了一篇 FL + 区块链的《Swarm Learning for decentralized and confidential clinical machine learning》

该论文提出的 Swarm learning 使用开源的以太坊作为底层区块链平台,通过区块链机制交互,维护模型的全局状态信息和进度信息。通过去中心化的 Swarm learning 建模方法,在大型医疗数据不离开数据所有者本地、不需要用户间进行数据交换的情况下,提供高性能的建模性能,并保证各用户在建模过程中全程透明、可控、安全以及公平。

除了学术界的探索,工业界也开始考虑区块链与隐私计算技术的结合。

蚂蚁链基于区块链+隐私计算新架构推出全新区块链网络平台FAIR,在FAIR上,隐私计算将在出厂设置中就与区块链一起融合到单个系统内。多方写作通过智能合约驱动,数据流转由隐私计算引擎解决,并通过区块链授权。该平台底层为CFCA安全认证安全计算硬件,全同态硬件加速提升百倍以上性能。

数据多方协作与流转已成趋势,隐私计算技术在加密状态下对数据进行计算和分析,实现了数据价值的提取;区块链技术分布式记账、可追溯的特性为数据价值的转移提供了必要的基础。但是,隐私计算和区块链不能是“两套系统”,不是简单的1+1组合问题,实现数据价值的转移需要面向数据全生命周期来思考。

在数字社会中,如何保证数据跨机构流通与协作使用全生命周期的合规和安全成为了数据要素市场建立的必解问题。将区块链和隐私计算进行深度融合的蚂蚁链平台,将为进一步建设高效、高安全和高流动性的数据要素市场打下坚实的基础。


user avatar   asura-3-28 网友的相关建议: 
      

这个隐私泄露问题现在是常态化了,可你要是狠得下心,也不难解决。

弃用智能手机,一了百了。

我不是让你肉身弃网,你还可以用PC机来工作社交玩耍的,PC机现在的安全环境好的不要不要的。

去年我买了新电脑,到现在正好差不多一年,当时买来我就问过专门搞网络安全的熟人装个什么杀毒软件好。

人家说,但凡我不拿电脑上乱七八糟鸡贼小网站,不下载三无软件,用系统自带的就成,没人惦记我个小老百姓电脑里内点小隐私。

一年过来了,熟人诚不我欺,我自己也发现了,现在的PC环境简直奏是个乌托邦,三百多天以来别说中毒,连个恶意插件都没给我贴过。

这要是换了十年前?好家伙,别说不装杀软,哪怕你偷懒了病毒库一个月没更新,内帮满网散毒的货能让电脑开机比剖腹产都费劲。

隐私就更别提,盗号比夜里盗汗来的都频。

所以时至今日,PC一般老百姓的个人电脑安全环境,已经无限接近于极乐净土。所有跟安全相关的隐患,集体掉头奔着手机去了。

能保证不用手机,就能保证你在互联网世界千里不留行,隐患全铲平。

原因有很简单。

现在个人信息的商业价值,已经全部在移动端汇集了。PC功能再强大,一台机器对应了多少用户,用户有什么特征属性,脸长的什么样,去过什么地方……这些信息不太能采集到。

黑客再牛,偷偷用户账号资料,种种木马,这就到头了。

而智能手机不同,智能手机一机对应一个人,也就是一组个人资料库。

加上智能手机都有定位系统,人在哪,机器跟哪,行程容易掌握。加上摄像头越来越清晰,但凡信息采集方有诉求,连脸上几个痦子都能看的真真的。

所以在当代,你以为手里一个半斤重的小玩意装下了整个世界,其实反过来也成立:

世界也能通过这个窗口,偷窥你的一切。

还有一点不容小觑的是,在移动互联网,正在把隐私泄露合法化,以及半公开化。

从去年起就有一大堆这种新闻,你一看惹祸的主,真不是什么小作坊,也不是黑客组织。

是有头有脸的内些大厂。

前段有一出某某软件全天24小时监控用户行程,叫用户给发现了,姑且不提安全问题,光是全天定位费的内些电,我都心疼。

还有一挺有名的社交APP,没事就爱读取用户相册信息,一读就是一分钟,敢情偷摸翻相册这事,是真的上瘾。

照实说,我是更愿意相信这些大厂,就算是获取用户隐私了,他也不太敢胡来,这要惹出事来,市值腰斩他自己顶不住的。

他们只是获取精确的用户画像,然后做做定制化的服务推送啦,基于兴趣的广告送达啦,最下三滥也不过大数据杀杀熟。

这都是能承受的,因为这些都是机器算法使然,机器算法是基于法律之内的东西,太出圈的我借他个胆子他也不敢干。

他真干了,我就差不多财务自由了。

但,机器之外还有人的作用,多高大上的公司里也难免出俩人渣不是么?

咱以前看新闻里内些一怒之下把企业数据清空的,这都算客气的,因为他们起码没给用户造成损失,哭的只是老板。

最损的是把用户信息打包卖的内帮人,从公司到用户谁都不知道,就光是黑产链条上的贼人们有渠道买,找对了地方买一手资料,那是按T批发的。

凡是接到过诈骗电话,能说出来你网名电话,甚至报身份证号的,基本可以确定,你的信息已经是批发市场里边的一块肉了。

还有一种形式,就是你以为你在手机上没干嘛坏事,其实隐藏的链接已经把你信息给授权出去了。

这种常发生在乱七八糟的贷款或者保险领域,最经常受骗的是老头老太太,手不稳,一哆嗦点个啥,五分钟之后电话就进来了:

“叔,想你好久了叔,咱这现在有个活动倍儿实惠……”

就很烦躁。

我爸以前总说我,没事给他们老两口子一人配个苹果没有必要,怪糟践钱的。

我其实就是看中苹果的系统略微严谨这么一点点,他们少接几个忽悠电话,我就少解释几通,就当花钱买心静了我。

所以,大数据之下,其实你我在技术大拿和数据高地占有者看来,全都在裸泳,打算保护信息安全,得做到的第一点:

别轻信任何人。

不光是网上认识的人,包括现实中认识的人,跟你说任何离谱但能占便宜的事,都别信。

熟人确实不会诈骗你,但万一他也是被人诈骗的呢?

天下没有白来的便宜,双十一买管牙膏打算便宜两块三,还逼着我在店铺里头尬玩一顿小游戏呢……抄起来就几万几十万的白送可能嘛?电话内头是耶稣下凡了不成?

二一个,能不给授权的,就别给授权。

现在网上尤其有些小程序,屁大点事巴不得叫人把家谱从清朝开始就给他抄上,就很离谱。

总有朋友小窗我,什么帮孩子投个票,什么买东西打个折的,让我去点赞,我一点开程序,要手机号,这时候我都返回头找朋友,问问他这一刀能砍多少钱。他说二十,我就发个二十红包过去。

花钱买个安心,我不想授权以后转天十里八村电线杆子上贴着治疗奇奇怪怪病的广告上,都留着我电话和我傻乐的相片。

三一个,最惨最惨,你要是让人给卖了,也得知道是谁卖的。

我从早年间就有个习惯,去什么地方办业务得留名留电话的,我都变着花样留不同的。

比如超市有活动我留名字,就留张超市;书店有活动,就留李书屋;饭馆有活动,就留王饭局。

这样,只要有推销电话打进来,一念我名字,我就知道是谁把我便宜卖了,百试不爽。

往未来展望呢,对隐私保护这块,有俩利好。这也是我刚搜来的两个比较大的动静,简单描述一番。

头一个是法律层面的。

从11月份开始,“个人信息保护法”就开始生效了。

里边比较明确的内容是,再有APP让你给他额外的个人信息授权,你可以拒绝,拒绝了他也得让你用;其次,主要是针对大数据杀熟这块,明文规定不能因为用户信息维度有差异,就区别对待。

这俩应该是咱日常最困扰的问题前两名,在今后你不想告诉外界的可以不告诉,不改白花的冤枉钱也不用花了。

二一个是技术层面的。

个人信息背后是平台

蚂蚁链在前些日子的云栖大会上公布了他们区块链的一个新升级,升级以后成了个新平台,名字中听叫个“FAIR”。

这个平台呢,他不再是把隐私安全当个业务做了,而是技术下沉,直接把隐私安全变成个原生能力。

技术语言咱描绘不精准,大概就相当于你手机出厂时,这个FAIR的隐私计算就跟区块链一起,集成在手机里头了。

也就是说,隐私计算分析出哪些数据有价值,区块链再进行全生命周期的确权,保证从哪儿来、到哪儿去的链路是可信的,同时叠加安全风控

我按照自己理解举个不恰当的例子啊:

现在没有保护的数据,在传输过程中,相当于你买的快递都是透明塑料袋包装的,你买了啥,送到哪,多少钱买的,所有中间环节都能一目了然。各种APP就是中间环节。

但有了这个加密以后,相当于这些快递都会分门别类的,在一个黑箱里进行运输,各个节点纵有千般本事,也看不穿究竟。

至于有人会问,区块链本身的安全系数如何?

区块链本身就是为安全系数而生的谢谢,上链以后分布式记账,可追溯等特性,能确保信息得到“公开化的私密保护”。

结合上边法律和技术的双重手段,我个人觉得,这种基于区块链的隐私计算,更像是面向法律的技术补充。

最终要的结果仍然是每个社会公民的合法信息安全得到保护,技术由人发明,普及到社会,最终的获益者仍然是人。

这正是人本主义科技观的一个实操案例。

由此我们感受到的,随着科技进步我们的生活正在一步步把以前的互联网残痈逐个解决掉,整个社会在走向秩序。

当然,我相信新的秩序之下仍会有新的问题产生,可这也恰恰是科技继续进步的动力。

先把眼前的做好再说后头吧!




  

相关话题

  如何评价三星发布官方公告称爆炸 Note 7手机系外因造成? 
  哪个城市被称为印度硅谷,为什么? 
  2018 年高考录取分数线陆续出炉,有哪些看点与趋势? 
  如何看待安卓手机经历14年性能翻番一万多倍? 
  如何评价 5 月 19 日发布的华为 FreeBuds 4 ?有哪些值得关注的信息? 
  如果说日本的教育是也偏向应试的,那么为什么日本有自然科学诺贝尔奖而我们没有? 
  如何看待Google Play要求八月份起新应用须打包为AAB格式?对鸿蒙的发展有哪些影响? 
  如何看待很多人曾言之凿凿「买办企业不会被制裁」的小米被美国制裁? 
  为什么安卓的手机越用越慢,刷机也不行,是 CPU 老化吗? 
  如何看待台积电 2nm 制程研发取得突破,将切入 GAA 技术? 

前一个讨论
如何看待与评价 AAAI 2022 的录用结果?
下一个讨论
微信可直接打开淘宝页面并用支付宝完成支付,各大互联网平台互联互通要实现了吗?





© 2024-12-18 - tinynew.org. All Rights Reserved.
© 2024-12-18 - tinynew.org. 保留所有权利