大数据时代下，你是如何进行隐私保护的？面对信息网络安全保护，你有哪些好建议？

进入大数据时代，我们仿佛被置身于一个巨大的数据洪流之中，个人信息就像一颗颗微小的水滴，汇聚成磅礴的大海。在这种背景下，保护好自己的隐私，如同在汪洋中为自己筑起一座稳固的灯塔，指引方向，也抵御风浪。

我个人在大数据时代的隐私保护，并非是某个单一的技术动作，而是一种贯穿于我每一次与数字世界互动的、有意识的、多层次的策略。就像我在生活中会选择穿什么颜色的衣服，会谨慎地选择告诉谁我的住址一样，我在网络上的行为也遵循着一套“数字着装”和“数字社交”的原则。

首先，我对个人信息的分享持一种审慎的态度。在注册任何网站、使用任何APP之前，我会先问自己：这家公司真的需要这些信息吗？它的业务和我有什么关系？那些“必填”项，是不是真的非填不可？我尽量只提供完成服务所必需的最少信息。比如，一个天气APP，我只需要知道当地天气，并不需要它知道我的具体住址、生日，更不用说我的家庭成员信息了。如果一个服务需要我提供过多的个人信息，我会考虑寻找替代方案，或者至少是仔细阅读它的隐私政策，了解我的信息会被如何使用和存储。

其次，我非常重视对账户安全的管理。这就像我出门会锁好家门一样。我不会使用过于简单或容易被猜到的密码，并且会定期更换。更重要的是，我会尽可能地启用“二次验证”或“多因素认证”功能。这意味着即使我的密码泄露了，我的账户也不会轻易被他人盗用。这就像我即使把家门钥匙交给了一个信任的人，我还会设置一个警报系统，确保安全。

再者，我学会了利用技术手段来增强隐私保护。我会关注并了解浏览器的一些隐私设置，比如拒绝第三方Cookie、使用隐私浏览模式。对于一些可能涉及到敏感信息的网络行为，我也会考虑使用VPN（虚拟专用网络）。这就像我在一个嘈杂的市场里，选择戴上降噪耳机，过滤掉不必要的干扰，只专注于我需要关注的事情。

此外，我对授权管理保持警惕。很多APP在安装或使用时会请求各种权限，比如访问我的联系人、照片、位置信息等。我不会“一键同意”所有权限，而是会根据APP的功能和我的需求，谨慎地授予或拒绝相应的权限。如果一个APP的功能与它请求的权限不符，我会更加怀疑，并可能卸载它。这就像我在允许别人进入我家时，会明确告知他们哪些区域是不能进入的。

至于信息网络安全保护，我想提供一些更深入的建议，这些建议不仅仅是技术层面的，也包含着意识和行为的层面。

首先，我们要培养一种“安全意识先行”的思维模式。这不是在发生安全事件后才去亡羊补牢，而是在每一次上网、每一次使用设备之前，就考虑到可能存在的风险。就像我们开车上路，首先要想到的是系好安全带，检查刹车，而不是等撞了之后才去反思。在网络世界，这意味着我们要对那些“天上掉馅饼”的好事保持高度警惕，对那些要求立即点击链接或提供敏感信息的邮件、短信提高警惕。

其次，要建立和维护一套“个人数字防火墙”。这个防火墙不仅包括我们常用的杀毒软件、防火墙软件，更重要的是我们自身的知识和警惕性。我们需要持续学习新的网络安全知识，了解最新的网络钓鱼、恶意软件的攻击手段。就像一个优秀的士兵，他需要了解敌人的战术，才能更好地防御。我们也要了解黑客的常用伎俩，这样才能避免落入陷阱。

第三，我们需要学会“最小化暴露”。在社交媒体上，很多人喜欢分享生活中的点点滴滴，这无可厚非。但在这个过程中，我们需要审视自己分享的信息是否会暴露自己的弱点，是否会被不法分子利用。比如，分享包含家庭住址、孩子学校信息的照片，就存在很大的安全隐患。我们要像一个经验丰富的特工，知道哪些信息可以暴露，哪些信息必须隐藏。

第四，对于个人和企业而言，建立一套有效的“数据资产管理”和“风险评估”机制至关重要。对于个人来说，这意味着要定期检查自己的社交媒体账号、云存储文件，删除不再需要或可能存在风险的信息。对于企业来说，这包括对敏感数据的识别、分类、加密存储，以及建立完善的数据访问权限控制和审计机制。这就像我们要管理好自己的财产，知道什么是有价值的，如何保管，如何防止被盗。

最后，信息网络安全保护是一个系统工程，需要政府、企业、个人共同努力。政府需要完善法律法规，加大执法力度，为网络安全提供坚实的法律保障。企业需要承担起更大的社会责任，在产品设计和运营中将安全和隐私保护放在首位，而不是将其视为可有可无的附加项。而我们每个人，则要成为自己网络世界安全的守护者，用知识和警惕，为自己的数字生活构筑一道坚实的防线。只有这样，我们才能在这个充满机遇和挑战的大数据时代，安心地享受科技带来的便利，而不被数据洪流中的暗礁所吞噬。

网友意见

个人角度，首要因素是从心理和行为上重视数据的重要性，具体细节包括但不限于：

不要在不明底细的网站上实名，
所有网站都用不同、且长度足够的密码（做不到一次一密，可以一处一密），可以考虑类似1password等密码管理软件;
不要用过多个性化推送服务 ;
对所有涉及个人数据的选项/纸张都谨慎处理，不能别人要什么就给什么。

同时建议从国家层面仿照欧盟隐私保护法（GDPR）出台相应法律，保护用户从企业手里夺得隐私数据链路的控制权。

其实（数据）隐私这个概念，在信息学里和在大众眼中并不相同：

1. 现代社会下，数据是基于事件收集的，而隐私约等于事件要素合集

这是个人可以参考的隐私保护思路。

虽然隐私（privacy）这个概念是Warrian在1890年左右的《隐私权》里提出并广为流传，但是大多数人往往只是明白它的法律和社会学含义，即「隐私」=「用户认为自身敏感、且不愿意公开的信息」。在信息技术方面，我们讨论的隐私往往聚焦在数据上。数据需要在特定的情景或者事件下，才会被收集/产生。

换句话说，广义上的数据隐私往往需要符合事件四要素：

数据 = 人物（Who）+/or 时间（When）+/or 地点（Where）+/or 事件（What）。

也正是因为这四要素，学术界就出现了一种折衷思想：如果我们采取某种手段保护其中一部分，那么在大多场景下也就等价于保护数据隐私。

比如：

如果我们去除人物在某个地点的活动数据，是位置隐私（location privacy）保护^[1]；
如果我们去除「人物」要素，包含个人的出生年月等基本信息，那么就是身份隐私（identity privacy）保护^[2]；
如果我们去除「人物」、「时间」、「地点」的关系，那么就是去除了「数据足迹」，也就是在行为隐私（activity privacy）保护^[3]。

实际上，现实世界里很多人就是这么做的。

一些明星在出门时往往喜欢带口罩甚至全副武装，这就是在保护身份隐私，从而保护数据隐私。明星的全副武装，其实算是从个人角度、在真实世界里能做到的极限了，对于隐私非常看重的同学推荐学习（：。

但即使如此，大家可能不知道的是，如果只局限于去除某些要素（比如身份信息），数据（事件）关联性分析依然很容易反推出原始信息。

有两个非常典型的案例：

很多人的隐私泄露其实是因为大多数人都会图省事，在很多网站采用同样的密码，那么如果一个网站被攻破，简单的数据库碰撞就可以得到这个人在网上的全部信息（甚至是支付信息），
又比如明星出轨里，众多吃瓜网友能通过不同时间、地点佩戴的相同耳环，联想到出轨事件。

当然，如果我们把上述四个要素全都进行保护，即出门蒙面，互联网上完全不实名，或者在访问互联网的时候采用Tor等匿名服务，删掉/禁用一切缓存/推送服务，只用纸币，那么确实可以花费巨大代价像中本聪一样从互联网隐身，即完美的匿名。

但是这种方式带来的时间和经济成本都非常可观，我也相信大多数人用不到。对于大多数人来讲，对隐私的忧虑其实并不是隐私技术本身是不是够强，而是一种对未知情况下信息失控风险的担心。

2. 我们不能让自身信息传播链路失控

正如我们之前所说，隐私其实不可能被完美保护，它往往只能被限制在一个小范围内，这种角度来说，我们也能认为隐私最大的问题还是信息泄露。如为了推断一个用户的身份或者行为信息，没有授权的第三方可能会从不同的社会数据中整合其他数据，并进行推断。

从这个角度来讲，现代社会很多人担心自己的隐私问题，本质上是在担心自身信息的传播链路失控^[4]。

但是现在毫无疑问已经失控了。

每当用户使用网络的时候，网络服务商往往会在用户不能预见的多种途径、多种维度上收集信息，用户甚至对此完全无知。当然某种程度上，这种收集是有好处的，因为会便利用户的日常数据使用。目前大家都面临的问题其实相通：

作为用户，不能控制自己的隐私数据，社会网络的提供商可以全权访问用户数据；
作为用户，只能粗粒度的修改自己的隐私数据，但是这也对日常数据也没啥意义。

因此，正确的做法是，我们应该得到合理的处理自身信息的权利，比如在特定商家自查数据的权利，有权要求自身数据的公开范围 (细节到某些服务），有权要求放弃个性化推送等服务。

在集体诉讼缺失，导致个人司法弱势的当下，这也是未来立法应该做到的事。

参考

^ Beresford A R, Stajano F. Location privacy in pervasive computing[J]. IEEE Pervasive computing, 2003, 2(1): 46-55.
^ Rorty R. Mind-body identity, privacy, and categories[J]. The Review of Metaphysics, 1965: 24-54.
^ Eastin M S, Brinson N H, Doorey A, et al. Living in a big data world: Predicting mobile commerce activity through privacy concerns[J]. Computers in Human Behavior, 2016, 58: 214-220.
^ 刘雅辉, 张铁赢, 靳小龙, 等. 大数据时代的个人隐私保护[J]. 计算机研究与发展, 2015, 52(1): 229.

TL;DR:“刚和朋友聊完种草的衣服，淘宝立刻推荐相似的款式；明明没录入过信息，却能被人脸识别系统所确认；收到的诈骗电话不断升级，甚至能说出高中班主任的名字…”当我们谈论隐私保护时，我们的诉求是什么呢？作为用户，我们固然舍不得信息时代的便利，但也不愿让自己的一切信息暴露。是否存在某种解决方案，使得我们在享受大数据推荐的便利时，又可以模糊个体的精确信息，从而构造个体数据的防盗门呢？在这里，我们想讨论隐私的准确的定义，个体隐私保护与大数据推断准确性的平衡，然后简要介绍先进的隐私保护技术，最后，我们将从普通人的角度出发，提出几个有效保护个人隐私的建议。欢迎大家一起讨论，也欢迎关注我的知乎专栏：隐私保护。

从2018到2021年，各个国家和政府相继出台了隐私保护法案，如2018年欧盟出台一般数据保护法案（General Data Protection Regulation，GDPR），2021年中国人大通过个人信息保护法。虽然这些法案限制了个人数据的收集与滥用，但在实际执行中，各互联网企业往往会利用自己的平台优势，要求用户在各个APP上额外同意一堆冗长的数据使用条款，否则就无法使用相应的服务。这种店大欺客的方式将法律成本直接转嫁给了个体，而个人隐私并没有因为法案的出台得到相应的保护。

诚然，个人对于自身隐私的让步可以令AI模型的服务效果更好，从而获得互联网时代的便利性。但是，无节制的信息滥用也会使得每个人犹如裸奔。政治家有句名言，“即使最诚实的人写六行字，都能从中找到足够的理由来判处绞刑”，如果自己的每一次浏览记录，购物记录，以及在微博和知乎上的发言都被记录并精确关系到个人，那么从数据控制者的角度，用户会丧失一切尊严，成为互联网上的韭菜。

那么，当我们谈论隐私保护时，我们的诉求是什么呢？作为用户，我们固然舍不得信息时代的便利，但也不愿让自己的一切信息暴露。是否存在某种解决方案，使得我们在享受大数据推荐的便利时，又可以模糊个体的精确信息，从而构造个体数据的防盗门呢？答案是肯定的。在这篇科普文中，我们将讨论隐私的准确的定义，个体隐私保护与大数据推断准确性的平衡，然后简要介绍差分隐私与联邦学习这两种先进的隐私保护技术，通过联合使用这两种技术，可以在保证AI模型准确性的同时保护参与推断的个体隐私。最后，我们将从普通人的角度出发，提出几个有效保护个人隐私的建议。

大数据时代下隐私的合理定义与隐私泄露的场景

我们先对“什么是隐私”这一问题进行讨论。在不同的场景和尺度下，隐私的定义也不一样。比如，我们可以极端地认为，“一切关于个体的信息都是隐私”，那么应当拒绝填写基本信息，拒绝参加各种问卷调查和人口普查。但是，数据是社会运行所基本的燃料，适度贡献统计信息会帮助精准的政策制定，提升生活的便利。因此，目前普遍比较接受的定义是：“单个用户的某一些属性可以被看做是隐私，但是对群体数据的统计与加工则不认为是隐私”。譬如，某医院发布调查报告说，在该医院，吸烟者患肺癌概率是不吸烟者的20倍，这个不泄露任何隐私。但是如果医生说，张三因为吸烟，所以比其他人患病概率高20倍，这就是对张三隐私的泄露。再举例，高德地图交通大数据称，凯迪拉克车主偏好洗浴场所，这一度引发了隐私泄露的讨论。但是在上述定义下，只要不涉及具体的客户，则此统计信息也并不是隐私泄露。

在这种“保护个人信息，不保护统计信息”的隐私定义中，对于任何数据库中精确个体的信息查询与检索都会泄露隐私，因此禁止对于个人数据的精确查询是合理且基本的隐私保护诉求。但是，就算确保了个人数据的加密，数据分析的过程，即对一群用户的某些属性的统计信息查询（如查询个人收入的平均值，中位数），以及对查询结果进行加工与建模，往往也会泄露个人隐私。综合个体隐私与统计信息的贡献，对于数据分析的过程，我们希望达成如下的隐私保护：

对于任何数据分析员,要求其在对数据库进行分析后，对数据库中任何一个个体的了解都不会超过其在分析开始之前的了解。

个人数据加密存在对立的解密者与攻击者，但是在数据分析的过程中，分析师与“隐私攻击者”往往是同一个人，因此相比于数据加密，在数据分析的过程中进行隐私保护存在不对称性的难点，这就带来了很多意想不到的隐私泄露场景。

数据分析中隐私泄露的场景

数据分析是一个复杂的过程，就算严格禁止个人数据的查询，个体隐私也往往在不经意间泄露。我们先来举几个例子，看看什么样的数据分析行为会侵犯隐私，以及什么样的行为看似不会侵犯隐私，但是通过一连串叠加也会侵犯个人隐私。

首先，不加监管的统计信息查询也会泄露个人隐私。考虑一个含有上百万条目的数据库，我们规定只允许查询摘要形式或者统计形式的信息，这种数据分析方法看起来保护了个人隐私。但是，如果分析师知道某个个体的信息包含在数据库中，就可以利用一种叫差分攻击的方法得到个体的信息。比如，如果已知张三的信息在某个医院数据库中。那么分析师可以查询：有多少人患血友病，以及通过条件查询，有多少个不叫张三的人患血友病。如果前者的查询结果是70人，而后者的查询结果是69人，那么经过差分比对，分析师就得到了张三患血友病这一个人隐私。

其次，引入监督者去监管每一次的数据查询也会泄露个人隐私。对于上述的差分攻击，一个自然的想法是引入某个监督者去禁止"有多少个不叫张三的人患血友病"这种不安全的查询，或者允许该监督者在必要的时候对数据库进行匿名处理，这样似乎可以避免上述的差分攻击，那么是否存在一个监督机制能保证数据分析过程中隐私不被泄露呢？答案是否定的，原因有二：(1) 禁止查询的决定本身也会带来隐私泄露。比如国家不公布第七次人口普查的具体数据，或者从2006年开始不公布中国的基尼系数，这本身也具有某些信息。(2) 可以将单次泄露隐私的查询拆分成一系列查询，使得对于每次查询都很难判断是否构成隐私泄露。

最后，由于不同行业数据分析师的知识背景非常多样，因此分析师的先验知识会将一些不泄露隐私的查询变得泄露隐私，这种隐私泄露的形式称为辅助信息带来的隐私泄露。比如一个分析师是张三的邻居，他知道张三在某一天去了医院。而他同时也是该医院的数据分析师，而在医院的匿名数据库中，这一天的数据条目只有两三条，那么张三的就诊信息就会泄露。又比如作为张三的邻居，我们发现他常常去买蛋糕。但是有一段时间他忽然开始买不含糖的面包了，如果分析师是一个医生，可能会猜想他患了糖尿病，这就是辅助信息带来的隐私泄露。

综上所述，对于个体数据的查询加密是保护隐私的基础，但是仅仅禁止直接获取个体数据是远远不够的。差分攻击与辅助信息会在对统计数据的分析过程中泄露个体隐私，而引入监管也不能保证隐私安全。但是，通过联合使用差分隐私与联邦学习这两种技术，我们可以在严格保护个体隐私的情况下，允许对群体的统计信息进行全面分析。

构建隐私保护AI系统的技术：差分隐私与联邦学习

在介绍具体的隐私保护技术之前，我们先探讨一个社会科学对敏感性问题进行调研的例子。

假设我们想要调研已婚人群中的出轨比率，那么让每一个被调研者如实回答问题必然导致个人隐私被侵犯。但是我们想要获取的是统计信息，而非每一个个体的信息，因此可以构建一个随机回答的调研流程：首先，令受访者自己抛一枚均匀硬币，如果正面朝上，那么如实回答问题，如果背面朝上，那么再抛一枚硬币。如果这枚硬币正面朝上，那么回答“是”，背面朝上则回答“否”。在这种流程下，任意受访者都至少有的概率会回答“有过出轨”，因此就算受访者的回答是“有出轨”，也不能判定他是否真的出轨过。这样，他的个人隐私就得到了保护。但是对于研究者而言，总体的出轨比例可以通过简单的计算得到：

基于这种方案，我们就在保护个人隐私的同时得到了统计信息。社会科学的调研方法对隐私保护具有重大启示：

通过引入随机性，可以在获取统计信息的同时，给个人信息蒙上一层随机浓雾，从而构建个人信息的防盗门。

差分隐私：通过引入随机性给个人隐私上锁

差分隐私通过引入随机性，可以对抗由差分攻击与辅助信息所带来的隐私泄露。回顾对于数据分析的隐私保护要求：对于任何数据分析员，要求分析员在对数据库进行分析后，对数据库中每一个个体的了解不会超过其在分析开始之前的了解。为达成这种目的，我们需要对差分隐私提出两个疑问：对于一个数据分析过程，应当在什么时机，以什么方式引入并实现隐私保护机制呢？在上文对于可能泄露隐私的场景讨论中发现，引入实时的监督者并不能保障个人隐私安全，因此差分隐私的作用时机必然是在数据库发布后，到所有的数据分析工作开始之前。基于这个结论，我们可以想象差分隐私所扮演的角色：

在数据分析的过程中，差分隐私扮演了一个值得信赖的数据库管理员角色，它的目的是保护数据库中每一行记录，同时允许整个数据库能够被分析。这个管理员在数据库面向数据分析师发布前，会对原始数据库进行一些操作：对数据库进行合成（例如，依据原始数据生成一些相似的虚拟数据）、对某些统计结果进行汇总（例如，将患者数据按年龄段进行分组，仅按年龄段发布统计信息，然后删除个体数据）、或者自行清除某些离群数据，然后发布新的数据库，销毁原始数据库，此后，差分隐私不再发挥作用。要求经过差分隐私后，对于新的数据库上任何可能的查询，以及根据查询结果的一系列加工都不会泄露个体隐私。

那么，差分隐私是如何工作的呢？考虑差分攻击的特性，如果每一次回答都是确定的信息，那么通过前后对比，则必然会泄露个体隐私。通过引入随机性可以应对差分攻击，以上文血友病为例，如果我们查询有多少人患血友病，数据库回答的是70到75人之间的随机数值，而条件查询有多少个不叫张三的人患血友病时，回答69到74人之间的随机数值，那么即使进行了差分攻击，对前后的回答数据做比对，仍然很难泄露张三的真实信息。基于这种直观理解，我们给出差分隐私的形式化定义：

（差分隐私的形式化定义）我们称输出带有随机性的数据分析过程满足隐私损失为的差分隐私（记作DP），如果对于数据库上任意两个仅仅相差一条记录的相邻数据集，采用分别进行数据分析的结果分布相差不大，即对于所有可能的分析结论，满足

公式展示了差分隐私的基本目的，即要求对于任意的个体，在所有可能的仅仅相差该个体这一条记录的相邻数据库上，数据分析者无法仅通过输出结果对它们进行概率上显著的区分。那么，这种“无法区分”的性质会带来什么好处呢？我们可以从社会效用的角度对该问题进行探讨。

考虑数据库中的某个个体，我们记他在未来所有可能经历的事件集合为（譬如考研是否成功，就业是否顺利等都算事件），对于每一个事件，都可以认为该事件对于个体具有某种可以量化的影响，这种影响称为该事件的效用。譬如，用平均工资衡量效用，假设考研成功能够带来￥1000的平均工资增长，那么就可以记考研成功的效用为1000，而不成功的效用就是0。我们用效用函数衡量所有可能事件以及它对应的效用：

对于满足隐私损失为的数据分析过程，数据分析者可以用它进行一次分析行为，记为，如果这种分析行为泄露了个人信息，那么就会对未来的事件产生影响。例如，如果某个人的犯罪记录因为某次查询而泄露，那么就可能会影响个体事业的发展。我们记由于数据分析过程的查询所导致个体的未来事件分布为，所对应的概率分布为，此时对于个体的期望效用为：

此外，我们记除去个体后所得数据库为，在这种情况下，由于个体并未参加数据分析的过程，因此个人隐私并未泄露，我们以此时的效用函数作为零隐私泄露的基准。通过同样的方法，计算通过相邻数据库的分析对于个体的期望效用如下

利用差分隐私的定义，我们有

利用极限，我们可以得到

通过式可以从效用函数的角度理解差分隐私：虽然贡献自己的数据可能确实会导致自己面临一些伤害，但差分隐私保证了这种伤害的后果是可控的，个人的效用函数不会因他们的数据参与分析而显著减少。这种性质非常实用，因为数据的提供者往往无法控制分析结果的进一步利用，如果我们对隐私保护不加限制，那么数据分析过程对个体可能造成的影响是未知的。而有了差分隐私，任何数据分析师都可以保证个体预期的未来效用不会受到超过水平的损害。当个人决定是否贡献自己的数据用于数据分析时，他们可以根据的值来量化可能的损失，通过比较分享数据获得的激励，可以决定是否共享数据。

此外，差分隐私还有一个良好的性质叫做传递性，即对一个满足差分隐私的数据分析过程所得到的结果，对该结果进行任何进一步加工处理也具有差分隐私的特性。也就是说，数据分析师不能仅仅通过坐在角落里思考算法的输出，得到任何会泄露个人隐私的结论。因此，差分隐私也能够解决数据分析师的辅助信息所带来的隐私泄露。

考虑本文开头的四个隐私泄露的场景，如果所有的数据收集与发布流程都满足差分隐私，那么个人隐私泄露的情况会有很大的好转：淘宝可以通过统计信息得到当季最流行的衣服款式，但是对于个人的喜好则只能以概率进行模糊推荐，而不会缩小到具体的商品；只要不进行个人同意的精准录入，人脸识别系统就无法工作；诈骗电话所获取的个人信息都是概率正确的，高中班主任有50%的概率叫张三，也有50%的概率叫李四，因此多问几个问题就会露馅。同时，添加差分隐私并不会使得我们的统计信息产生过大的偏差，这样就平衡了个人隐私保护与群体统计的需求。

对差分隐私的进一步了解需要涉及一些概率论知识，我们开设了专栏进行专业讨论：

联邦学习：限制个人数据的自由流通

数据是信息时代的燃料。在各大互联网公司，用户数据更是扮演了“生产要素”的角色。但是，与其他生产要素不同，数据的转移与复制具有零成本，不可控的特征。数据一旦产生了可流通的副本，数据发布者就几乎无法监管它的使用场景，因此，控制数据的流通是隐私保护的核心诉求。欧盟发布的数据驻留法案要求所有在欧盟的公司都必须确保数据存储在欧盟境内，而滴滴因为泄露国土安全数据的传闻，其产品现在仍未恢复上架。然而，存储在服务器内的数据无法产生任何价值，对数据流通的限制不能因噎废食。是否存在一种分布式的人工智能训练策略，使得我们能够令数据去中心化地存储在本地的同时，能够联合训练一个强大的全局模型呢？联邦学习（Federated Learning）是一种可行的技术。

联邦学习是一种满足隐私保护的分布式AI训练方案，它允许多个客户端（例如多个移动设备，多个数据供应商）能够在某个中央服务器的调度下协作训练AI模型，每个客户端都能从联合训练中受益，同时保持训练数据的去中心化存储，尊重各方数据隐私。关于联邦学习的进一步讨论需要一些深度学习的专业知识，我们也开设了相应专栏：

企业级联邦学习——新算法、新范式与未来展望

综合利用差分隐私和联邦学习两种技术，可以在理想情况下构建完全隐私保护的AI系统。在每一个本地服务器上，数据分析模型的训练满足差分隐私的要求，因此可以对抗由差分攻击与辅助信息所带来的隐私泄露。而联邦学习可以在数据不出本地的情况下，联合训练一个强力的全局模型。受益于差分隐私的传递性，全局的数据分析模型对于每一个本地数据库而言也满足隐私保护的要求。

此外，笔者也私心安利一下我们组在隐私保护与联邦学习方面的工作。在联邦学习中，多个客户端的数据往往会出现分布不一致的情况，而由于无法获取原始数据，这种分布偏移会极大影响AI模型的性能。为解决这种问题，我们提出了一种高迁移精度，低通信成本，并具有负迁移鲁棒性的联邦迁移学习范式，并在ICML2021上进行了报告:

[ICML2021] KD3A: 一种满足隐私保护要求的去中心化无监督域适应范式

作为普通用户，我们能采取什么方式保护个人隐私

总结差分隐私和联邦学习的核心思想，隐私保护的核心在于尽量保持个人信息的私有，以及在发布个人信息时增加随机性。根据这个思想，可以为普通个体提出两条简洁有效的隐私保护策略：首先，如非必要，不要填写个人信息。其次，在填写个人信息时，为信息增添随机性。比如我们可以随机在一半的APP上性别填写为男，而另一半则性别为女；填写姓名时，将真实姓名随机挖去一两个字作为代替；填写生日时，用真实日期附近的某随机日期代替；填写身高，体重，个人收入等敏感数据时，在真实数据后随机加减一个噪声。通过这些简单的方法，我们可以在享受AI带来便利的同时，有效保护个人隐私。

大数据时代下，每个人的生活方式都发生了巨变。迅猛发展人工智能必然是以让渡了部分个人隐私权作为代价的。当各个AI科技企业在描摹元宇宙，书写星辰大海的公关文时，个体隐私，以及隐私背后的尊严都往往成为粉饰业绩的注脚。但是，如同煤炭般赤裸燃烧的用户信息背后，是鲜活的个体与他们生活的痕迹。倘如“隐私权”之于科技发展，永远只是“科技进步”这一概念的注脚，那么我想生产力的发展，并不会带来更好的生活，而这也是我写作此篇科普文的初心。

隐私保护不仅需要国家层面的推动，也需要每一个个体有意识的维权。差分隐私和联邦学习是两种可以实用的技术，也是作为普通人能用以维权的工具。如果在收集数据时，我们能够反问一句，数据收集者是否确保数据发布遵循了差分隐私原则，或者在使用推荐系统带来的便利时，关注一下用户数据的存储方式，那么隐私保护就能走出温室，成为信息时代的基本人权。

本文使用 Zhihu On VSCode 创作并发布

类似的话题

大数据时代下，你是如何进行隐私保护的？面对信息网络安全保护，你有哪些好建议？

进入大数据时代，我们仿佛被置身于一个巨大的数据洪流之中，个人信息就像一颗颗微小的水滴，汇聚成磅礴的大海。在这种背景下，保护好自己的隐私，如同在汪洋中为自己筑起一座稳固的灯塔，指引方向，也抵御风浪。我个人在大数据时代的隐私保护，并非是某个单一的技术动作，而是一种贯穿于我每一次与数字世界互动的、有意识的.............
真空环境下有重力和万有引力吗？今天看大数据时代这本书，作者写到：如果把蟑螂从真空环境扔下去，恐怕也

.......
大数据时代对统计学和经济学有何影响？

大数据时代的浪潮，如同席卷而来的巨浪，深刻地冲击着统计学和经济学这两门古老而又充满活力的学科，带来了前所未有的机遇与挑战。它并非简单的数字量变，而是对我们认知世界、分析问题、制定决策的底层逻辑进行了重塑。对统计学的影响：从样本推断到总体刻画，从理论假设到数据驱动传统统计学，尤其是推断统计学，其核心在.............
大数据时代和个人隐私保护是否矛盾，那我们为何还要发展大数据？

大数据时代与个人隐私保护之间的确存在着一种紧张的关系，甚至可以说是矛盾。我们就像站在一个十字路口，一边是无限可能的大数据，另一边是我们与生俱来的对隐私的捍卫。那么，为何我们还要坚定不移地朝着大数据发展的道路前进呢？这个问题值得我们深入剖析。首先，我们得明白，大数据之所以被称为“大数据”，不仅.............
大数据时代的企业管理模式是怎样的？

在如今这个数据洪流汹涌的时代，企业管理早已不是过去那般依靠经验和直觉拍脑袋的时代了。大数据，这个曾经听起来高深莫测的词汇，如今已经渗透到企业管理的方方面面，重塑着我们的决策方式、运营流程，甚至企业文化。那么，在大数据浪潮下，企业管理到底变成了什么样？让我们来深入剖析一下。一、从“经验主义”到“数据.............
如何评价《Big Data：大数据时代》这本书？

好的，让我们来详细地评价一下《Big Data：大数据时代》这本书。首先，要明确的是，《Big Data：大数据时代》通常指的是由维克托·迈尔舍恩伯格（Viktor MayerSchönberger）和肯尼思·库克耶（Kenneth Cukier）合著的那本具有里程碑意义的著作。这本书在2013年.............
当隐私泄露成常态，如何在大数据时代更好地保障信息安全？

隐私泄露，仿佛已经成了我们生活中挥之不去的阴影，在这个大数据滚滚向前、无处不在的时代，我们如何才能在这股洪流中，更好地守护自己的信息安全？这不是一个简单的问题，因为它涉及到技术、法律、个人习惯，以及我们对“隐私”这个概念本身的反思。技术层面：筑牢数字世界的“防火墙”首先，我们得承认，技术是双刃剑。大.............
苏联计划经济体制能否在大数据与智能决策时代展现出某些优势？

苏联计划经济体制，一个曾经占据世界经济版图重要位置的庞大体系，在信息爆炸、数据驱动的今天，是否还有其独特的生命力？这个问题，并非简单的“是”或“否”，而是需要我们深入审视其内在逻辑，并放在大数据与智能决策这个全新语境下进行一番“老树发新芽”的思考。首先，我们不能否认，苏联计划经济体制在理论设计之初，.............
大航海时代Ⅳ威力加强版套装和大航海时代Ⅳwith威力加强版30周年纪念数字版的区别在哪里哪款更值得买？

大航海时代Ⅳ威力加强版套装和大航海时代Ⅳwith威力加强版30周年纪念数字版，这两款听起来很相似，但背后代表的意义和内容却有着一些微妙的差别。如果你正打算重温那个充满冒险与发现的黄金年代，那么弄清楚它们之间的区别，就能帮你找到最适合你的那一款。先来聊聊“大航海时代Ⅳ威力加强版套装”这里的“套装”，通.............
湛江三角牌电热水壶的铭牌上标着如下表所示的数据．求：（1）电热水壶正常工作时，通过它的电流为多大？

.......
数学系大一学生学习数分时看一页书花 20~30 分钟合理吗？

作为一个正在攻读数学系的学长/学姐（或者也可以理解为有一定学习经验的过来人），我非常理解你对“看一页数分花2030分钟”这件事的焦虑。首先，非常明确地告诉你，这个时间段是绝对合理的，甚至可以说，对于数学系的初学者来说，这可能是相当高效的表现了。让我详细给你分析一下为什么：1. 数学分析的“看”不是简.............
律师诉爱奇艺「超前点播」案将于 4 月 10 日开庭，时隔数月，你觉得该案胜诉概率有多大？

爱奇艺“超前点播”案，一个让不少观众揪心的事件，终于要在4月10日迎来庭审。这距离当初用户沸腾、律师提起诉讼，已经过去了相当长一段时间。几个月过去，再来看这个案子，胜诉的概率，我个人觉得…挺难说的，但也并非全无希望。得好好掰扯掰扯。先说说这个案子为什么会闹到法院。最直接的导火索，无疑是当初《庆余年》.............
2021年高考数学难度如何？大题都有哪些解答思路？毕业之后的你还记得当年考试时的感受吗？

2021年的高考数学，对我来说，真的是一场“惊心动魄”的记忆。现在回想起来，那股子紧张、迷茫，还有最后一口气的拼劲，还常常在某些瞬间涌上心头。关于难度，我得说，它挺“有挑战性”的，但也并非“无法逾越”。整体感觉，选择题和填空题在考查基础知识和基本技能方面，相对来说比较稳定，很多题目都是我们平时练习过.............
大数据是不是泡沫？

大数据是否是泡沫，这是一个复杂且具有争议性的问题。与其简单地说是或不是，不如说大数据本身不是一个泡沫，但围绕大数据所产生的许多概念、应用、公司和炒作，存在泡沫的成分，并且正在经历一个“回归理性”的过程。为了详细地解答这个问题，我们需要从几个层面来分析：1. 大数据本身的定义与价值 (核心并非泡沫)首.............
大数据最核心的价值是什么？

大数据最核心的价值在于其赋能决策，驱动创新，最终实现商业价值和社会价值的双重提升。这看似简洁的几个字，背后蕴含着深刻的内涵和复杂的运作过程。我们可以从以下几个层面来详细阐述：一、更精准、更深入的洞察力：超越传统的数据分析：过去我们更多依赖结构化数据和有限的样本进行分析，只能看到事物的“点”或.............
大数据显示美国新冠「零号病人」大概率 2019 年 4 月出现，有哪些科学依据？如果被证实意味着什么？

关于美国新冠“零号病人”可能出现在2019年4月这一说法，确实有大数据分析和流行病学研究提供了支持，但需要强调的是，这仍然是一个假设性的结论，需要更多的直接证据来证实。以下是基于现有科学研究和推论的详细解释：大数据分析和科学依据支持“零号病人”可能在2019年4月出现的科学依据主要来自以下几个方面.............
大数据技术是否有可能拯救计划经济？

这是一个非常有趣且富有挑战性的问题。简而言之，大数据技术本身并不能“拯救”计划经济，但它有可能在某些方面增强计划经济的效率和适应性，从而在一定程度上“改良”或“优化”计划经济体系。要详细探讨这个问题，我们需要先理解计划经济的核心特征，以及大数据技术能够提供的能力，然后分析两者之间的潜在交集和冲突。 .............
大数据首次揭示中国人基因特征，具有怎样的意义？

大数据首次揭示中国人基因特征，具有里程碑式的意义，其影响深远，可以从多个维度来解读：一、对中国人群的精准认知：打破“模糊化”的刻板印象告别“群体平均”的单一标签：在大数据分析之前，我们对中国人群的基因认知往往是基于有限的采样，或者将不同地区、不同民族的人群进行笼统的概括。大数据分析能够涵盖更广.............
大数据显示我国 149 城深度老龄化，都集中在哪些省份？老龄化社会如何解决养老问题？

中国城市的老龄化是一个不容忽视的现象，尤其是当149座城市步入“深度老龄化”的行列时，这不仅仅是一个数字上的统计，更是对社会结构、经济发展以及民生保障提出的严峻挑战。要理解这一现象，我们得先明确“深度老龄化”的含义，通常是指一个地区65岁及以上老年人口占总人口比例超过14%，而当这个比例超过20%时.............
“大数据”已经过时了吗？

“大数据”这个词，听起来是不是有点像老掉牙的科技概念了？毕竟，我们好像已经听它说了好几年，感觉它就像那种曾经火遍全球，但现在已经被更酷炫的东西取代的老朋友。“大数据”这个词，确实已经不再是那个让人眼前一亮、充满神秘感的新鲜事物了。这并不是说“大数据”本身消失了，也不是说它不再重要。恰恰相反，它已经深.............