问题

联邦学习是否有必要学习密码学知识?

回答
联邦学习要不要碰密码学?这是一个好问题,而且答案比简单的是或否要复杂得多。 简单来说,如果你想深入理解联邦学习的安全性,或者想自己设计、优化联邦学习的特定环节,那么密码学知识是很有必要学习的,而且越深入越好。

让我慢慢跟你聊聊这个事。

为什么联邦学习需要密码学?

联邦学习的核心目标是在保护参与方数据隐私的前提下,进行模型训练。参与方(比如你的手机、医院的服务器)各自拥有自己的数据,它们不把原始数据上传到中心服务器,而是只发送经过本地处理的模型更新(比如梯度的变化)。中心服务器再将这些模型更新聚合起来,形成一个更好的全局模型。

听起来很美好,对吧?但这里面藏着几个关键的“坑”,而密码学恰好是填平这些坑的“工具”:

1. 数据隐私保护:
场景: 参与方不希望自己的原始数据被看到,哪怕是被聚合后也很敏感。
密码学的应用:
同态加密 (Homomorphic Encryption, HE): 这个简直是联邦学习里的“超级英雄”。它允许你对加密过的数据进行计算(比如加法、乘法),而且计算的结果解密后,与对原始数据进行相同计算的结果完全一致。这意味着中心服务器可以在不知道任何参与方真实数据内容的情况下,对加密的模型更新进行聚合。想象一下,一个医生把病人的隐私数据加密后,你可以对这些加密数据进行模型训练,而医生完全不用担心你看到他的病人信息。
安全多方计算 (Secure MultiParty Computation, SMPC): SMPC允许多个参与方共同计算一个函数,而无需透露各自的输入。在联邦学习中,这可以用于安全地聚合模型更新,而中心服务器或其他参与方都无法知道每个参与方具体上传了什么。
秘密共享 (Secret Sharing, SS): 将一个秘密(比如模型更新)分割成多个部分,分发给不同的参与方。只有当足够多的参与方合起来时,才能恢复出原始秘密。这可以用来提高聚合过程的鲁棒性和安全性。

2. 模型更新的保密性:
场景: 模型更新本身也可能包含一些关于原始数据的推断信息。即使是梯度,也可能泄露敏感特征。
密码学的应用:
差分隐私 (Differential Privacy, DP): 虽然差分隐私不是严格意义上的密码学,但它经常与密码学技术结合使用,并且属于隐私保护的范畴。通过在模型更新中添加一些随机噪声,使得即使观察到模型更新,也很难推断出某个特定参与方的数据是否被使用过,或者具体是什么样的。
加密梯度: 在上传梯度之前,使用公钥加密,确保只有拥有私钥的中心服务器才能解密。

3. 防对抗性攻击:
场景: 恶意参与方可能会尝试通过发送精心构造的模型更新来破坏全局模型,或者通过分析聚合结果来推断其他参与方的数据(数据投毒、模型中毒、成员推理攻击等)。
密码学的应用:
零知识证明 (ZeroKnowledge Proofs, ZKP): ZKP允许一方(证明者)向另一方(验证者)证明某个陈述是真实的,而无需透露除了陈述真实性之外的任何信息。在联邦学习中,这可以用于证明模型更新的有效性(例如,它确实是由本地数据训练出来的,并且没有被篡改),而无需暴露更新的细节。
数字签名: 参与方可以使用私钥对模型更新进行签名,中心服务器可以使用公钥验证签名的有效性,确保模型更新确实来自声称的参与方,并且没有被篡改。
安全聚合 (Secure Aggregation): 结合SMPC等技术,确保即使有部分参与方是恶意的,聚合结果仍然是可靠的。

如果你只是想“用”联邦学习,需要学密码学吗?

不一定。

市面上有很多成熟的联邦学习框架(比如TensorFlow Federated, PySyft, Flower等)。这些框架通常已经实现了多种安全协议,并且提供了方便的API供开发者使用。如果你只是想在这些框架的基础上搭建应用,完成一个项目,那么你可能只需要理解这些安全机制的“作用”和“接口”,而不需要深入研究其背后的数学原理和实现细节。

但是,如果你想:

理解框架的安全性边界: 了解这些框架提供的安全机制具体能抵御哪些攻击,还有哪些潜在的风险。
选择最适合的安全协议: 不同的安全协议有不同的计算开销、通信开销和安全强度。理解它们的原理才能做出最优选择。
对联邦学习进行优化: 很多时候,现有的安全方案在效率上并不理想。如果你想设计更高效、更低开销的联邦学习安全方案,密码学知识是必不可少的。
开发新的联邦学习算法或框架: 如果你想站在前沿,创造新的联邦学习范式,那么你肯定需要扎实的密码学基础。
应对非常敏感或高风险的场景: 在金融、医疗等领域,对数据隐私和安全的要求极高。在这种情况下,仅仅依赖现有框架的默认设置可能不够,需要更深入的安全理解和定制。
理解潜在的攻击手段: 了解攻击者可能利用的漏洞,才能更好地设计防御措施。很多高级攻击手段的根源都与加密算法的脆弱性、协议的设计缺陷有关。

举个例子:

假设你想在医疗领域做一个联邦学习项目,训练一个疾病诊断模型。

如果你只是想“用”: 你可以使用PySyft,按照教程配置好,让医院A、医院B、医院C上传模型更新,中心服务器进行聚合,然后部署模型。你可能只需要知道“PySyft可以保护我的数据不被泄露”。
如果你想“深入”: 你会问:PySyft用了什么技术来保护数据?是同态加密?还是SMPC?同态加密的计算量有多大?对模型的精度有什么影响?如果有一个医院被“黑”了,能不能通过它上传的模型更新反推出其他医院的数据?有没有办法证明我的模型更新确实是我本地数据训练出来的,而不是别人伪造的?

这些问题的答案,都指向了密码学。例如,同态加密的计算量确实很大,可能会拖慢训练速度,这时候你就需要了解不同同态加密方案(如BGV, BFV, CKKS)的优劣,或者考虑是否可以用其他方法(如差分隐私)来折衷。

所以,总结一下:

如果你是联邦学习的“使用者”或“初学者”: 可以先不必深究密码学,专注于理解联邦学习的基本流程和框架的使用。
如果你想成为联邦学习的“开发者”、“研究者”或“安全专家”: 那么密码学知识是非常、非常重要的。它会让你在联邦学习的世界里走得更远、更稳健。

当然,密码学本身就是一个非常庞大且复杂的领域。你不需要成为密码学家,但至少要对其中的核心概念(加密、解密、密钥管理、数字签名、以及联邦学习常用的同态加密、安全多方计算等)有基本的了解。

简单来说,联邦学习的“联邦”在于协作,而“学习”在于模型。密码学是让这种“协作”变得“安全”的关键。 如果你想让你的联邦学习系统真正安全可靠,并且能够应对各种复杂的场景和潜在的攻击,那么学习密码学知识,绝对是值得的投资。

网友意见

user avatar

先要了解联邦学习解决的问题域。从wiki(参考1)可以看到,简而言之,实现无需数据交换(只需参数交换)实现跨域数据上的机器学习联合建模, 可以被认为是保护隐私的分布式协作机器学习。

图片来自wiki(参考1)。

同时重点指出了需要保证计算过程中保护本地数据的隐私(保证原始数据不出域,符合GDPR等保护条例),以及节点之间数据的安全互访。因此你可以看到,引入密码学相关的知识是必不可少的。

同样,你看看现有很多关于联邦学习的产品,包括百度的MesaTEE(参考2)、PaddleFL以及腾讯的FedAI、蚂蚁摩斯等,都有不同的实现。

我总结联邦学习过程中主要有以下流派:

  1. 半同态流派: 例如微众FATE,字节fedlearner;
  2. MPC流派: 百度BFC, PaddleFL[6], 阿里摩斯等
  3. TEE流派: 百度mesatee等

涉及到的隐私计算技术包括:

  1. TEE 可信计算环境: 基于硬件可信基(TCB) ,以及内存安全访问机制,提供安全系统API,通过远程认证完成跨安全容器访问;常见有intel sgx等。
  2. MPC 多方安全计算: 针对无可信第三方的且保护输入数据隐私的情况下完成联合计算,包含加密电路、不经意传输以及秘钥共享等多种协议以及相互之间组合实现;特别是最近借助batched OT在解决psi问题,效率极大的提升。
  3. 同态加密: 密文计算的输出解密等于其对应明文计算; 例如基于rsa盲签名实现psi等。
  4. DP 差分隐私: 保留统计学特征的前提下去除个体特征以保护用户隐私

实际应用中主要在样本和特征对齐、emb以及梯度等中间结果传递涉及到数据安全保护。

以上基本上都属于或者包含比较现代的密码学应用知识。 学习他们之前,最基本的密码学知识,包括对称密码体系、公钥密码体系(RSA,ECC等),以及哈希散列、数字签名、身份认证等,推荐书籍可以参考zhihu.com/question/2039 这个问题的高赞回答,另外b站也有不少课程可以去看。

对于TEE,参考2有比较详细的介绍。

对于MPC,建议去看MP-SPDZ(参考3)、PSI(参考5)以及相关的论文,里面也提到了对机器学习相关激活函数优化器的封装。

参考4 是WeBank的FATE相关的资料,里面介绍非常体系。

参考:

  1. en.wikipedia.org/wiki/F
  2. anquan.baidu.com/produc & https://github.com/apache/incubator-teaclave & github.com/apache/incub;
  3. github.com/data61/MP-SP
  4. aisp-1251170195.cos.ap-hongkong.myqcloud.com
  5. github.com/encryptogrou
  6. github.com/PaddlePaddle
user avatar

这个问题很好。很多同学和朋友不知道从何入手。我特此分享一下我的学习曲线:
我大概是2017年接触到这样一个概念,当时在公司有与外部企业联合学习的需求,比如公司有用户画像,而外部公司可能会有用户的金融特征,这时候就需要学习特征分割的机器学习如何训练,当时还不叫Vertical Federated Learning,所以我补了一些机器学习中Optimizer的论文,所以偏优化的入门角度。当时更重视分布式系统的研发,所以同时也偏向系统的入门角度,当然会考虑到加密算法。从公司离开后,现在我也开始做FL相关的科研,我觉得入门FL还是要先从机器学习算法入手,特别是几篇经典的FedAvg, FedOpt等算法,理解算法的挑战比较重要。算法之后我觉得应该多学一些模型,比如CV/NLP/DM领域的重要模型分别是CNN, Transformer, GCN,掌握这些算法和模型才有可能解决现实场景下的机器学习问题。基于这个基础再去学习分布式系统、安全/隐私角度的问题会更容易理解。我不赞成以黑盒的方式看待算法和模型,否则很难做好分布式和安全/隐私。

我这样讲可能有点不是很清晰,大家可以看看我在FedML开源框架第一期视频中分享的文章分类,可以帮助你快速定位到你想研究的问题。同时FedML也非常适合你入门,希望你可以试用并给我们反馈。

FedML联邦机器学习框架正式开源!

Federated Learning 联邦学习是机器学习领域中快速发展的研究领域。尽管已经进行了大量的研究工作,但是现有的软件框架不能充分支持多样化的算法开发(例如,多样化的拓扑和灵活的消息交换),并且实验中不一致的数据集和模型使用使公平的比较变得困难。近日,美国南加州大学USC联合MIT、Stanford、MSU、UW-Madison、UIUC以及腾讯、微众银行等众多高校与公司联合发布了FedML联邦学习开源框架。 FedML是一个开放的研究库和基准,可促进新的联合学习算法的开发和公平的性能比较。 FedML支持三种计算范例:分布式训练,移动设备训练和独立仿真,以便用户在不同的系统环境中进行实验。 FedML还通过灵活且通用的API设计和参考基准实现促进了各种算法研究。针对非I.I.D设置的精选且全面的基准数据集旨在进行公平的比较。相信FedML可以为联合学习研究社区提供开发和评估算法的有效且可重复的手段。

FedML团队欢迎研究人员或工程师使用FedML库,并随时反馈不恰当的设计。更多信息大家可以查阅以下资料:
FedML Homepage: https://fedml.ai
FedML White Paper: arxiv.org/abs/2007.1351
FedML GitHub: github.com/FedML-AI/Fed
FedML Video Tutorial: bilibili.com/video/BV1j (B站)

FedML由一群对联合学习研究充满热情的研究人员和专家工程师维护。今年,FedML的作者在机器学习顶会NeurIPS 2020上发表了7篇论文(https://github.com/FedML-AI/FedML/blob/master/publications.md) 足见其学术水准。

该项目的Technical Lead何朝阳目前在美国南加州大学攻读博士学位,主攻机器学习算法与模型方向,之前他在业界有丰富的分布式系统与移动研发研发经验,目前他的学术指导老师包括毕业于UC Bekerley现就职于USC的Salman Avestimehr教授,以及来自于香港港科大学的张潼教授。

另外,FedML团队也正在招募开源志愿者,也邀请研究人员加入该开源项目。学生或研究人员不仅可以在机器学习算法和模型的开发中获得经验,而且可以发现新的研究思路。如果您想讨论潜在的开源贡献或研究合作,请发送电子邮件至chaoyang.he@usc.edu

最后提供一个视频给你,希望对你有所帮助!

类似的话题

  • 回答
    联邦学习要不要碰密码学?这是一个好问题,而且答案比简单的是或否要复杂得多。 简单来说,如果你想深入理解联邦学习的安全性,或者想自己设计、优化联邦学习的特定环节,那么密码学知识是很有必要学习的,而且越深入越好。让我慢慢跟你聊聊这个事。为什么联邦学习需要密码学?联邦学习的核心目标是在保护参与方数据隐私.............
  • 回答
    关于全国高中数学联赛(以下简称“数学联赛”)等学科竞赛是否存在“黑幕”,这是一个在家长、学生和教育界都长期存在讨论和担忧的话题。要详细地探讨这个问题,我们需要从多个角度来审视,并尝试还原一些可能存在的复杂情况。首先,我们需要明确“黑幕”在竞赛中的具体含义。它可能指向: 题目泄露或偏袒: 某些学生.............
  • 回答
    教育部等三部门联合提出将学位论文作假行为纳入信用记录,这无疑是治理学术造假乱象、净化学术环境的一项重要举措。从理论上讲,这种做法具有很强的规范作用,但其最终效果如何,则取决于多方面的因素。从积极的方面来看,将学位论文作假纳入信用记录有以下几个关键的积极意义:1. 提高违法成本,形成有效震慑: 传统.............
  • 回答
    联邦学习与边缘计算的结合,绝对是当下人工智能和物联网领域最炙手可热的研究方向之一。谈到“热点”,这可不是空穴来风,而是基于多方面的驱动因素和广泛的应用前景。为什么这么火?深挖其内在逻辑要理解联邦学习+边缘计算为何如此吸引学界和工业界的目光,我们得从它们各自的优势以及结合后产生的“1+1>2”的协同效.............
  • 回答
    联邦学习作为一种保护隐私的分布式机器学习范式,近年来在国内的发展可谓是风起云涌。微众银行在推动这一技术落地和应用方面确实是先行者,他们的贡献毋庸置疑。但国内在联邦学习领域,除了微众银行,还有许多顶尖的专家、机构和大学在进行深入的研究和实践。下面我将为您梳理一下,并尽量细致地展开:一、 顶尖专家在国内.............
  • 回答
    .......
  • 回答
    你这个问题问得真是太扎心了,也特别真实。我完全理解你为什么会有“生物医学工程学生像孤儿”的感觉。这是一种非常普遍的、也挺令人无奈的处境,尤其是在学科交叉前沿的领域。咱们掰开了揉碎了好好说说,让你觉得不是一个人在战斗,也让你更能理清这种“孤儿感”的来源。1. 根基的“不亲近”:与传统生命科学的疏离感首.............
  • 回答
    .......
  • 回答
    联邦学习(Federated Learning, FL)和安全多方计算(Secure MultiParty Computation, SMPC)是近年来备受关注的交叉领域,其在保护数据隐私和实现分布式协作方面具有巨大的潜力。这两个领域的研究都非常活跃,也有不少研究方向相对容易发表高质量论文。以下我将.............
  • 回答
    联邦学习入门:从概念到实践的深度解析联邦学习(Federated Learning, FL)作为一种新兴的机器学习范式,正在深刻地改变着数据隐私保护和分布式模型训练的格局。它允许在不共享原始数据的情况下,从海量分布在不同设备或机构上的数据中学习出全局模型,极大地释放了数据的价值,同时满足了严格的隐私.............
  • 回答
    在机器学习的版图上,联邦学习(Federated Learning)并非只是对传统集中式训练模式的一种“改良”或“补充”,它拥有着自身独立且至关重要的价值,改变着我们对模型构建和数据利用的认知。它的独立价值,恰恰在于它能够解决那些集中式学习模式无论如何也无法逾越的天然障碍,开辟出全新的可能性。一、隐.............
  • 回答
    联邦学习/联盟学习:在数据孤岛中绽放的智能之花,现状与前景深度解析在信息爆炸的时代,数据如同石油,是驱动人工智能进步的宝贵资源。然而,随着数据隐私保护法规日益严苛,以及企业间数据壁垒的形成,“数据孤岛”现象愈发普遍,这极大地阻碍了AI模型的训练和优化。就在此时,联邦学习(Federated Lear.............
  • 回答
    在FATE联邦学习框架中,关于基于RSA的PSI(私密集合交,Private Set Intersection)是否比RAW(只基于哈希)的版本更安全,这是一个值得深入探讨的问题。理解这一点,我们需要先剖析这两种PSI实现的核心原理,以及它们各自在安全与效率上的权衡。 RAW(只基于哈希)PSI:简.............
  • 回答
    哎呀,你这个问题问得太好了!联邦学习这东西,对于刚入门的来说,FedAvg 和 FedSGD 确实是绕不过去的基础,而且名字听着都挺唬人的。别担心,我来给你捋一捋,尽量讲得细致点,就像跟朋友聊天一样,让你听明白,不搞那些虚头巴脑的。咱们先得弄明白,什么是“联邦学习”?你可以想象一下,现在有很多很多手.............
  • 回答
    各位朋友,你们好!今天想和大家聊聊“联邦学习”这个话题。我最近接触到这个概念,感觉挺有意思的,想和大家一起探讨探讨,也顺便给自己科普一下。联邦学习是个啥?简单来说,联邦学习就是一种分布式机器学习技术。它解决的核心问题是:如何在不泄露原始数据的前提下,让多个参与方(比如不同的医院、银行、手机厂商等)一.............
  • 回答
    咱们来聊聊隐私计算、多方安全计算和联邦学习这几个听起来有点“硬核”,但实际上跟咱们生活息息相关的话题。它们都是为了解决一个核心问题:在不泄露原始数据的前提下,如何让数据发挥价值。想象一下,你的银行账户、你的病历、你浏览网页的习惯,这些都是非常私密的信息。但如果这些信息能够被整合起来,分析出新的趋势,.............
  • 回答
    在中国,多方安全计算(MPC)、隐私计算和联邦学习(FL)之所以能够迅速蹿红,并且成为科技界和产业界热议的焦点,绝非偶然。这背后交织着技术发展的必然性、巨大的市场需求以及国家政策的强力推动。要深入理解这个现象,我们需要从多个维度去剖析。一、 技术发展的内在驱动:数据“可用不可见”的终极诉求首先,我们.............
  • 回答
    观望与期待:鄂维南院士等发起的机器学习联合研讨计划(c2sml.cn)看到中国科学院院士鄂维南教授牵头,联合多位学术界、工业界大咖共同发起的机器学习联合研讨计划(c2sml.cn),内心是既有赞赏,也有几分审慎的期待。这绝不仅仅是又一个学术会议或论坛,其背后所蕴含的深层意义和潜在影响,值得我们仔细揣.............
  • 回答
    谈起人工智能,人们脑海中往往会浮现出那些能识别图像、翻译语言、甚至下棋击败人类冠军的强大系统。这些如今风靡全球的“新贵”,大多属于“联接主义”阵营,也就是我们常说的机器学习,尤其是深度学习。它们通过海量数据训练,构建复杂的神经网络,擅长从数据中发现模式和关联。然而,在联接主义的耀眼光环之下,人工智能.............
  • 回答
    好的,咱们来聊聊机器学习里的 Bias、Error 和 Variance 这几个核心概念。别被这些术语吓到,它们其实挺好理解的,而且彼此之间关系密切,理解了它们,对你构建和调优模型大有裨益。想象一下,你正在教一个孩子识别猫。 Bias (偏差): 孩子对猫的“固有看法”Bias,你可以理解为模型(或.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有