问题

联邦学习/联盟学习 (Federated Learning) 的发展现状及前景如何?

回答
联邦学习/联盟学习:在数据孤岛中绽放的智能之花,现状与前景深度解析

在信息爆炸的时代,数据如同石油,是驱动人工智能进步的宝贵资源。然而,随着数据隐私保护法规日益严苛,以及企业间数据壁垒的形成,“数据孤岛”现象愈发普遍,这极大地阻碍了AI模型的训练和优化。就在此时,联邦学习(Federated Learning,简称FL)和联盟学习(Collaborative Learning,与联邦学习概念高度重叠,常被并用)应运而生,它们提供了一种在不共享原始数据的前提下,实现模型协同训练的创新范式。

联邦学习:打破数据孤岛的“去中心化”之道

联邦学习的核心思想是“数据不动,模型动”。它将模型的训练过程从集中的数据服务器转移到分散在各处的本地设备(如手机、电脑、医院服务器等)上进行。具体流程大致如下:

1. 模型初始化与分发: 一个全局模型由中央服务器初始化,并发送到选定的本地设备(称为“客户端”)上。
2. 本地训练: 每个客户端利用其本地数据对模型进行训练,生成一个更新的模型参数。
3. 参数聚合: 客户端将更新的模型参数(而非原始数据)发送回中央服务器。
4. 全局模型更新: 中央服务器收集所有客户端的参数更新,并采用某种聚合算法(如FedAvg,即联邦平均算法)将这些更新融合,生成一个更优化的全局模型。
5. 迭代优化: 重复步骤14,直到全局模型达到预期的性能。

联盟学习则在此基础上,更侧重于多个组织或实体之间,在共同目标下,通过数据共享(通常是脱敏、匿名化或以安全多方计算等方式)来协作训练模型,但其核心的“不直接共享原始数据”理念与联邦学习是一致的。两者在实践中常常互相借鉴,共同推动着“数据隐私与模型协同”的边界。

发展现状:从理论探索到落地应用,步伐稳健

联邦学习和联盟学习并非空中楼阁,它们已经经历了从学术界的概念验证到工业界初步落地的快速发展:

技术理论日益成熟:
聚合算法的丰富与优化: 除了FedAvg,研究人员不断提出更有效的聚合算法,例如考虑客户端异构性(数据量、计算能力差异)、通信效率(如Sparsification、Quantization)以及模型安全性(如Differential Privacy、Secure MultiParty Computation)。
应对异质性挑战: 联邦学习面临的核心挑战之一是客户端数据的“异质性”,即数据分布、特征、数量可能大相径庭。针对此,诸如FedProx、Ditto等算法被提出,以更好地处理这种差异。
隐私保护的深化: 差分隐私(DP)是增强联邦学习隐私性的关键技术,它通过向模型更新中添加噪声来防止个人数据泄露。安全多方计算(SMPC)则能进一步加密模型参数,确保服务器在聚合过程中也无法获取任何有意义的信息。
鲁棒性与公平性研究: 如何对抗恶意客户端的“投毒攻击”或确保模型对所有用户群体都公平(Fairness)是当前研究的热点。

应用场景的逐步拓展:
智能手机上的个性化体验: 这是联邦学习最早的落地场景之一。例如,谷歌的Gboard输入法利用联邦学习来优化输入预测模型,学习用户输入习惯,而无需将用户的键盘输入记录上传到服务器。苹果的Siri、QuickType等功能也都在不同程度上应用了联邦学习技术。
金融领域的反欺诈与信用评估: 银行、支付机构等可以在不共享客户敏感数据的情况下,通过联盟学习共同构建更精准的反欺诈模型或信用评估模型,提高整体的风险防控能力。
医疗健康领域的疾病诊断与药物研发: 不同医院或研究机构的数据分散且敏感,联邦学习/联盟学习能够赋能其在保护患者隐私的前提下,协作训练更强大的疾病诊断模型,或加速新药的研发进程。例如,在特定癌症的早期诊断上,集合多家医院的数据进行训练,能显著提升模型的准确性。
工业互联网与物联网(IoT): 在智能制造、智慧城市等领域,大量的传感器设备产生海量数据。联邦学习可以用于在设备端进行实时分析和预测,如设备故障预警、能耗优化等,而无需将所有原始数据汇聚。
自动驾驶: 车辆在本地收集的驾驶数据(如传感器数据、驾驶行为)可以用来训练自动驾驶算法,而无需将原始敏感的驾驶数据上传,这既保护了用户隐私,也减轻了网络传输的压力。

生态系统与标准建设的初步形成:
开源框架的涌现: TensorFlow Federated (TFF)、PyTorch Mobile、NVIDIA FLARE、OpenFL 等开源框架为联邦学习的实现提供了便利,降低了研究和应用的门槛。
行业联盟与标准的探索: 一些行业组织和科技公司正在推动联邦学习相关标准的制定,例如Linux基金会下的“Encrypted Computing Alliance”(ECA)等,旨在规范和推广联邦学习技术的健康发展。

前景展望:数据智能化的关键驱动力,潜力无限

联邦学习/联盟学习的前景可以用“广阔”和“关键”来形容。它不仅是应对数据隐私挑战的有效手段,更是释放数据潜能、推动AI普惠化的重要引擎。

AI模型的“民主化”与普惠化: 过去,只有拥有海量高质量数据的大型科技公司才能训练出领先的AI模型。联邦学习/联盟学习的出现,使得中小型企业、研究机构甚至个人设备也能参与到模型的训练中来,打破了技术壁垒,让AI的红利惠及更广泛的群体。
数据价值的“二次挖掘”: 许多企业手中的数据虽然零散,但组合起来却能产生巨大的价值。联邦学习/联盟学习能够激活这些“沉睡”的数据资产,为业务创新和决策优化提供新的动力。
构建更安全、更公平的AI生态: 随着人们对数据隐私的意识日益增强,以及数据安全事件频发,以联邦学习为代表的隐私保护技术将成为AI应用的基础设施。同时,通过公平性研究,可以构建对所有参与方都更加公平的AI模型。
应对“数据饥渴”的终极解决方案之一: 随着AI模型越来越复杂,对数据的需求也水涨船高。联邦学习/联盟学习通过“汇聚智能而非数据”,有效缓解了数据获取的瓶颈,为AI的持续进化提供了燃料。
与其他隐私计算技术的协同: 联邦学习并非孤立的技术。它将与同态加密(Homomorphic Encryption)、安全多方计算(SMPC)、差分隐私(DP)等其他隐私计算技术深度融合,构建更加强大和安全的隐私保护AI框架。例如,将同态加密应用于聚合阶段,可以在加密状态下对模型参数进行计算,进一步提升安全性。
更精细化的个性化服务: 在消费领域,通过联邦学习,应用可以学习用户的细微偏好,提供更精准的推荐、更智能的交互,例如在医疗领域,为个体提供更具针对性的健康管理方案。
跨领域、跨机构的协同创新: 联盟学习的价值将体现在能够连接不同行业的参与者,共同解决一些跨领域、复杂的难题,例如在气候变化研究、公共卫生监测等领域,跨机构的联邦学习将发挥巨大作用。

挑战与发展方向:

尽管前景光明,联邦学习/联盟学习在落地过程中仍面临不少挑战:

通信效率: 频繁的模型参数上传和下载会消耗大量的网络带宽,尤其是在大规模部署时。需要进一步研究更高效的通信压缩和传输技术。
计算资源限制: 客户端设备(尤其是移动设备)的计算能力和电池续航可能成为瓶颈。需要轻量化模型和优化本地训练策略。
安全与隐私的博弈: 虽然联邦学习旨在保护隐私,但精心设计的攻击(如模型反演攻击、成员推断攻击)仍然可能从中提取敏感信息。如何设计更具理论保障的隐私保护机制是持续的研究方向。
模型性能的收敛性与收敛速度: 在异质性数据和通信限制下,联邦学习模型的收敛速度和最终性能可能不如集中式训练,需要更精密的算法设计。
标准化与互操作性: 缺乏统一的标准和接口,使得不同框架和平台之间的互操作性成为问题,阻碍了大规模协作。
激励机制与治理: 在联盟学习场景下,如何设计有效的激励机制,鼓励参与方贡献数据和计算资源,并建立公平的治理规则,是推动大规模协作的关键。

结语:

联邦学习/联盟学习正处于一个快速迭代和广泛应用的上升期。它不仅是解决当下数据孤岛困境的“灵丹妙药”,更是未来人工智能发展不可或缺的关键技术。随着技术的不断成熟和生态的日益完善,我们有理由相信,联邦学习/联盟学习将成为驱动数据智能化、实现AI普惠化、构建安全可信AI生态的最强劲的引擎之一,为各行各业带来颠覆性的变革。它正在悄然改变我们连接数据、训练智能的方式,将AI的能力触及每一个数据存在的角落,让智能真正“触手可及”。

网友意见

user avatar

背景

数据是人工智能运转的“石油”,AI发展到现在的阶段,能否获得量大质高的数据已成为制约其进一步发展的重要因素。在这样背景之下,数据共享、融合的需求越来越强烈,但是在数据共享的过程中,遇到以下问题:

  • 数据孤岛问题严重,由于安全问题、竞争关系和审批流程等因素,数据在行业、甚至是在公司内部以“孤岛”的形式存在。而数据共享越来越重要,但在数据共享中因为缺乏有效的保障手段,进而导致数据安全问题频发;
  • 重视数据隐私和安全已经成为世界性的趋势,在国外,2018年5月,欧盟的《通用数据保护条例》(General Data Protection Regulation,GDPR)正式开始生效,该条例对于数据保护做出了严格规定。同时在国内,对于数据保护的力度越来越严格,国家先后发布《网络安全法》、《信息安全技术 个人信息安全规范》《互联网个人信息安全保护指南》等法律法规,同时公安部也在严厉打击数据安全犯罪行为。在这样的背景之下,即便行业有意共享数据,也面临政策、法律合规的严峻问题。

另一方面来说,传统的机器学习方法,需要把训练数据集中于某一台机器或是单个数据中心里,为了满足逐渐增加的数据量级,还要不断加机器、不断建设基础设施。而在数据集中的过程中有出现数据泄露的风险。多说一点,目前的AI市场模式是科技巨头在主导,他们提供基于云的AI解决方案以及API,这种模式使用户无法控制AI产品的使用以及个人隐私数据,而通过数据集中公司却可以做到垄断数据。一定要注意这一点,因为未来世界的竞争是基于数据的竞争,而数据的垄断必将带来市场的垄断。而这种集中模式很可能在未来限制初创企业乃至大型企业的创新。

以上提到的问题导致传统的数据共享技术难以满足需求。新的技术应运而生——Federated Learning,在融合安全多方计算以及其他加密技术的基础之上发展越来越成熟。该技术实际上是一种加密的分布式机器学习技术,各个参与方可在不批露底层数据和底层数据的加密(混淆)形态的前提下共建模型。

Federated Learning适合以下任务:

  • 训练数据涉及到隐私敏感
  • 训练数据太大,无法集中收集

而该技术有很多不同名称,比如UC Berkeley使用的是共享学习(Shared Learning),而谷歌和腾讯系公司微众银行用的Federated Learning,但在中文翻译两者不同,前者用的是联盟学习,后者用的是联邦学习。而Federated Learning是世界范围使用较为普遍的该技术的英文名称。

该技术的发展广受关注,2017年10月16日,UC Berkeley电气工程与计算机科学系(EECS)14位专家联合发布了一份名为《A Berkeley View of Systems Challenges for AI》的报告。该报告明确提出,下一代人工智能系统的问题需要通过体系结构、软件和算法的协同创新来实现,而伯克利也将在从所面临的四大趋势和九大挑战,来解决这些问题。而在保密数据上共享学习(Shared learning on confidential data)便是九大研究方向之一。

The key challenge of shared learning is how to learn a model on data belonging to different (possible competitive) organizations without leaking relevant information about this data during the training process. One possible solution would be to pool all the data in a hardware enclave and then learn the model. However, this solution is not always feasible as hardware enclaves are not yet deployed widely, and, in some cases, the data cannot be moved due to regulatory constraints or its large volume.


最近CMU 博客上有一个白皮书《Federated Learning: Challenges, Methods, and Future Directions》对于该技术做了系统介绍,推荐一看。

发展情况

引路人———谷歌

2017年4月6日,谷歌科学家Brendan McMahan和Daniel Ramage在GoogleAI上发布名为《 Federated Learning: Collaborative Machine Learning without Centralized Training Data》的博文,介绍了Federated Learning也是一种机器学习,能够让用户通过移动设备交互来训练模型。

Google近期还特别推出中文漫画对于Federated Learning进行介绍,很有趣,推荐大家看一下

其主要工作原理如下:

  • 手机下载现有模型;
  • 用手机的本地数据来训练模型;
  • 训练好之后,迭代更新,并把更新的内容加密上传云端;
  • 与其他用户的数据融合,以此对于共享模型进行改进;
  • 该过程不断被重复,改进后的共享模型也会被不断下载到本地;
通过联盟学习让每个手机更聪明 https://www.zhihu.com/video/1123707942851174400

根据谷歌的官方说明,我们可以对于Federated Learning的优势给出如下总结:

  • 更智能的模型(smarter models);
  • 低延迟(lower latency)谷歌开发了 Federated Averageing 算法用于降低延迟;
  • 低功耗(less power consumption);
  • 保障用户隐私(ensuring privacy)Federated learning 不需要在云端存储用户数据。但为避免用户隐私泄露,谷歌更进一步还开发了一个名为 Secure Aggregation、并使用加密技术的协议;
  • 保障用户体验。 Federated Learning在训练本地模型时,使用简化版的 TensorFlow,配合精心的程序调度,并确保训练模型只在手机在闲置、插着电、有 Wi-Fi 时才进行。因此,联邦学习不会影响手机的日常使用。

此外Federated Learning的易用性也不断提高。除了Google的tensorFlow,世界上另外一个最流行的深度学习框架Fackbook的PyTorch也在近期开始支持采用联盟学习方案来实现隐私保护。而Facebook的AI研究小组同步推出了Secure and Private AI,这是一个免费为期两个月的Udacity课程,其中专门提到在PyTorch中如何使用联盟学习。国内的微众银行推出Federated AI Technology Enabler(FATE)的开源项目,旨在提供一个安全的计算框架来支持Federated AI生态系统。

使用PyTorch 的 PySyft库,我们可以通过改变10行传统的CNN Pytorch模型来实现联盟学习模型。
在这里,我们创建了两个客户端,名为Alice和Bob,
       import syft as sy  # <-- import the Pysyft library hook = sy.TorchHook(torch)  # <-- hook PyTorch ie add extra functionalities to support Federated Learning bob = sy.VirtualWorker(hook, id="bob")  # <-- define remote worker bob alice = sy.VirtualWorker(hook, id="alice")  # <-- and alice     
我们在两个客户端上分发数据集
       federated_train_loader = sy.FederatedDataLoader( # <-- this is now a FederatedDataLoader      datasets.MNIST('../data', train=True, download=True,                    transform=transforms.Compose([                        transforms.ToTensor(),                        transforms.Normalize((0.1307,), (0.3081,))                    ]))     .federate((bob, alice)), #we distribute the dataset across all the workers, it's now a FederatedDataset     batch_size=args.batch_size, shuffle=True)     

2019年2月,谷歌发布论文《Towards Federated Learning at Scale:System Design》,描述了谷歌基于TensorFlow构建了全球首个产品级可扩展的大规模移动端Federated learning系统。并介绍该系统的设计理念以及面临的挑战,并给出了自己的解决方案。 该进展以至于让Deepmind研究科学家Andrew Trasktwitter惊呼:“这是2019年「年度最激动人心的论文之一」。谷歌公布了他们如何在数千万台手机上手机上实现可扩展的联盟学习,数据安全隐私终于成真,而谷歌是这方面的领跑者!”目前该系统已在数千万台手机上运行。研究人员表示,该系统有望在几十亿部手机上运行。

谷歌目前看重以下的使用场景:

设备上项目排名 (On-device item ranking)

移动应用程序中机器学习中的常见用途是从设备上的库存中选择和排序项目。例如,app可以公开用于信息检索或在app导航的搜索设置。在设备上对搜索结果进行排序,可以免去对服务器的成本高昂的呼叫(原因可能是延迟、带宽限制或高功耗),而且关于搜索查询和用户选择的任何潜在的隐私信息仍然保留在设备上。每个用户与排名特征的交互可以作为标记数据点,可以在完整排序的项目列表中观察用户与其优先选项的交互信息。

移动设备键盘输入内容建议 (Content suggestions for on-device keyboards)

可以通过为用户输入的相关内容提供建议(比如与输入文本相关的搜索查询)来提升对用户的价值。联盟学习可用于训练机器学习模型来触发建议功能,并对可在当前上下文中建议的项目进行排名。谷歌的Gboard移动键盘团队就在使用这个的联盟学习系统,并采用了这种方法。

下一词预测 (Next word prediction)

Gboard还使用联盟学习学习平台训练递归神经网络(RNN)用于下一词预测。该模型具有约140万个参数,在经过5天的训练后,处理了来自150万用户的6亿个句子后,在3000轮联合学习后实现收敛(每轮大约需要2-3分钟)。该模型将基线n-gram模型最高召回率从13.0%提高到16.4%,并且其性能与经过1.2亿步服务器训练的RNN的性能相当。在实时对比实验中,联盟学习模型的性能优于n-gram和服务器训练的RNN模型。

在2019年5月8日的Google I/O开发者大会中,谷歌CEO Sundar Pichai强调了Federated Learning的重要性:“ It allows Google’s AI products to work better for you and work better for everyone without collecting your data from all your devices.”

关于Google联盟学习更多内容可以看一下以下链接:

Google产品中的联盟学习

Gboard的联盟学习

Google联盟学习内容站点

使用联盟学习在大型机构中进行数据共享

如果说Google的联盟学习的应用侧重在C端,那么跨机构跨组织(B端)的数据融合场景,也有很多机构正在探索:

Intel&宾夕法尼亚大学

2018年,英特尔开始与宾夕法尼亚大学的生物医学图像计算与分析中心(CBICA)合作,展示了联盟学习在现实世界医学成像中的第一个概念验证应用。并在Springer上发表了他们的研究结果:《Multi-institutional Deep Learning Modeling Without Sharing Patient Data: A Feasibility Study on Brain Tumor Segmentation》

如上图,使用Intel硬件的联盟学习架构。加密模型被发送到各个机构(数据所有者AC),这些机构在硬件中的安全区域内解密,然后训练本地数据。仅与中央模型聚合器共享模型更新。这为模型和数据提供了保护。原始数据永远不会离开机构,这不仅保护了隐私,而且还降低大量数据集中传输的成本。

目前英特尔正在与宾夕法尼亚大学和其他19家医学研究机构合作开发安全的联盟学习平台,这将使合作者能够在不交换患者数据的情况下训练医疗共享机器学习模型。在这个合作中,因特尔将提供英特尔®至强®可扩展处理器英特尔®软件保护扩展(英特尔®SGX)的功能为该项目提供支持。

蚂蚁金服

蚂蚁金服在《共享学习:蚂蚁金服数据孤岛解决方案》一文中,对于其该项技术称之为共享机器学习 (Shared Machine Learning),并做了系统的介绍。在文中还比较了共享学习与联邦学习的差异:

经过我们的了解,其实联邦学习目前涉及两个不同的概念:
• 第一种联邦学习,旨在解决云 + 端的训练过程中,端上的隐私不要被暴露的问题,是一个To C + 数据水平切分的场景。除了保护端上的数据隐私外,其重点还在于如何解决训练过程中,端自身可能掉线等问题。
• 第二种联邦学习则主要用于解决To B场景中各方隐私不泄露的问题,即可以应用于数据的水平切分场景,也可以应用于数据垂直切分的场景。
它们侧重于不同的数据共享场景,采用不同的技术,相比之下,蚂蚁金服的共享学习兼容多种安全计算技术,并且支持多种机器学习算法和使用场景。
除此之外,共享学习和联邦学习的差异在于:
1. 联邦学习只解决数据不出域的情况,这就限制了其可以使用的技术(只有严格的MPC算法才符合这个要求),而共享学习目前基于TEE的集中式共享学习技术,是联邦学习没有涉及的;
2. 联邦学习讲究的是参与各方的“身份和地位”的相同,所以叫联邦;而共享学习则不强调各共享方的地位对等,在很多场景下,不同的参与方是拥有不同的角色的。

蚂蚁金服在共享学习领域有较深的积累,有专利50余项,并且其在IEEE正式立项《共享学习系统技术框架及要求》(Standard for Technical Framework and Requirements of Shared Machine Learning)国际标准

微众银行

微众银行聚焦在金融领域的机构间的数据共享,其在联邦学习领域的进展公开资料较多,不做专门介绍,可以通过以下资源详细了解:

论文

会议

标准

白皮书及其他

腾讯:多方安全计算——数据隐私保护

在数据隐私保护的研究应用方面,基于多方安全计算技术,腾讯开展AI创新实践,推出“腾讯云数盾”。数盾以数据安全治理为核心,构建了包含外部攻击防护、数据交换保护、内部防泄露等全流程的数据安全保护方案,用于帮助企业数据安全建设。针对外部攻击,数盾通过全量会话审计,能够快速完成问题事故追责定责,对可能产生的风险和威胁进行实时警告,提供全景视图显示数据流转动向,在数据交换环节,数盾对敏感数据一键智能脱敏。通过使用匿名化、差分隐私、安全多方计算架构等方式,在数据使用安全的基础上,平衡隐私保护与数据挖掘价值,符合金融、政府、运营商等机构对于数据使用和共享环境中的合规需求。

百度

Mesa TEE是由百度公司开发的可信安全计算服务框架,为“函数即服务”(Function-as-a-Service,缩写FaaS)云计算模式提供革命性安全方案。FaaS具有灵活、经济等优点外,通应用Intel SGX技术,云上数据代码的完整性和保密性也得到了芯片级的安全保障,并且允许用户远程对这些安全保护进行验证。

MesaTEE还应用了百度安全实验室的HMS内存安全技术,兼具内存安全带来的不可绕过性,这一世界首创的独特优势让攻击者难以突破,提供了无可比拟的安全保障。

以下是Mesa TEE平台具有的特点:

  • 可信执行
    借助Intel SGX等硬件TEE保护,结合百度先进的HMS内存安全,确保执行过程中数据与操作的完整性与安全性。
  • 安全性远程验证
    允许用户远程证明与测试,确保远程执行时的安全性符合预期。
  • 强化内存安全
    消除内存安全风险,比如说buffer overflows, use-after-free等问题。
  • 安全节点不可绕过
    完整的程序执行流确认,保证安全检查点不可被绕过。
  • FaaS服务
    支持高灵活性与兼容性的FaaS服务,支持主流大数据运算和AI训练推理。
  • 端到端加密
    允许用户在端与云之间以及跨云实例之间建立可信的可相互认证的加密通道。

    应用场景


百度“点石”数据安全融合及应用服务平台

百度基于数据本地和云端隔离技术,采用安全数据融合以及多方联邦学习技术,推出“点石”数据安全融合及应用服务平台。提供安全数据集合、灵活建模、快速服务部署等服务,基于硬件隔离域、多方安全计算的技术能力,支持多场景的数据安全计算。“点石”利用安全方案解决数据打通难与应用成本高等问题。提供减少企业损失的风险识别,帮助企业有效识别在信用卡、贷款、在线支付等场景中的违约、欺诈等潜在风险,帮助企业对销售线索进行甄别与拓展,优化企业营销策略。“点石”的联邦学习应用场景主要是风险识别和营销分析。该平台与清华大学达成合作,利用联邦学习对接政府客户,帮助智慧城市建设。在风控模型建立方面,与狮桥公司合作,协同客户本地训练,结合大数据联合建模平台进行数据融合与分析建模。此外还有的客户案例包括:天闻卓思易车等。

平安科技

蜂巢平台是由平安科技开发的一个联邦学习平台。除了一般的联邦学习平台所具有的功能之外,蜂巢平台希望能够实现的其余功能包括:提供基于联邦学习的医疗影像数据平台、扩接融合用户特征与个性推荐系统和动态车险定价模型系统等。此外,相较于目前已有的联邦学习平台,蜂巢平台能够支持更多的深度学习框架。

以下是蜂巢平台具有的特点:

  • 提供加密方式,支持同态加密等多方安全计算机制
  • 支持单机和多机训练
  • 可使用CPU训练,同时可以使用GPU训练
  • 支持多种深度学习框架,如TensorFlow,Keras,Pytorch,MXNet等

联盟学习领域的创业公司

在联盟学习领域出现了一些新的创业公司,如S20.ai,Owkin和Snips,围绕联盟学习和其他安全计算技术创建了新的工具和企业解决方案。

Snips是一家法国初创公司,其提供的服务主要是为用户建立自定义语音助手。Snips并不使用亚马逊的Alexa语音服务或谷歌助手SDK,而是帮助用户建立自己的语音助手,并嵌入到设备上。此外,由于这个语音助手是离线工作,所以不需要向云端发送任何东西。
Snips https://www.zhihu.com/video/1123740040299425792

联盟学习面临的三个关键挑战

其中一个挑战是通信带宽。手机上的联盟学习依赖于无线通信来协作学习机器学习模型。虽然手机的计算资源变得越来越强大,但无线通信的带宽并没有增加太多。因此,瓶颈从计算转移到通信。结果,有限的通信带宽可能导致长的通信延迟,因此可能减慢联盟学习过程的收敛时间。

另一个挑战是参与联盟学习过程的终端设备的可靠性。联盟学习是一个迭代过程,它依赖于参与的终端设备在迭代中不断进行通信,直到学习过程收敛。但是,在实际部署中,由于各种实际原因,并非所有终端设备都可以从头到尾完全参与完整的迭代过程。对于在联盟学习过程中退出的终端设备,在学习过程中无法充分利用其数据。因此,联盟学习的学习质量可能会受到严重影响。

最后,数据集中训练模式、为大公司创造孤岛以获得竞争优势的思维方式将成为推动联盟学习采用的一项重大挑战。在有效的数据保护政策以及围绕权力下放数据的适当激励和商业模式下,可以解决这些问题,并开发联盟学习AI生态系统。

联盟学习发展的未来

最近在看Tim O'Reilly的《未来地图:技术、商业和我们的选择》(WTF? What's the Future and Why It's Up to Us)。其中提到了克莱顿·克里斯坦森的高利润守恒定律:

当模块化和平价化使得价值链上某一环节的高利润消失时候,与之相邻的环节往往会出现高利润的专有产品。

联盟学习硬件的平价化,将为联盟学习的应用带来无限可能的机会。支持联盟学习的手机底层芯片在2018年中后期发生一些变化,从三星S9或Apple X系列开始,在未来3 - 5年内,随着10亿多智能手机配备了AI芯片并拥有强大的计算能力手机上市,许多ML型号将能够在这些移动设备上本地运行。与中央计算设施相比,通过“边缘”智能手机分发分析和计算将大大缩短开发数据产品的时间,例如超个性化推荐引擎,电子商务定价引擎等。

而5G时代的到来,将极大缓解联盟学习的通信带宽的问题,同时联盟学习将可以在物联网中将得到更为广泛的应用。

联想&byteLAKE
总部位于波兰的人工智能咨询公司ByteLake最近发布了与联想合作利用联盟学习进行预测性维护的制造业概念验证。该技术不仅可以使物联网设备相互学习,可以利用在物联网/边缘设备上创建的所有本地AI模型。使用联盟学习可以来预测联想工厂通过逐渐堵塞的过滤器流过的气压变化,从而达到对于进行预测性维修。
联想&byteLAKE 白皮书:www.bytelake.com/en/federated-learning/


华为:车联网通信优化分配解决方案
华为2018年发表了论文《Distributed Federated Learning for Ultra-Reliable Low-Latency Vehicular Communications》
这篇论文中,在通信分配优化方面,华为数字算法实验室利用联邦学习原理解决车联网中可靠低延迟通信的联合功率和资源分配问题,在概率排队延迟方面最小化车辆用户的网络功耗。利用联邦学习技术,华为数字算法实验室提出了一种分布式的学习机制,车辆用户在道路单位的帮助下能够在本地学习网络范围队列,来估计尾部分布,而不实时共享队列长度。这种方法能高精度判断学习网络中的车联网队列分布,并有效减少车载队列长度,优化资源配置。

5G以及终端设备AI芯片组的广泛应用,将极大促进联盟学习的发展。从另一个维度来说,联盟学习其实为人工智能开辟了一个全新的计算范式。人工智能正在从云端和数据中心转向终端设备,联盟学可有效利用终端设备内的分散计算资源来训练机器学习模型。考虑到全球有数十亿的移动设备,从这些移动设备累积的计算资源远远超出了世界上最大的数据中心。从这个意义上说,联邦学习有可能会改变主导地位的计算范式:云计算。

我为什么会写这些内容???

我将技术本身看作一个生命,我现在很好奇一个技术是如何出现,如何发展,然后又如何死亡,这其中又有怎么样的规律。联盟学习是我最近在关注的领域,我发现国内的关于这块技术内容太单一,所以整理一下这些资料,供大家了解。如果你对于我正在探索的问题很感兴趣,欢迎和我交流。

最后,码字不易,如果觉得内容还可以,希望给我点个赞,谢谢!

参考资料

The New Dawn of AI: Federated Learning

AI Weekly: Google’s federated learning gets its day in the sun

Federated Learning and Privacy

Google engineers work towards large scale federated learning

A Beginners Guide to Federated Learning

Federated Learning: The Future of Distributed Machine Learning

How federated learning could shape the future of AI in a privacy-obsessed world

The Best Way to Avoid Data Leaks and Privacy Scandals: Don't Own Consumer Data

类似的话题

  • 回答
    联邦学习/联盟学习:在数据孤岛中绽放的智能之花,现状与前景深度解析在信息爆炸的时代,数据如同石油,是驱动人工智能进步的宝贵资源。然而,随着数据隐私保护法规日益严苛,以及企业间数据壁垒的形成,“数据孤岛”现象愈发普遍,这极大地阻碍了AI模型的训练和优化。就在此时,联邦学习(Federated Lear.............
  • 回答
    在机器学习的版图上,联邦学习(Federated Learning)并非只是对传统集中式训练模式的一种“改良”或“补充”,它拥有着自身独立且至关重要的价值,改变着我们对模型构建和数据利用的认知。它的独立价值,恰恰在于它能够解决那些集中式学习模式无论如何也无法逾越的天然障碍,开辟出全新的可能性。一、隐.............
  • 回答
    联邦学习(Federated Learning, FL)和安全多方计算(Secure MultiParty Computation, SMPC)是近年来备受关注的交叉领域,其在保护数据隐私和实现分布式协作方面具有巨大的潜力。这两个领域的研究都非常活跃,也有不少研究方向相对容易发表高质量论文。以下我将.............
  • 回答
    联邦学习与边缘计算的结合,绝对是当下人工智能和物联网领域最炙手可热的研究方向之一。谈到“热点”,这可不是空穴来风,而是基于多方面的驱动因素和广泛的应用前景。为什么这么火?深挖其内在逻辑要理解联邦学习+边缘计算为何如此吸引学界和工业界的目光,我们得从它们各自的优势以及结合后产生的“1+1>2”的协同效.............
  • 回答
    在FATE联邦学习框架中,关于基于RSA的PSI(私密集合交,Private Set Intersection)是否比RAW(只基于哈希)的版本更安全,这是一个值得深入探讨的问题。理解这一点,我们需要先剖析这两种PSI实现的核心原理,以及它们各自在安全与效率上的权衡。 RAW(只基于哈希)PSI:简.............
  • 回答
    联邦学习要不要碰密码学?这是一个好问题,而且答案比简单的是或否要复杂得多。 简单来说,如果你想深入理解联邦学习的安全性,或者想自己设计、优化联邦学习的特定环节,那么密码学知识是很有必要学习的,而且越深入越好。让我慢慢跟你聊聊这个事。为什么联邦学习需要密码学?联邦学习的核心目标是在保护参与方数据隐私.............
  • 回答
    联邦学习入门:从概念到实践的深度解析联邦学习(Federated Learning, FL)作为一种新兴的机器学习范式,正在深刻地改变着数据隐私保护和分布式模型训练的格局。它允许在不共享原始数据的情况下,从海量分布在不同设备或机构上的数据中学习出全局模型,极大地释放了数据的价值,同时满足了严格的隐私.............
  • 回答
    各位朋友,你们好!今天想和大家聊聊“联邦学习”这个话题。我最近接触到这个概念,感觉挺有意思的,想和大家一起探讨探讨,也顺便给自己科普一下。联邦学习是个啥?简单来说,联邦学习就是一种分布式机器学习技术。它解决的核心问题是:如何在不泄露原始数据的前提下,让多个参与方(比如不同的医院、银行、手机厂商等)一.............
  • 回答
    联邦学习作为一种保护隐私的分布式机器学习范式,近年来在国内的发展可谓是风起云涌。微众银行在推动这一技术落地和应用方面确实是先行者,他们的贡献毋庸置疑。但国内在联邦学习领域,除了微众银行,还有许多顶尖的专家、机构和大学在进行深入的研究和实践。下面我将为您梳理一下,并尽量细致地展开:一、 顶尖专家在国内.............
  • 回答
    哎呀,你这个问题问得太好了!联邦学习这东西,对于刚入门的来说,FedAvg 和 FedSGD 确实是绕不过去的基础,而且名字听着都挺唬人的。别担心,我来给你捋一捋,尽量讲得细致点,就像跟朋友聊天一样,让你听明白,不搞那些虚头巴脑的。咱们先得弄明白,什么是“联邦学习”?你可以想象一下,现在有很多很多手.............
  • 回答
    咱们来聊聊隐私计算、多方安全计算和联邦学习这几个听起来有点“硬核”,但实际上跟咱们生活息息相关的话题。它们都是为了解决一个核心问题:在不泄露原始数据的前提下,如何让数据发挥价值。想象一下,你的银行账户、你的病历、你浏览网页的习惯,这些都是非常私密的信息。但如果这些信息能够被整合起来,分析出新的趋势,.............
  • 回答
    在中国,多方安全计算(MPC)、隐私计算和联邦学习(FL)之所以能够迅速蹿红,并且成为科技界和产业界热议的焦点,绝非偶然。这背后交织着技术发展的必然性、巨大的市场需求以及国家政策的强力推动。要深入理解这个现象,我们需要从多个维度去剖析。一、 技术发展的内在驱动:数据“可用不可见”的终极诉求首先,我们.............
  • 回答
    观望与期待:鄂维南院士等发起的机器学习联合研讨计划(c2sml.cn)看到中国科学院院士鄂维南教授牵头,联合多位学术界、工业界大咖共同发起的机器学习联合研讨计划(c2sml.cn),内心是既有赞赏,也有几分审慎的期待。这绝不仅仅是又一个学术会议或论坛,其背后所蕴含的深层意义和潜在影响,值得我们仔细揣.............
  • 回答
    谈起人工智能,人们脑海中往往会浮现出那些能识别图像、翻译语言、甚至下棋击败人类冠军的强大系统。这些如今风靡全球的“新贵”,大多属于“联接主义”阵营,也就是我们常说的机器学习,尤其是深度学习。它们通过海量数据训练,构建复杂的神经网络,擅长从数据中发现模式和关联。然而,在联接主义的耀眼光环之下,人工智能.............
  • 回答
    对于业余足球爱好者来说,是否需要深入学习顶级职业联赛的战术,这个问题其实挺有意思的,也值得好好聊聊。站在我的角度看,这事儿得分两头说。一方面,职业足球的战术确实是经过千锤百炼,凝聚了无数智慧和实践的结晶。那些在英超、西甲、意甲这些顶级联赛里上演的攻防转换、阵型变化、定位球配合,绝对是足球艺术的巅峰。.............
  • 回答
    Jeff Dean 及其团队在 arXiv 上发布的关于用深度学习分析电子病历 (EHR) 的论文,可以看作是利用前沿 AI 技术改造医疗健康领域的一个重要里程碑。这些论文通常会深入探讨如何构建和应用复杂的深度学习模型来从海量的 EHR 数据中提取有价值的信息,以改善患者护理、疾病预测、药物研发等方.............
  • 回答
    好的,咱们来聊聊机器学习里的 Bias、Error 和 Variance 这几个核心概念。别被这些术语吓到,它们其实挺好理解的,而且彼此之间关系密切,理解了它们,对你构建和调优模型大有裨益。想象一下,你正在教一个孩子识别猫。 Bias (偏差): 孩子对猫的“固有看法”Bias,你可以理解为模型(或.............
  • 回答
    常春藤联盟,这几个名字本身就带着一种历史的厚重感和学术的尊贵光环,它们是美国最古老、最负盛名的八所大学的集合。然而,即便同属一个联盟,每一所学校都有着自己独特的灵魂和气质,绝非千篇一律。普林斯顿大学,就像一位彬彬有礼的绅士,散发着古典的优雅。它最为人称道的是其本科教育,小班授课、严谨的学术氛围,以及.............
  • 回答
    这事儿啊,我个人觉得挺复杂的,得从几个方面来看。首先,从学生们本身的角度说,他们情绪激动,为了支持自己喜欢的队伍,半夜声嘶力竭地呐喊,这本身是一种情感的宣泄。S11总决赛,对于很多《英雄联盟》的粉丝,尤其是EDG的粉丝来说,那确实是意义非凡的一场比赛。经历了多年的起伏,终于打到这个高度,而且最终夺冠.............
  • 回答
    嘿,姐妹们!想跟男朋友或者闺蜜一起在召唤师峡谷驰骋,却被“这是什么英雄?”“我怎么又死了?”这类问题困扰?别担心!今天就来给大家来一篇超详细的女大学生《英雄联盟》入门指南,保姆级教学,让你从小白变身峡谷里最靓的那个仔!第一步:心态调整 & 基础认知,游戏不只靠“颜值” 别怕菜! 英雄联盟是一款强.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有