联邦学习在机器学习领域有什么独立存在的价值? 第1页

hong-hui-niu-rou-fan 网友的相关建议:

有什么价值？好问题！答案是... 可以用paper来互怼！

"How to Backdoor FL"

"Can You Really Backdoor FL?"

"Yes, You Can Really Backdoor FL"

接下来的标题我都替你们想好了

"No, You Really Can't Backdoor FL"

"Actually, You Definitely Can Backdoor FL"

"Are You Sure You Can Backdoor FL?"

"I'm Pretty Sure I Can Backdoor FL"

...

mai-kang-ming 网友的相关建议:

@王晋东不在家写的很不错了，我权当提供一些我的看法。

确实，我们看已经发表的（主要）成果，看起来都很工程，比如，谷歌的一系列文章^[1]^[2]^[3]给人的感觉就是，一个FedAvg搞一堆应用，打几个补丁，能用了，over.

不过我觉得一个概念从提出到完善一定要经历如下的过程。

提出——价值被认可——有人先应用——应用了，发现问题——把问题规范化（俗称挖坑）——解决问题

一般说来只有把问题规范化了以后，才能发表（至少看起来）很学术的成果。所以，如果认为联邦学习只是一个工程应用那还是不合适的，与其说它只能做工程应用，不如说是大部分人还没有着手去发现问题。就像在2012年AlexNet刚刚提出的时候，我们也想不到CV会有那么多open questions，比如各种检测，语义分割，模型压缩，等等……

另外，我觉得现在联邦学习主要在工业上，其实不一定是坏事，原因有两点，

证明了联邦学习这个概念——多方合作的隐私保护机器学习是有价值且值得继续做的，这就带动了企业的科研团队研究，毕竟做了能挣钱。
只有大规模用了，才能发现要解决的问题。如果提出一个概念根本没人用，那这个概念的问题这辈子都发现不了。反之如果一个东西一直有人用，那总会有人感到不满意从而提出问题。

以上是我对联邦学习研究现状的一些粗浅的解读。

从我最近对联邦学习的思考和文章阅读，我觉得有不少学术问题是联邦学习需要解决的：

优化。已经有工作证明了朴素的FedAvg在非iid数据上会有发散和不最优的问题^[4]^[5]（今年7月挂的arxiv，三个月已经有7个引用了）
通讯和计算花费。如果是部署在终端上的联邦学习，你肯定不可能让什么麒麟980跑Transformer和DenseNet，这就意味着肯定要经过特定的模型压缩才能让模型真正跑起来。而且，你也不可能指望家用wifi能有多大的带宽，传几个G的模型参数肯定是不靠谱的，所以降低通讯成本也是必要的。这方面有相关工作，但是比较general^[6]
鲁棒性，就像刚才说的一样，不可能指望家用wifi有多好的可靠性，这样就必须要应对客户端掉线的问题，怎么做鲁棒的联邦学习，是有必要研究的（比如说调度策略，安全计算策略）
激励机制：如果是面向企业（2B）的联邦学习，自然要让企业看到好处才能建立生态。这方面我不是太懂，只是提出一个概念，建立相关机制可能要用到超越CS/AI领域的知识。
安全隐私。联邦学习提出是为了解决数据隐私，但是很不好意思，已经有很多工作研究了它的安全漏洞^[7]^[8]，所以这方面肯定是重要课题，如何应对对隐私的攻击。现有的解决方式有的用了加密计算，不过这样的话效率又很成问题。
数据问题。联邦学习提出是为了解决数据不够/质量不好，但是目前的应用里面，数据量都特别大（参见谷歌那么多应用，哪个应用真的数据不够了），所以这一点还没有得到足够的回应。某些领域里面，天生的就是数据不够或者质量不好（比如医疗），在这种情况下怎么发挥联邦的作用，也是一个值得讨论的问题。

我能想到的大概这么多。毫无疑问，一旦等这些问题被回应/严格化了以后，联邦学习就能超越工程应用了。

参考

^McMahan, H. Brendan, et al. "Communication-efficient learning of deep networks from decentralized data." arXiv preprint arXiv:1602.05629 (2016). https://arxiv.org/pdf/1602.05629
^Bonawitz, Keith, et al. "Practical secure aggregation for privacy-preserving machine learning." Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security. ACM, 2017. http://delivery.acm.org/10.1145/3140000/3133982/p1175-bonawitz.pdf?ip=175.159.126.140&id=3133982&acc=OA&key=CDD1E79C27AC4E65%2EFC30B8D6EF32B758%2E4D4702B0C3E38B35%2E5945DC2EABF3343C&__acm__=1571921715_7c82a1a879563b41f046994ae4000087
^Yang, Timothy, et al. "Applied federated learning: Improving google keyboard query suggestions." arXiv preprint arXiv:1812.02903 (2018). https://arxiv.org/pdf/1812.02903
^On the Convergence of FedAvg on Non-IID Data https://arxiv.org/pdf/1907.02189.pdf
^Federated Learning with Non-IID Data https://arxiv.org/pdf/1806.00582.pdf
^Federated learning: Strategies for improving communication efficiency https://arxiv.org/pdf/1610.05492
^Deep models under the GAN: information leakage from collaborative deep learning https://arxiv.org/pdf/1702.07464
^Exploiting unintended feature leakage in collaborative learning https://arxiv.org/pdf/1805.04049.pdf

zwwwk 网友的相关建议:

亲身经历：在大数据公司实习时，第一次见识到数据的重要性，由于不同公司下属业务不同，所得到的用户字段和标签具有领域特色，如银行用户的特征为金融活动，购物app的用户特征为购物活动，交通app用户的特征为交通活动，那么在构造用户画像的时候，不同公司只能根据自己公司数据库的数据进行特征设计和数据挖掘，来构造领域内用户画像。但人们会轻而易举得想到，各个方面、不同特征的建立可以使用户画像更丰满，真实度更高，因此需要联通各个领域的用户特征。但同公司间数据因为隐私不能直接共享，要么脱敏，要么上区块链，使得数据获取非常麻烦。联邦学习很大程度上缓解了这种麻烦。

以下推荐杨强教授的讲座，清晰展示了联邦学习的发展和应用。

杨强教授在市北·GMIS 2019 全球数据智能峰会上的演讲内容：

jindongwang 网友的相关建议:

亲，你好，首先，纠正一个概念：联邦学习并不是一个纯粹的工程思路。任何机器学习方法和分支的发展，都是伴随着数据、算法和工程的发展而来的，缺失其中的一个环节都很难做起来。因此，你不能单纯地说哪一种方法就只有工程。

我觉得之所以你会有这样的感觉，可能是因为联邦学习本身就是解决AI落地这个看似美好但是困难重重的挑战而来的。

从数据角度来看，其主要解决的是隐私保护的情境下，如何更高效地计算问题，这个问题在之前也是从未被提到如此重要的一个高度。

接着，有了隐私保护、数据不出本地的这个场景，自然而然，传统的机器学习、深度学习算法就无法直接进行应用，需要有专门的算法来解决这个挑战。

算法和数据都有了，相对应的，企业中现有的那些基础设施、工程实现，也需要有针对性地重新改造和设计。拿Tensorflow来说，Google还单独做了一Tensorflow-federated。

综上，从宏观上来讲，联邦学习并不只是一个单纯的工程应用，其背后涉及到诸多复杂的算法、模型、数据问题。

联邦学习的理想很丰满，但现实很骨感，路需要一步步走出来，这不仅需要工业界的参与，也需要学术界的研究。很多问题也在最近一两年的顶级会议，包括ICML、NIPS、AAAI、IJCAI等都有相关的论文发表。

由此可见，联邦学习并不只是工业界的事，学术界也在做。建议以federated learning为关键词去Google学术上进行一些搜索，你就知道现在还有很多没解决的研究问题。举几个我认为存在广泛的研究可能的例子：

1. 模型在服务器端更新的方法有哪些？

通常做法是在服务器端取多个个体的平均值。最近有文章提出说用中值(median)更好。但是到底如何做诸多模型的集成和更新，能够考虑时效性、综合性、高精度？

2. 联邦学习鲁棒性，是否存在“一块坏肉坏了满锅汤”问题。

这个肯定有，今年ICML-19有一篇就在探讨攻击某些个体对服务器模型的影响。理论上这些问题存在，不过目前的应用都是两个参与方，所以比较容易控制。但这是一个值得研究的问题。

3. 联邦学习认为个体对等，但实际场景上是不对等的，比如数据数量、质量的不均衡，如何处理？

在实际应用中，个体端需要对数据进行校验，首先保证其可用性；个体还需要告诉服务器数据分布情况的统计信息，服务器端根据这些信息进行统一的整合，对质量好的模型给高权重，等等策略。

4. 加密结果是否影响最终结果。

不同加密方法肯定对结果有影响。实际使用中用同态加密，它有可加性，所以个体加密，传到服务器上做平均。整个过程是加密数据。然后把平均后的发送给每个个体，其再进行解密。也就是说，此时服务器没有进行模型的update，只是充当计算权重的角色。

5. 服务器端对不同个体的权重整合学习过程是否可以是一个meta-learning过程，自动学习最优的服务器参数？

目前最简单的就是平均，理论上当然可以做meta-learning，学习不同个体的权重。但这时的问题是，基于什么数据、如何评价这个meta-learning的结果？最简单的设想，服务器端有一些公共开源数据用于评测。这方面还有待研究。

最后总结一下，你看我说的这些问题在隐私保护情境、数据不出本地的限制条件下，是已经得到了很好的解决，还是正在解决的路上呢？

参考资料：

[1] Yang Q, Liu Y, Chen T, et al. Federated machine learning: Concept and applications[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2019, 10(2): 12.

[2] https://www.zhihu.com/question/329518273/answer/717840293

[3] https://zhuanlan.zhihu.com/p/43662982

联邦学习在机器学习领域有什么独立存在的价值? 的其他答案点击这里

联邦学习在机器学习领域有什么独立存在的价值? 第1页

参考

相关话题

前一个讨论

下一个讨论

相关的话题