@王晋东不在家 写的很不错了,我权当提供一些我的看法。
确实,我们看已经发表的(主要)成果,看起来都很工程,比如,谷歌的一系列文章[1][2][3]给人的感觉就是,一个FedAvg搞一堆应用,打几个补丁,能用了,over.
不过我觉得一个概念从提出到完善一定要经历如下的过程。
提出——价值被认可——有人先应用——应用了,发现问题——把问题规范化(俗称挖坑)——解决问题
一般说来只有把问题规范化了以后,才能发表(至少看起来)很学术的成果。所以,如果认为联邦学习只是一个工程应用那还是不合适的,与其说它只能做工程应用,不如说是大部分人还没有着手去发现问题。就像在2012年AlexNet刚刚提出的时候,我们也想不到CV会有那么多open questions,比如各种检测,语义分割,模型压缩,等等……
另外,我觉得现在联邦学习主要在工业上,其实不一定是坏事,原因有两点,
以上是我对联邦学习研究现状的一些粗浅的解读。
从我最近对联邦学习的思考和文章阅读,我觉得有不少学术问题是联邦学习需要解决的:
我能想到的大概这么多。毫无疑问,一旦等这些问题被回应/严格化了以后,联邦学习就能超越工程应用了。
亲身经历:在大数据公司实习时,第一次见识到数据的重要性,由于不同公司下属业务不同,所得到的用户字段和标签具有领域特色,如银行用户的特征为金融活动,购物app的用户特征为购物活动,交通app用户的特征为交通活动,那么在构造用户画像的时候,不同公司只能根据自己公司数据库的数据进行特征设计和数据挖掘,来构造领域内用户画像。但人们会轻而易举得想到,各个方面、不同特征的建立可以使用户画像更丰满,真实度更高,因此需要联通各个领域的用户特征。但同公司间数据因为隐私不能直接共享,要么脱敏,要么上区块链,使得数据获取非常麻烦。联邦学习很大程度上缓解了这种麻烦。
以下推荐杨强教授的讲座,清晰展示了联邦学习的发展和应用。
杨强教授在市北·GMIS 2019 全球数据智能峰会上的演讲内容:
亲,你好,首先,纠正一个概念:联邦学习并不是一个纯粹的工程思路。任何机器学习方法和分支的发展,都是伴随着数据、算法和工程的发展而来的,缺失其中的一个环节都很难做起来。因此,你不能单纯地说哪一种方法就只有工程。
我觉得之所以你会有这样的感觉,可能是因为联邦学习本身就是解决AI落地这个看似美好但是困难重重的挑战而来的。
从数据角度来看,其主要解决的是隐私保护的情境下,如何更高效地计算问题,这个问题在之前也是从未被提到如此重要的一个高度。
接着,有了隐私保护、数据不出本地的这个场景,自然而然,传统的机器学习、深度学习算法就无法直接进行应用,需要有专门的算法来解决这个挑战。
算法和数据都有了,相对应的,企业中现有的那些基础设施、工程实现,也需要有针对性地重新改造和设计。拿Tensorflow来说,Google还单独做了一Tensorflow-federated。
综上,从宏观上来讲,联邦学习并不只是一个单纯的工程应用,其背后涉及到诸多复杂的算法、模型、数据问题。
联邦学习的理想很丰满,但现实很骨感,路需要一步步走出来,这不仅需要工业界的参与,也需要学术界的研究。很多问题也在最近一两年的顶级会议,包括ICML、NIPS、AAAI、IJCAI等都有相关的论文发表。
由此可见,联邦学习并不只是工业界的事,学术界也在做。建议以federated learning为关键词去Google学术上进行一些搜索,你就知道现在还有很多没解决的研究问题。举几个我认为存在广泛的研究可能的例子:
1. 模型在服务器端更新的方法有哪些?
通常做法是在服务器端取多个个体的平均值。最近有文章提出说用中值(median)更好。但是到底如何做诸多模型的集成和更新,能够考虑时效性、综合性、高精度?
2. 联邦学习鲁棒性,是否存在“一块坏肉坏了满锅汤”问题。
这个肯定有,今年ICML-19有一篇就在探讨攻击某些个体对服务器模型的影响。理论上这些问题存在,不过目前的应用都是两个参与方,所以比较容易控制。但这是一个值得研究的问题。
3. 联邦学习认为个体对等,但实际场景上是不对等的,比如数据数量、质量的不均衡,如何处理?
在实际应用中,个体端需要对数据进行校验,首先保证其可用性;个体还需要告诉服务器数据分布情况的统计信息,服务器端根据这些信息进行统一的整合,对质量好的模型给高权重,等等策略。
4. 加密结果是否影响最终结果。
不同加密方法肯定对结果有影响。实际使用中用同态加密,它有可加性,所以个体加密,传到服务器上做平均。整个过程是加密数据。然后把平均后的发送给每个个体,其再进行解密。也就是说,此时服务器没有进行模型的update,只是充当计算权重的角色。
5. 服务器端对不同个体的权重整合学习过程是否可以是一个meta-learning过程,自动学习最优的服务器参数?
目前最简单的就是平均,理论上当然可以做meta-learning,学习不同个体的权重。但这时的问题是,基于什么数据、如何评价这个meta-learning的结果?最简单的设想,服务器端有一些公共开源数据用于评测。这方面还有待研究。
最后总结一下,你看我说的这些问题在隐私保护情境、数据不出本地的限制条件下,是已经得到了很好的解决,还是正在解决的路上呢?
参考资料:
[1] Yang Q, Liu Y, Chen T, et al. Federated machine learning: Concept and applications[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2019, 10(2): 12.
[2] https://www.zhihu.com/question/329518273/answer/717840293
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有