利益相关
高新技术对生活影响充满好奇与担忧的普通人 / 人工智能领域萌新研究者
即将过去的2020年,因新冠疫情这样的黑天鹅事件,给整个世界来了一次重击,即便到现在还未从中恢复过来。
知乎上有人问如果有机会,是否想重过一次2020年,反正我是不想再来一次,再经历这样痛苦的成长过程了……
不过呢,塞翁失马焉知非福,大灾难也逼迫逆境中的人们迅速成长起来,这个现象在互联网数字化进程方面显得尤为明显。
这几天朋友圈最火的科技资讯(?)应该是 Cyberpunk 2077 的发售吧,我的朋友们纷纷上手玩起来。说起来,在游戏中畅游虚拟现实场景,这本身就挺“Cyberpunk”味儿的。
为什么要说这个事情呢?是因为在工业界确实有一个类似的很重要概念或者说趋势——数字孪生[1]。
数字孪生,它的官方定义非常复杂,是这么说的:
数字孪生,是充分利用物理模型、传感器更新、运行历史等数据,集成多学科、多物理量、多尺度、多概率的仿真过程,在虚拟空间中完成映射,从而反映相对应的实体装备的全生命周期过程。
用通俗语言解释,就是在信息化平台中,针对现实的实体对象做一个数字版的“克隆体”。
可能有朋友说,这不就是建模嘛,画建筑图或者机械图做的不就是这个事情嘛?其实还有一个很重要的区别,就是数字孪生体对实体对象做了动态仿真,它用物理模型和来自传感器的数据,在数字世界复现了现实。这样做的好处是,我们可以在进行现实实验之前,先对数字孪生体进行操作,极大节约成本。
工业制造可能离日常生活有点远,但对科技动向感兴趣的朋友一定听过“智慧城市”这个概念。
在5G的支持下,云和端之间可以建立更紧密的连接,这也就意味着,更多的数据将被采集并集中在一起。它们可以帮助构建更强大的数字孪生体——数字孪生城市。
如今我们的城市布满了各种各样的传感器、摄像头。基础设施(水、电、气、交通等)的运行状态,市政资源(警力、医疗、消防等)的调配情况,都会通过这些传感器和数字化子系统采集出来,然后经过包括5G在内的物联网技术传递到云端。
城市的管理者,基于这些数据,以及城市模型,构建数字孪生体,从而更高效地管理城市。
为什么要提数字孪生和智慧城市这样看似和题目无关的内容呢?
其实我想说明的是,信息化、数字化、智能化的进程不可阻挡,它已经在悄然改变我们的生活。
如果反映到社会上,在产业互联网方面,它的表现形式可能就是企业正在大力推进智慧化、数字化、上云、人工智能等事宜,而抓不住这个浪潮的企业就会被淘汰。
千里之堤,溃于蚁穴。要想保障安全,必须有创见性地看到可能存在的问题,然后提前做准备,防患于未然;同时也要对已经出现的问题及时作出修正和改进。
正如丁珂[2]在发布趋势的会上所说:
产业互联网在疫情冲击之下展现出了强大的韧性,但这一过程也带来了全新的安全挑战。数字化对各行业的渗透加速,很多封闭的数字环境突然开放,这要求企业不仅要重视系统、产品本身的安全,更要以战略视角、产业视角和生态视角去看待安全,进行提前部署。
题干中的《2021年产业互联网安全十大趋势》就做了一个很好的总结工作,它从多个方面(政策法规、技术、理念、生态和思维)对互联网安全挑战进行了介绍,做了趋势的总结和预测,确实很有意义。
我相信来自不同领域的朋友能从趋势报告中收获不同的价值。举个例子,企业相关的朋友从中有助于更全面的建立顶层安全思维,全面统一的部署安全防御体系,针对不断放大的安全威胁前置的储备安全防御的人才和能力,或通过专业的安全服务商以更低成本、更高效率的建立安全堡垒。而另一方面,产业相关的朋友也会提起警惕,从法律法规、产业发展态势、重点安全风险等多个维度,进一步探讨未来产业安全与安全产业的发展特性。
这十大趋势涵盖的领域较广,我平常也有着重关注其中讨论的人工智能和法律法规的研究进展,就在下一部分进行介绍吧。
多个方面出现挑战,我们需要在多个方面,结合不同领域人的力量解决问题。
政府层面,各国都在加强立法的进程。
以数据安全为例,比如欧洲建立了GDPR的数据法规。国内也有相关的保护法,在国家层面、地区层面,大家都在探索类似于、甚至更加严格于GDPR的数据法规。
以前某企业家代替国人发表的观点“用隐私交换便捷性,很多情况下(中国人)他们是愿意的”将逐渐过时。
对网络安全立法感兴趣的,可以看复旦沈逸和江天骄老师牵头的工作《重点国家网络安全立法洞察报告》。
企业层面,安全相关的思维和技术逐渐得到重视。
趋势的发布有助于企业更全面的建立顶层安全思维,全面统一的部署安全防御体系,针对不断放大的安全威胁前置的储备安全防御的人才和能力,或通过专业的安全服务商以更低成本、更高效率的建立安全堡垒。
比如报告中提到的“隐私计算”“零信任架构”“云原生安全”“5G安全”等各企业都在研究和部署中。此外,数字业务层面,传统产业数字化转型中,在业务构建初期将考虑更多的安全因素,以此规避安全风险,降低解决安全问题的成本,安全将与数字业务的研发设计、应用管理相互共生,齐头并进。
注:文章的最后一个部分我会介绍一种人工智能隐私方面的重要领域“联邦学习”。
个人层面,我们的观念需要随时代进行改变。
维护一个系统的安全需要照顾到方方面面,但攻破这个系统只需要一个很小的点。
打个不恰当的比方,最近成都疫情中,一位年轻女性的个人隐私信息被工作人员和其朋友散布到网络空间,造成了当事人的很大损失。
作为科技领域的研究者,虽然我的研究领域不在互联网安全这方面,但我依旧关心这次十大趋势的发布,因为它能够在社会安全认知层面提高大众对于网络威胁、个人数据安全、隐私等的重视。
我们很多人生活或者工作中没有保护隐私和注意安全的好习惯,哪怕各种系统设计得再好,也很容易从“人”这个环节被突破。所以网络安全教育是很有必要向利益相关人员进行普及的。
那么我能做什么?
既然作为人工智能领域的萌新研究者,我希望介绍一个相关的重要研究领域给大家,那就是“联邦学习(Federated Learning)”[3]。
对人工智能领域有所了解的朋友应该知道,人工智能在现实应用中部署有三大要素,分别是“算力、算法和数据”,其中,算力和算法是生产力,数据是生产资料。
21世纪以来,人工智能的重大突破来源于深度学习的广泛应用,而训练深度学习模型需要大数据(因为有海量的模型参数),但在实际运用过程中碰到更多的都是小数据。
比如金融反洗钱,因为洗钱案例是少数现象,所以每一个案例都非常重要。对于医疗图像,经过有经验医师的非常好的标注的医疗图像也很少。
一个很自然的解决方案是,一个地方获取的数据不够多,我们是不是能把多个地方的数据合起来,聚少成多呢?
像前面提到的智慧城市的例子中,智慧城市部署了大量的摄像头,每一个摄像头可以获取的数据其实是有限的,我们希望能聚合不同摄像头的数据。但在实际应用中,如果它们来自不同的公司,有不同的格式,或涉及用户隐私,就无法简单粗暴合并。
出于安全和隐私的考量,把不同地方的数据聚合起来,聚少成多的路子行不通。那应该怎么解决这个问题呢?这时候就需要联邦学习了,联邦学习的最大特点就是“数据不动,模型动”。
为了解释这个概念,杨强老师讲了一个放羊的故事:
假设用一只羊来类比机器学习模型,我们希望羊吃了草以后能够长大。
过去的做法是,把草买到一起来建立模型。比方说左边的模型,左边的箭头是指向羊的。羊不动,但是草被购买到中心。相当于用简单粗暴的办法来获取数据,形成大数据,来建立模型。
但我们希望能够保护各自的隐私,所以让草不动,让羊动。也就是说,我们带着模型到不同的草场去访问,那么久而久之羊就长大了——这个就是联邦学习的新思路,就是让草不出草场,本地主人无法知道羊吃了哪些草,但是羊还是长大了。
换句话说,来自各个用户的数据不需要离开它所在的终端,只需要通过某种方式获取其中一些不涉及隐私、脱敏的特征,就能帮助到人工智能模型的训练。这就做到了既聚少成多,又保护隐私和维护信息安全。
具体怎么做呢?简介一下横向联邦学习和纵向联邦学习~
横向联邦学习:样本不同特征同
假设每一个数据拥有方具有不同的样本,但是纵向特征却基本一致。这就相当于我们有那么大的一个大数据的数据集,从横向进行切割,形成了一堆一堆的样本,他们的特征却是类似的。
比如每一个手机都是我们个人在使用,形成了一堆样本。有不同的手机,每个手机基本上取的这些特征都一样,但样本却不同。我们希望在数据不动的情况下,能够聚合这些手机上的数据的这些能力,建立大数据模型。
就像这个图左边所示的数据集们,依次对应右边各终端上面的数据。它们的特征是纵向的,X1、X2、X3是类似的,但样本U1、U2…U10却是不同的。所以这个叫横向切割,按样本切割,简称横向联邦学习。
纵向联邦学习:样本重叠特征异
横向联邦,是按用户来分割,按样本来分割。
那有没有这种情况:样本几乎都一样,在不同的数据拥有方,但特征不一样。比如不同机构、公司之间,面临的用户几乎都是一样的,但是他们的特征不一样。
举例来说,视频网站有很多用户的视频喜好,卖书的网店几乎也有同样的用户集,但它们的特征却不一样,这边是有关书的,那边是有关视频的。又比如两个银行,一个银行可能有很多贷款,另外一个银行可能有很多理财,他们的用户群可能也是有很大的重叠。
过去的做法是把数据买过来,然后在一个服务器上加以聚合,现在这个事儿行不通了。我们就思考联邦学习能不能来做这个事儿。
这种联邦是特征不同,但是样本重叠,按照特征竖着来切,所以叫纵向联邦。如图所示,两个机构之间的沟通也是加密的模型参数,而不是数据本身。给到任意两个数据A和B,不一定所有的是样本都重叠。但是如果我们有办法找到足够多的重叠的那一部分,就可以在这一部分上进行建模,用联邦学习来建模。
特别地,联邦学习是人工智能领域保护隐私和维护安全的一种具体解决方案,如果希望了解网络安全中人工智能治理情况全貌,可以参考《人工智能治理白皮书》。
限于篇幅和深度,就写到这里,特别推荐如下资料:
联邦学习
人工智能治理
网络安全立法
虽然我们面临的挑战越来越多,但我相信在社会各界的合作下,我们能够披荆斩棘,克服困难的~