wasserstein 距离的问题? 第1页

feng-hao-zhe-66 网友的相关建议:

我们常常用KL散度进行两个分布的相似度度量, 但是KL散度具有非对异性，值域无限，同时因为其具有这一项，用于深度学习的反向传播过程中容易出现梯度爆炸等情况，这导致了用KL散度进行分布的距离度量在深度学习训练中的不稳定性。针对这些问题，我们简要介绍基于最优传输理论所导出的Wasserstein距离，它有对称性，对于正态分布存在比较简单的闭式解，同时计算过程中没有函数带来的数值问题，比较适合深度学习使用。同时, Wasserstein距离有着最优传输这一简洁直观的解释, 在很多分布度量性方面有着比KL散度更优越的性质。

我们首先介绍最优运输问题(Optimal Transport)的定义与基本形式，然后自然地将其与Wasserstein距离建立联系，最后本文将简单以CMU的文献为基础介绍Wasserstein距离显著优越的几个情形，离散采样中Wasserstein距离的计算与在某些分布上的闭式解。

最优运输问题的定义与基本形式

给定一个完备可分度量空间(也称Polish空间，其定义见附录)，我们用来表示在上的Borel概率测度的集合。这也就是说，都是一个概率测度，注意我们可以把看成是一个分布函数而不是概率密度，才是概率密度。如果是2个Polish空间, 是一个Borel映射（见附录，直观理解就是中的所有开集和闭集，以及可数个开集和闭集的集合运算所构成的Borel子集，都能在中找到它的原象，这个原象也可以写成中的Borel子集），给定概率测度, 构造从到的泛函映射：

由Borel映射的性质，可得对于中任意Borel子集，满足关系

考虑对空间, 我们定义了一个费用函数用以度量在两个空间之间进行搬运的损失，即将转移到的损失如下：

定义空间中每一个所占据的质量为，空间中每一个所占据的质量为, 那么对于满足的最优运输策略而言, 它的损失为:

因此我们可以构造的映射

而寻找使得取得最小值的过程可以用变分法求解，我们将

称作Monge视角下的最优运输问题.注意到在这个问题中，是不可分的，也就是说只能把一个移动到一个位置，而不能将一个进行细分并移动到多个位置, 这就导致了令式取最小值可能没有解，甚至空间可能是。构造一个病态场景如下: 为dirac-delta度量,令，假设存在运输策略，满足，那么, 这与要么取0要么取1矛盾，因此该问题没有解。

基于这种情况, 一个很自然的想法是让变得可分，也就是说此时可以分成很多份，同时用于接收的也满足可以分为很多份，这样就可以细分并运送给不同的位置了。在这个视角下我们对最优运输问题有了新的定义，即Wasserstein形式的最优运输问题:

其中,(可以理解为是的联合分布函数)，满足边缘分布的约束：

将该边缘约束写成泛函的形式。定义，那么被称为是最优运输方案的满足边缘分布条件:

可以认为为将质量的位于位置的物品切片播撒到空间的每一个位置，其中任意一个位置的物品质量为,它们满足

从最优运输问题到Wasserstein距离

从式中我们可以很自然地推广到两个分布之间的Wasserstein距离。一个很自然的想法是，因为都在d维实空间中，因此可以通过距离定义损失，即令。已知分布，我们有:

我们可以通过变分方法证明, 令有解的是存在的，同时存在对偶形式,即

当时, 式可以简单化为:

当时(此时对没有要求)，对于一维随机变量的Wasserstein距离问题，我们可以给出简单的闭式解:

其中为的分布函数。

Wasserstein距离的优越性,计算方法与闭式解

Wasserstein距离的优越性

有6个例子可以说明Wasserstein距离的优越性:

f-distance无法很好地度量离散分布与连续分布的相似度。假设为区间上的均匀分布, 是均匀取值为的离散分布。显然当时，。因此应该为的减函数。但是用Total Variation进行度量时,其结果始终为1, 而Wasserstein距离的结果为, 这就更合理。
f-distance丢失了空间中的几何特征.

如图所示为3个分布, 在f-distance下这三个分布两两距离相同, 但是在wasserstein-distance下, 这更加符合直观。
用wasserstein-distance可以诱导出更自然的概率平均.

图中顶部的每一个正方形中的圆圈代表一种分布在圆周上的均匀分布, 底部左边是按进行概率平均所得到的分布函数结果，而底部右边则是按所得到的Wasserstein平均分布.我们可以很自然地看出用Wasserstein距离所得到的平均分布更能刻画分布的特征。
用f-distance进行分布距离计算时, 得到的度量只是一个序关系, 它并没有解释分布到底在哪里不同。但是当我们计算Wasserstein距离时, 我们得到了一个最优运输方案, 告诉我们一个分布是如何变成另外一个分布的, 具有更强的可解释性。
如果我们要得到在两个分布间的"插值",我们自然希望这个插值展现的是一个不改变分布基础形态特征(比如分布有几个峰,峰的高度是多少)的连续变化。

如图所示, 图底部展示了用的变化，它破坏了分布函数的基础特征，而图顶部则用了Wasserstein距离计算的变化方案，即通过进行插值。其中是令中取得最小值的"运输方案"，即。
Wasserstein距离对于强烈的局部扰动并不敏感。考虑区间上的均匀分布与定义在区间上的密度函数为的分布。随着的增大,函数的周期变小，频率变大，震荡更快，但是随着，应该更加接近于均匀分布, 此时更加合理。

Wasserstein距离的计算方法

式给出了一维随机变量的距离简洁的计算方法，因此对于的情形, 我们可以将其与一维随机变量的分布函数建立联系。假设此时有d维实空间空间中的分布, 我们取空间球面上均匀分布的随机变量，构造为的密度函数，为的密度函数, 它们是原分布在空间球面上的投影，我们定义sliced Wasserstein distance，为

可以用估计原本的Wasserstein distance，注意到都可以看成是一维随机变量的分布函数，其Wasserstein distance可以通过次序统计量计算。假设我们有一维密度函数分布的两组离散采样, 可以采用次序统计量如下计算：

Wasserstein距离的闭式解

这里不加证明地给出几种分布的Wasserstein距离的闭式解:

Normal distributions

附录(名词解释)

完备可分度量空间:一个完备度量空间是可分的当且仅当它存在一个可数稠密子集，或者说空间上存在一个序列满足该空间中的任意一个开子集都至少包含该序列中的一个元素. 是完备可分度量空间。
Borel集:由R上所有左开右闭区间所组成的代数。
Borel映射:从拓扑空间的Borel映射满足对于中任意开集, 闭集以及Borel子集, 它的原象都是中的Borel子集。

参考资料:

本文使用 Zhihu On VSCode 创作并发布

wasserstein 距离的问题? 的其他答案点击这里

前一个讨论

KL散度衡量的是两个概率分布的距离吗？

下一个讨论

计算机图形学毕业生怎么这么少啊？