抄一下信息几何。在信息几何中,我们把某个分布族看成一个 Riemannian 流形,然后以微分几何为工具来研究其上统计分布之间的 divergence。一般而言,对概率分布 和 ,称符合以下性质的 为它们之间的一个 divergence:
(注意 divergence 跟距离不一样,距离要求的是对称+三角不等式;定义上看,divergence 更像是不对称的“距离平方”)
把 Riemannian 度量直接取成正定矩阵 是比较自然的想法,因为 直接对应 的局部信息。不过,它所对应的 Levi-Civita 联络 在研究 divergence 上用处不是特别大:我们需要某种“非对称”的结构。信息几何考虑的是对偶(仿射)联络 和 :对流形上的任意向量场 和 , 和 满足
回忆一下, 满足的是 ;从这个定义可以得出诸如 对应的 parallel transport 保角/保距离等性质。类似地,对偶联络也有类似的保角性质:对流形上任意光滑曲线 及 处的向量 和 ,有
,
其中 表示把 沿着 用 从 平行移动至 。
可以验证,第一类 Christoffel symbols 满足
的两个联络构成一对对偶联络(暂时就叫 canonical 的对偶联络好了)。Riemannian 流形上的对偶联络一般不是唯一的,但 和 之间总有简单关系: ,在这个意义下,可以把 看成是自对偶的联络。
进一步可以证明, 对应的曲率= 对应的曲率;所以如果流形在 下是平的,那它在 下也是平的,这时称这个统计流形是 dually flat 的。假设 dually flat 的统计流形上有三个点(概率分布) 和 ,且连接 和 的 -测地线 与连接 和 的 -测地线 互相“垂直”(普通内积意义下,不是 的意义下),则有 generalized Pythagorean theorem:
这个定理把 和 跟 联系了起来,部分回答了我们为什么要研究对偶仿射联络,同时也印证了上面说 divergence 差不多是某种距离的平方的直觉。Generalized Pythagorean theorem 可以帮助我们证明概率分布到统计子流形(在最小化 的意义下)的投影的唯一性,从而是某些求 -投影的迭代算法的理论保证。
(有几个日常操作都可以归为投影。如果 是 数据的经验分布,子流形 是某个参数分布族,则把 往 上投影就相当于在做参数估计;当使用 KL-divergence 时就是 MLE。又比如说 是均匀分布, 是满足约束 的子流形,那么把 往 上投影就是在求对应约束的最大熵分布)
上面说得比较抽象,我们可以在指数分布族和 KL-divergence 上具体看一下。假设概率密度函数 ,则 KL-divergence 是凸函数 所对应的 Bregman divergence: ,且对应的 Riemannian 度量是 Fisher information matrix 。进一步可以验证,canonical 对偶联络是 dually flat 的,它们的坐标系恰好就是 和 (各分量同时也是测地线),且之间由一个Legendre 变换联系起来: ,或者说 ,其中 是 的 Fenchel-duality,当然它也是凸的。然后我们知道 Bregman divergence 满足
既然 对应的这个流形是 dually flat 的,那么 和 分别也是 处 -测地线和 -测地线的切向量。当它们互相“垂直”时,等式中的最后一项为0,我们也就回到了上面的 generalized Pythagorean theorem。
(Bregman divergence 中的 都是梯度)
(一般地,对于 dually flat 的统计流形,存在一对 Legendre 变换对 和 和对偶的坐标系 和 ,使得 成立)
上面提到对偶联络不是唯一的,事实上我们可以从 canonical 对偶联络生成一族对偶联络。记 。对 ,定义
则 和 对应的 和 是一对对偶联络。事实上,它们还是 -divergence 的 canonical 对偶联络。
( -divergence 是 -divergence 的一种。对满足 的可微凸函数可以定义 -divergence ; 取 时就是 -divergence; 时 -divergence 变为正向/反向的KL-divergence。 -divergence之所以重要是因为它是同时满足 invariant 和 decomposable 的唯一 divergence 类)
(Decomposable:divergence 有形式 或 ;Invariant:有点长不想抄……大概是说对数据作变换 后信息一般会有损失,其中一个表现是 divergence 的“分辨度”会下降,invariance 说的是如果 是 的充分统计量,那么这个“分辨度”不会下降;具体可以搜一下 information monotonicity)
(事实上一般的 -divergence 也可以诱导出一对 ,这时 ;可以用上面的 验证一下)
然后上面这套对偶联络的东西也可以跳出统计的背景,放进纯数学中去考虑。这时候似乎叫 Hessian Structures。
要说信息几何有什么具体的应用,我不是做这个的所以没有跟最近的文献。甘利俊一的 Information Geometry and Its Applications 里面列了不少,有兴趣可以看看(比如说处理各种指数分布族的变体,像 curved/kernel/deformed exponential family 等等,还有一些非参数的扩展;也确实可以用来做假设检验,出发点是把 Bayes error 放大成 Chernoff information 然后用几何工具去处理)。
最新发展的话,有个两年开一次的会叫 Geometric Science of Information ,还有个叫 Entropy 的期刊好像也会每三年为信息几何弄个 special issue,可能都可以看一下(我并没有看)。
(本文大量抄写自 An elementary introduction to information geometry,参考文献请在里面找)
(也可以看看知乎上其他人写的关于信息几何的答案)