百科问答小站 logo
百科问答小站 font logo



微分几何在统计或者理论的计量经济学中有什么应用? 第1页

  

user avatar   zi-yuan-35 网友的相关建议: 
      

抄一下信息几何。在信息几何中,我们把某个分布族看成一个 Riemannian 流形,然后以微分几何为工具来研究其上统计分布之间的 divergence。一般而言,对概率分布 和 ,称符合以下性质的 为它们之间的一个 divergence:

  1. ,且
  2. 存在某个正定矩阵 使得 ;或者说, 至少二次可微且 在 时取极小。

(注意 divergence 跟距离不一样,距离要求的是对称+三角不等式;定义上看,divergence 更像是不对称的“距离平方”)

把 Riemannian 度量直接取成正定矩阵 是比较自然的想法,因为 直接对应 的局部信息。不过,它所对应的 Levi-Civita 联络 在研究 divergence 上用处不是特别大:我们需要某种“非对称”的结构。信息几何考虑的是对偶(仿射)联络 和 :对流形上的任意向量场 和 , 和 满足

回忆一下, 满足的是 ;从这个定义可以得出诸如 对应的 parallel transport 保角/保距离等性质。类似地,对偶联络也有类似的保角性质:对流形上任意光滑曲线 及 处的向量 和 ,有

其中 表示把 沿着 用 从 平行移动至 。

可以验证,第一类 Christoffel symbols 满足

的两个联络构成一对对偶联络(暂时就叫 canonical 的对偶联络好了)。Riemannian 流形上的对偶联络一般不是唯一的,但 和 之间总有简单关系: ,在这个意义下,可以把 看成是自对偶的联络。

进一步可以证明, 对应的曲率= 对应的曲率;所以如果流形在 下是平的,那它在 下也是平的,这时称这个统计流形是 dually flat 的。假设 dually flat 的统计流形上有三个点(概率分布) 和 ,且连接 和 的 -测地线 与连接 和 的 -测地线 互相“垂直”(普通内积意义下,不是 的意义下),则有 generalized Pythagorean theorem:

这个定理把 和 跟 联系了起来,部分回答了我们为什么要研究对偶仿射联络,同时也印证了上面说 divergence 差不多是某种距离的平方的直觉。Generalized Pythagorean theorem 可以帮助我们证明概率分布到统计子流形(在最小化 的意义下)的投影的唯一性,从而是某些求 -投影的迭代算法的理论保证。

(有几个日常操作都可以归为投影。如果 是 数据的经验分布,子流形 是某个参数分布族,则把 往 上投影就相当于在做参数估计;当使用 KL-divergence 时就是 MLE。又比如说 是均匀分布, 是满足约束 的子流形,那么把 往 上投影就是在求对应约束的最大熵分布)

上面说得比较抽象,我们可以在指数分布族和 KL-divergence 上具体看一下。假设概率密度函数 ,则 KL-divergence 是凸函数 所对应的 Bregman divergence: ,且对应的 Riemannian 度量是 Fisher information matrix 。进一步可以验证,canonical 对偶联络是 dually flat 的,它们的坐标系恰好就是 和 (各分量同时也是测地线),且之间由一个Legendre 变换联系起来: ,或者说 ,其中 是 的 Fenchel-duality,当然它也是凸的。然后我们知道 Bregman divergence 满足

既然 对应的这个流形是 dually flat 的,那么 和 分别也是 处 -测地线和 -测地线的切向量。当它们互相“垂直”时,等式中的最后一项为0,我们也就回到了上面的 generalized Pythagorean theorem。

(Bregman divergence 中的 都是梯度)

(一般地,对于 dually flat 的统计流形,存在一对 Legendre 变换对 和 和对偶的坐标系 和 ,使得 成立)

上面提到对偶联络不是唯一的,事实上我们可以从 canonical 对偶联络生成一族对偶联络。记 。对 ,定义

则 和 对应的 和 是一对对偶联络。事实上,它们还是 -divergence 的 canonical 对偶联络。

( -divergence 是 -divergence 的一种。对满足 的可微凸函数可以定义 -divergence ; 取 时就是 -divergence; 时 -divergence 变为正向/反向的KL-divergence。 -divergence之所以重要是因为它是同时满足 invariant 和 decomposable 的唯一 divergence 类)

(Decomposable:divergence 有形式 或 ;Invariant:有点长不想抄……大概是说对数据作变换 后信息一般会有损失,其中一个表现是 divergence 的“分辨度”会下降,invariance 说的是如果 是 的充分统计量,那么这个“分辨度”不会下降;具体可以搜一下 information monotonicity)

(事实上一般的 -divergence 也可以诱导出一对 ,这时 ;可以用上面的 验证一下)

然后上面这套对偶联络的东西也可以跳出统计的背景,放进纯数学中去考虑。这时候似乎叫 Hessian Structures

要说信息几何有什么具体的应用,我不是做这个的所以没有跟最近的文献。甘利俊一的 Information Geometry and Its Applications 里面列了不少,有兴趣可以看看(比如说处理各种指数分布族的变体,像 curved/kernel/deformed exponential family 等等,还有一些非参数的扩展;也确实可以用来做假设检验,出发点是把 Bayes error 放大成 Chernoff information 然后用几何工具去处理)。

最新发展的话,有个两年开一次的会叫 Geometric Science of Information ,还有个叫 Entropy 的期刊好像也会每三年为信息几何弄个 special issue,可能都可以看一下(我并没有看)。

(本文大量抄写自 An elementary introduction to information geometry,参考文献请在里面找)

(也可以看看知乎上其他人写的关于信息几何的答案)




  

相关话题

  如何看待有人质疑淘宝双十一数据造假,并在4月份成功预测今年销售额为2680亿? 
  什么是直?什么是直线? 
  谁能用简单的语言解释下回归分析与相关分析的异同? 
  有什么好的统计学专业的学习网站吗? 
  时间序列,AR(2)的方差怎么求? 
  Kaggle如何入门? 
  如何用简单的例子解释什么是 Generalized Method of Moments (GMM)? 
  如何看待 Atiyah 对六维球面 S^6 上没有复结构的证明? 
  直角坐标与极坐标的互化中,为什么 dxdy=rdrdθ? 
  我感觉陈维桓的微分几何书里面曲率的定义不太清楚,你们觉得呢,曲率的定义究竟应该是什么样? 

前一个讨论
为什么孙杨似乎被西方泳坛孤立了?
下一个讨论
为何部分刻板印象明明有统计学依据,人们却仍要反对刻板印象?





© 2024-12-22 - tinynew.org. All Rights Reserved.
© 2024-12-22 - tinynew.org. 保留所有权利