百科问答小站 logo
百科问答小站 font logo



微分几何在统计或者理论的计量经济学中有什么应用? 第1页

  

user avatar   zi-yuan-35 网友的相关建议: 
      

抄一下信息几何。在信息几何中,我们把某个分布族看成一个 Riemannian 流形,然后以微分几何为工具来研究其上统计分布之间的 divergence。一般而言,对概率分布 和 ,称符合以下性质的 为它们之间的一个 divergence:

  1. ,且
  2. 存在某个正定矩阵 使得 ;或者说, 至少二次可微且 在 时取极小。

(注意 divergence 跟距离不一样,距离要求的是对称+三角不等式;定义上看,divergence 更像是不对称的“距离平方”)

把 Riemannian 度量直接取成正定矩阵 是比较自然的想法,因为 直接对应 的局部信息。不过,它所对应的 Levi-Civita 联络 在研究 divergence 上用处不是特别大:我们需要某种“非对称”的结构。信息几何考虑的是对偶(仿射)联络 和 :对流形上的任意向量场 和 , 和 满足

回忆一下, 满足的是 ;从这个定义可以得出诸如 对应的 parallel transport 保角/保距离等性质。类似地,对偶联络也有类似的保角性质:对流形上任意光滑曲线 及 处的向量 和 ,有

其中 表示把 沿着 用 从 平行移动至 。

可以验证,第一类 Christoffel symbols 满足

的两个联络构成一对对偶联络(暂时就叫 canonical 的对偶联络好了)。Riemannian 流形上的对偶联络一般不是唯一的,但 和 之间总有简单关系: ,在这个意义下,可以把 看成是自对偶的联络。

进一步可以证明, 对应的曲率= 对应的曲率;所以如果流形在 下是平的,那它在 下也是平的,这时称这个统计流形是 dually flat 的。假设 dually flat 的统计流形上有三个点(概率分布) 和 ,且连接 和 的 -测地线 与连接 和 的 -测地线 互相“垂直”(普通内积意义下,不是 的意义下),则有 generalized Pythagorean theorem:

这个定理把 和 跟 联系了起来,部分回答了我们为什么要研究对偶仿射联络,同时也印证了上面说 divergence 差不多是某种距离的平方的直觉。Generalized Pythagorean theorem 可以帮助我们证明概率分布到统计子流形(在最小化 的意义下)的投影的唯一性,从而是某些求 -投影的迭代算法的理论保证。

(有几个日常操作都可以归为投影。如果 是 数据的经验分布,子流形 是某个参数分布族,则把 往 上投影就相当于在做参数估计;当使用 KL-divergence 时就是 MLE。又比如说 是均匀分布, 是满足约束 的子流形,那么把 往 上投影就是在求对应约束的最大熵分布)

上面说得比较抽象,我们可以在指数分布族和 KL-divergence 上具体看一下。假设概率密度函数 ,则 KL-divergence 是凸函数 所对应的 Bregman divergence: ,且对应的 Riemannian 度量是 Fisher information matrix 。进一步可以验证,canonical 对偶联络是 dually flat 的,它们的坐标系恰好就是 和 (各分量同时也是测地线),且之间由一个Legendre 变换联系起来: ,或者说 ,其中 是 的 Fenchel-duality,当然它也是凸的。然后我们知道 Bregman divergence 满足

既然 对应的这个流形是 dually flat 的,那么 和 分别也是 处 -测地线和 -测地线的切向量。当它们互相“垂直”时,等式中的最后一项为0,我们也就回到了上面的 generalized Pythagorean theorem。

(Bregman divergence 中的 都是梯度)

(一般地,对于 dually flat 的统计流形,存在一对 Legendre 变换对 和 和对偶的坐标系 和 ,使得 成立)

上面提到对偶联络不是唯一的,事实上我们可以从 canonical 对偶联络生成一族对偶联络。记 。对 ,定义

则 和 对应的 和 是一对对偶联络。事实上,它们还是 -divergence 的 canonical 对偶联络。

( -divergence 是 -divergence 的一种。对满足 的可微凸函数可以定义 -divergence ; 取 时就是 -divergence; 时 -divergence 变为正向/反向的KL-divergence。 -divergence之所以重要是因为它是同时满足 invariant 和 decomposable 的唯一 divergence 类)

(Decomposable:divergence 有形式 或 ;Invariant:有点长不想抄……大概是说对数据作变换 后信息一般会有损失,其中一个表现是 divergence 的“分辨度”会下降,invariance 说的是如果 是 的充分统计量,那么这个“分辨度”不会下降;具体可以搜一下 information monotonicity)

(事实上一般的 -divergence 也可以诱导出一对 ,这时 ;可以用上面的 验证一下)

然后上面这套对偶联络的东西也可以跳出统计的背景,放进纯数学中去考虑。这时候似乎叫 Hessian Structures

要说信息几何有什么具体的应用,我不是做这个的所以没有跟最近的文献。甘利俊一的 Information Geometry and Its Applications 里面列了不少,有兴趣可以看看(比如说处理各种指数分布族的变体,像 curved/kernel/deformed exponential family 等等,还有一些非参数的扩展;也确实可以用来做假设检验,出发点是把 Bayes error 放大成 Chernoff information 然后用几何工具去处理)。

最新发展的话,有个两年开一次的会叫 Geometric Science of Information ,还有个叫 Entropy 的期刊好像也会每三年为信息几何弄个 special issue,可能都可以看一下(我并没有看)。

(本文大量抄写自 An elementary introduction to information geometry,参考文献请在里面找)

(也可以看看知乎上其他人写的关于信息几何的答案)




  

相关话题

  微分几何在统计或者理论的计量经济学中有什么应用? 
  如何解释探索性因素分析? 
  如何看待2016年中国居民恩格尔系数为30.1%, 接近富足标准? 
  广义相对论为何选择了流形? 
  英国统计学硕士申请? 
  统计上有什么方法可以推断因果关系? 
  为什么熵值最大的分布状态是正态分布而不是均匀分布? 
  如何通俗地理解概率论中的「极大似然估计法」? 
  如何用数学知识解答「在进行社区大规模核酸检测时,分成几人一组进行混检效率最高」? 
  有哪些只用了OLS这样简单的方法却发表在经济学顶级期刊的论文? 

前一个讨论
为什么孙杨似乎被西方泳坛孤立了?
下一个讨论
为何部分刻板印象明明有统计学依据,人们却仍要反对刻板印象?





© 2024-11-05 - tinynew.org. All Rights Reserved.
© 2024-11-05 - tinynew.org. 保留所有权利