好的,咱们来聊聊怎么算两个服从高斯分布的向量乘积的期望。这事儿听起来有点绕,但拆开了看,其实挺有意思的。
首先,得明确一下咱们说的是什么。我理解的“向量乘积”在这里,最常见的情况应该是 内积(Dot Product)。也就是说,如果咱们有两个向量,一个叫 $mathbf{x}$,另一个叫 $mathbf{y}$,它们各自有 $n$ 个分量,那么它们的内积就是:
$mathbf{x} cdot mathbf{y} = x_1y_1 + x_2y_2 + dots + x_ny_n = sum_{i=1}^n x_i y_i$
现在,咱们要计算的是这个 $mathbf{x} cdot mathbf{y}$ 的 期望值,也就是 $E[mathbf{x} cdot mathbf{y}]$。
基础设定:
咱们先给这两个向量 $mathbf{x}$ 和 $mathbf{y}$ 设定好它们遵循的分布。最常见的设定是:
1. $mathbf{x}$ 服从一个多元高斯分布:
均值向量是 $oldsymbol{mu}_x in mathbb{R}^n$
协方差矩阵是 $oldsymbol{Sigma}_x in mathbb{R}^{n imes n}$ (这个矩阵必须是对称的,半正定的)
记作 $mathbf{x} sim mathcal{N}(oldsymbol{mu}_x, oldsymbol{Sigma}_x)$
2. $mathbf{y}$ 服从另一个多元高斯分布:
均值向量是 $oldsymbol{mu}_y in mathbb{R}^n$
协方差矩阵是 $oldsymbol{Sigma}_y in mathbb{R}^{n imes n}$
记作 $mathbf{y} sim mathcal{N}(oldsymbol{mu}_y, oldsymbol{Sigma}_y)$
关键问题来了: $mathbf{x}$ 和 $mathbf{y}$ 之间有没有关系?它们是 独立的 吗?
这会大大影响计算过程。咱们先从最简单的情况开始,也就是 $mathbf{x}$ 和 $mathbf{y}$ 是相互独立的。
情况一:$mathbf{x}$ 和 $mathbf{y}$ 相互独立
如果 $mathbf{x}$ 和 $mathbf{y}$ 独立,那么它们联合分布就是各自分布的乘积。
咱们要计算 $E[mathbf{x} cdot mathbf{y}]$。利用期望的线性性质,咱们可以把这个期望拆开:
$E[mathbf{x} cdot mathbf{y}] = E[sum_{i=1}^n x_i y_i]$
根据期望的线性性质,$E[A+B] = E[A] + E[B]$ 和 $E[cA] = cE[A]$,咱们可以把求和也提出来:
$E[mathbf{x} cdot mathbf{y}] = sum_{i=1}^n E[x_i y_i]$
现在,关键在于计算 $E[x_i y_i]$。由于 $mathbf{x}$ 和 $mathbf{y}$ 是独立的,那么它们的 分量 $x_i$ 和 $y_j$ 也是相互独立的,对于任意的 $i$ 和 $j$ 都成立。
所以,对于 $E[x_i y_i]$,因为 $x_i$ 和 $y_i$ 独立:
$E[x_i y_i] = E[x_i] E[y_i]$
咱们知道,对于服从多元高斯分布 $mathbf{x} sim mathcal{N}(oldsymbol{mu}_x, oldsymbol{Sigma}_x)$,它的分量 $x_i$ 是服从一元高斯分布的,其期望就是均值向量 $oldsymbol{mu}_x$ 的第 $i$ 个分量,即 $E[x_i] = (oldsymbol{mu}_x)_i$。
同理,对于 $mathbf{y} sim mathcal{N}(oldsymbol{mu}_y, oldsymbol{Sigma}_y)$,有 $E[y_i] = (oldsymbol{mu}_y)_i$。
把这个代回去:
$E[x_i y_i] = (oldsymbol{mu}_x)_i (oldsymbol{mu}_y)_i$
现在,咱们把这个结果再代回求和式:
$E[mathbf{x} cdot mathbf{y}] = sum_{i=1}^n (oldsymbol{mu}_x)_i (oldsymbol{mu}_y)_i$
注意到,这个求和 $sum_{i=1}^n (oldsymbol{mu}_x)_i (oldsymbol{mu}_y)_i$ 正是两个均值向量 $oldsymbol{mu}_x$ 和 $oldsymbol{mu}_y$ 的 内积!
所以,如果 $mathbf{x}$ 和 $mathbf{y}$ 相互独立,那么:
$E[mathbf{x} cdot mathbf{y}] = oldsymbol{mu}_x cdot oldsymbol{mu}_y = oldsymbol{mu}_x^T oldsymbol{mu}_y$
这个结果看起来挺直观的: 两个独立随机向量的内积的期望,就是它们各自期望(均值)的内积。
情况二:$mathbf{x}$ 和 $mathbf{y}$ 不独立,但它们是联合高斯分布
现实情况中,两个高斯向量可能不是独立的,而是它们一起构成一个更大的联合高斯分布。
假设 $mathbf{z}$ 是一个 $2n$ 维的向量,它是由 $mathbf{x}$ 和 $mathbf{y}$ 拼接而成的:
$mathbf{z} = egin{bmatrix} mathbf{x} \ mathbf{y} end{bmatrix}$
如果 $mathbf{z}$ 服从一个联合多元高斯分布,那么:
$mathbf{z} sim mathcal{N}left(oldsymbol{mu}_z, oldsymbol{Sigma}_z
ight)$
这里的 $oldsymbol{mu}_z$ 和 $oldsymbol{Sigma}_z$ 会是:
$oldsymbol{mu}_z = egin{bmatrix} oldsymbol{mu}_x \ oldsymbol{mu}_y end{bmatrix}$
$oldsymbol{Sigma}_z = egin{bmatrix} oldsymbol{Sigma}_{xx} & oldsymbol{Sigma}_{xy} \ oldsymbol{Sigma}_{yx} & oldsymbol{Sigma}_{yy} end{bmatrix}$
其中:
$oldsymbol{Sigma}_{xx} = E[(mathbf{x} oldsymbol{mu}_x)(mathbf{x} oldsymbol{mu}_x)^T]$ 是 $mathbf{x}$ 的协方差矩阵,也就是我们前面说的 $oldsymbol{Sigma}_x$。
$oldsymbol{Sigma}_{yy} = E[(mathbf{y} oldsymbol{mu}_y)(mathbf{y} oldsymbol{mu}_y)^T]$ 是 $mathbf{y}$ 的协方差矩阵,也就是 $oldsymbol{Sigma}_y$。
$oldsymbol{Sigma}_{xy} = E[(mathbf{x} oldsymbol{mu}_x)(mathbf{y} oldsymbol{mu}_y)^T]$ 是 $mathbf{x}$ 和 $mathbf{y}$ 之间的 互协方差矩阵。
$oldsymbol{Sigma}_{yx} = E[(mathbf{y} oldsymbol{mu}_y)(mathbf{x} oldsymbol{mu}_x)^T]$ 是 $oldsymbol{Sigma}_{xy}$ 的转置,$oldsymbol{Sigma}_{yx} = oldsymbol{Sigma}_{xy}^T$。
我们要计算 $E[mathbf{x} cdot mathbf{y}] = E[mathbf{x}^T mathbf{y}]$。
同样利用期望的线性性质:
$E[mathbf{x}^T mathbf{y}] = E[sum_{i=1}^n x_i y_i] = sum_{i=1}^n E[x_i y_i]$
这里的 $E[x_i y_i]$ 就不能直接写成 $E[x_i] E[y_i]$ 了,因为 $x_i$ 和 $y_i$ 可能不是独立的(它们在联合分布里有关联)。
那么,怎么计算 $E[x_i y_i]$ 呢?
我们可以利用一个重要的性质:对于一个随机向量 $mathbf{w}$,其期望 $E[mathbf{w}] = oldsymbol{mu}$,协方差 $Cov(mathbf{w}) = E[(mathbf{w} oldsymbol{mu})(mathbf{w} oldsymbol{mu})^T] = oldsymbol{Sigma}$,那么 $E[mathbf{w}mathbf{w}^T] = oldsymbol{Sigma} + oldsymbol{mu}oldsymbol{mu}^T$。
咱们可以把 $mathbf{x}^T mathbf{y}$ 看作是 $mathbf{x}$ 和 $mathbf{y}$ 的某种组合。
更直接一点,我们可以考虑 $mathbf{x}$ 和 $mathbf{y}$ 的 协方差矩阵 $oldsymbol{Sigma}_{xy}$。
$oldsymbol{Sigma}_{xy}$ 是一个 $n imes n$ 的矩阵,它的第 $(i, j)$ 个元素是 $Cov(x_i, y_j) = E[(x_i E[x_i])(y_j E[y_j])]$。
我们知道:
$E[x_i y_i] = Cov(x_i, y_i) + E[x_i] E[y_i]$
将所有分量加起来:
$sum_{i=1}^n E[x_i y_i] = sum_{i=1}^n (Cov(x_i, y_i) + E[x_i] E[y_i])$
$E[mathbf{x}^T mathbf{y}] = sum_{i=1}^n Cov(x_i, y_i) + sum_{i=1}^n E[x_i] E[y_i]$
我们已经知道 $sum_{i=1}^n E[x_i] E[y_i] = oldsymbol{mu}_x^T oldsymbol{mu}_y$。
那么,$sum_{i=1}^n Cov(x_i, y_i)$ 是什么呢?
这个和正好是互协方差矩阵 $oldsymbol{Sigma}_{xy}$ 的 主对角线元素之和,也就是 迹(Trace)!
$sum_{i=1}^n Cov(x_i, y_i) = Tr(oldsymbol{Sigma}_{xy})$
所以,当 $mathbf{x}$ 和 $mathbf{y}$ 不独立但服从联合高斯分布时,它们的内积的期望是:
$E[mathbf{x}^T mathbf{y}] = Tr(oldsymbol{Sigma}_{xy}) + oldsymbol{mu}_x^T oldsymbol{mu}_y$
这个结果包含了三个部分:
1. $oldsymbol{mu}_x^T oldsymbol{mu}_y$:这部分是均值贡献的,和独立情况下的结果一样。
2. $Tr(oldsymbol{Sigma}_{xy})$:这部分是由于 $x_i$ 和 $y_i$ 之间的 协方差 贡献的。如果 $x_i$ 和 $y_i$ 总是同方向变化(正协方差),那么它们的乘积的期望就会比独立时更高;反之,如果 $x_i$ 和 $y_i$ 总是反方向变化(负协方差),期望就会比独立时低。
总结一下:
1. 定义: 我们要计算的是两个服从高斯分布的向量 $mathbf{x}$ 和 $mathbf{y}$ 的内积 $E[mathbf{x}^T mathbf{y}]$。
2. 设定:
$mathbf{x} sim mathcal{N}(oldsymbol{mu}_x, oldsymbol{Sigma}_x)$
$mathbf{y} sim mathcal{N}(oldsymbol{mu}_y, oldsymbol{Sigma}_y)$
3. 情况一:$mathbf{x}$ 和 $mathbf{y}$ 相互独立
$E[mathbf{x}^T mathbf{y}] = E[mathbf{x}^T] E[mathbf{y}] = oldsymbol{mu}_x^T oldsymbol{mu}_y$
独立性是关键,允许我们将 $E[x_iy_i]$ 分解为 $E[x_i]E[y_i]$。
4. 情况二:$mathbf{x}$ 和 $mathbf{y}$ 服从联合高斯分布(可能不独立)
这需要考虑它们之间的互协方差。
$E[mathbf{x}^T mathbf{y}] = Tr(oldsymbol{Sigma}_{xy}) + oldsymbol{mu}_x^T oldsymbol{mu}_y$
$oldsymbol{Sigma}_{xy}$ 是 $mathbf{x}$ 和 $mathbf{y}$ 的互协方差矩阵,$Tr(oldsymbol{Sigma}_{xy})$ 是其主对角线元素之和。
举个例子:
假设我们有两个二维向量:
$mathbf{x} = egin{bmatrix} x_1 \ x_2 end{bmatrix} sim mathcal{N}left(egin{bmatrix} 1 \ 2 end{bmatrix}, egin{bmatrix} 1 & 0.5 \ 0.5 & 2 end{bmatrix}
ight)$
$mathbf{y} = egin{bmatrix} y_1 \ y_2 end{bmatrix} sim mathcal{N}left(egin{bmatrix} 3 \ 4 end{bmatrix}, egin{bmatrix} 2 & 0.2 \ 0.2 & 1 end{bmatrix}
ight)$
场景 A:$mathbf{x}$ 和 $mathbf{y}$ 独立
$oldsymbol{mu}_x = egin{bmatrix} 1 \ 2 end{bmatrix}$, $oldsymbol{mu}_y = egin{bmatrix} 3 \ 4 end{bmatrix}$
$E[mathbf{x}^T mathbf{y}] = oldsymbol{mu}_x^T oldsymbol{mu}_y = egin{bmatrix} 1 & 2 end{bmatrix} egin{bmatrix} 3 \ 4 end{bmatrix} = 1 imes 3 + 2 imes 4 = 3 + 8 = 11$
场景 B:$mathbf{x}$ 和 $mathbf{y}$ 服从联合高斯分布,且互协方差矩阵是:
$oldsymbol{Sigma}_{xy} = egin{bmatrix} 0.3 & 0.1 \ 0.1 & 0.4 end{bmatrix}$
$oldsymbol{mu}_x = egin{bmatrix} 1 \ 2 end{bmatrix}$, $oldsymbol{mu}_y = egin{bmatrix} 3 \ 4 end{bmatrix}$
$oldsymbol{mu}_x^T oldsymbol{mu}_y = 11$ (同上)
$Tr(oldsymbol{Sigma}_{xy}) = 0.3 + 0.4 = 0.7$
$E[mathbf{x}^T mathbf{y}] = Tr(oldsymbol{Sigma}_{xy}) + oldsymbol{mu}_x^T oldsymbol{mu}_y = 0.7 + 11 = 11.7$
这里,由于 $oldsymbol{Sigma}_{xy}$ 的对角线元素($Cov(x_1, y_1) = 0.3$ 和 $Cov(x_2, y_2) = 0.4$)都是正的,意味着 $x_1$ 和 $y_1$ 倾向于同向变化,$x_2$ 和 $y_2$ 也倾向于同向变化,这使得它们的乘积的期望比独立情况下的 11 要高。
补充说明:
“服从高斯分布的向量乘积” 这个说法,如果指的是 Hadamard Product (逐点乘积),即 $mathbf{x} circ mathbf{y} = [x_1y_1, x_2y_2, dots, x_ny_n]^T$,那么计算其期望会复杂得多,因为 $E[x_iy_i]$ 的计算依然是关键,但这里的 $x_i$ 和 $y_i$ 的协方差($Sigma_{xy}$ 的对角线元素)在计算 $E[x_i^2y_i^2]$ 时会变得更复杂。通常,直接计算这种逐点乘积的期望,往往需要利用四阶矩(cumulants)的性质,或者在特定条件下(如独立)来简化。不过,一般提到“向量乘积的期望”,最先想到的还是内积。
多元高斯分布的性质 是这一切计算的基石。理解了均值、协方差以及它们如何影响联合分布,计算就会顺理成章。
希望我这样解释,能够把这个概念讲得够清楚,也够实在。如果还有什么不清楚的地方,随时可以再问。