K-L变换 - Windy's Cozy Site

1152 words

6 minutes

K-L变换

2026-02-25

Machine Learning

Mathematics

/

Machine Learning

K-L 变换的推导分两步，第一步给出方均截断误差的一个下界，第二步再给出一组具体的 $\mathcal{R}^N$ 空间中的正交基，说明这个下界可以取到，然后我们可以称这一组基上的展开为 K-L 变换。

K-L变换推导#

设 $N$ 维随机向量 $\mathbf{x}$ 的自相关矩阵为 $\mathbf{C}_x = E[\mathbf{x}\mathbf{x}^T]$ 。由于 $\mathbf{C}_x$ 为实对称半正定矩阵，其特征值分解为

\mathbf{C}_x \mathbf{u}_j = \lambda_j \mathbf{u}_j, \quad (j = 1, 2, \dots, N)

其中，特征向量构成标准正交基，即 $\mathbf{u}_j^T \mathbf{u}_k = \delta_{jk}$ 。设特征值已按降序排列，若有 $l>1$ 多重特征值，则分开写成 $l$ 个特征值；由于其特征空间一定为 $l$ 维子空间，所以不会造成问题。

\lambda_1 \ge \lambda_2 \ge \dots \ge \lambda_N \ge 0

设有一组任意的标准正交基 $\{ \phi_1, \phi_2, \dots, \phi_N \}$ ；容易得到，在这一组正交基上展开，保留前 $M$ 项的截断误差均方值（MSE）为：

\epsilon^2 = \sum_{i=M+1}^{N} \phi_i^T \mathbf{C}_x \phi_i

将基向量 $\phi_i$ 投影到 $\mathbf{C}_x$ 的特征子空间 $\{ \mathbf{u}_j \}$ 中得到

\phi_i = \sum_{j=1}^{N} a_{ij} \mathbf{u}_j

其中投影系数 $a_{ij} = \mathbf{u}_j^T \phi_i$ 。由于 $\{ \phi_i \}$ 和 $\{ \mathbf{u}_j \}$ 均为标准正交基，过渡矩阵 $\mathbf{A} = [a_{ij}]_{N \times N}$ 为正交矩阵，满足：

\begin{aligned} \sum_{i=1}^{N} a_{ij}^2 &= 1 \\ \sum_{j=1}^{N} a_{ij}^2 &= 1 \\ u_j &= \sum_{i=1}^{N} a_{ji} \phi_i \end{aligned}

将 $\phi_i$ 的展开式代入截断误差公式：

\begin{aligned} \phi_i^T \mathbf{C}_x \phi_i &= \left( \sum_{j=1}^{N} a_{ij} \mathbf{u}_j \right)^T \mathbf{C}_x \left( \sum_{k=1}^{N} a_{ik} \mathbf{u}_k \right) \\ &= \sum_{j=1}^{N} \sum_{k=1}^{N} a_{ij} a_{ik} \mathbf{u}_j^T (\mathbf{C}_x \mathbf{u}_k) \\ &= \sum_{j=1}^{N} \sum_{k=1}^{N} a_{ij} a_{ik} \lambda_k (\mathbf{u}_j^T \mathbf{u}_k) \\ &= \sum_{j=1}^{N} \sum_{k=1}^{N} a_{ij} a_{ik} \lambda_k \delta_{jk} \\ &= \sum_{j=1}^{N} a_{ij}^2 \lambda_j \end{aligned}

求和得到总截断误差，并交换求和顺序：

\begin{aligned} \epsilon^2 &= \sum_{i=M+1}^{N} \left( \sum_{j=1}^{N} a_{ij}^2 \lambda_j \right) \\ &= \sum_{j=1}^{N} \lambda_j \left( \sum_{i=M+1}^{N} a_{ij}^2 \right) \end{aligned}

令 $w_j = \sum_{i=M+1}^{N} a_{ij}^2$ ，则目标函数化为

\epsilon^2 = \sum_{j=1}^{N} w_j \lambda_j

对权重 $w_j$ 放缩可知其上下界。根据正交矩阵的性质：

0 \le w_j = \sum_{i=M+1}^{N} a_{ij}^2 \le \sum_{i=1}^{N} a_{ij}^2 = 1

且对所有 $w_j$ 求和：

\begin{aligned} \sum_{j=1}^{N} w_j &= \sum_{j=1}^{N} \sum_{i=M+1}^{N} a_{ij}^2 \\ &= \sum_{i=M+1}^{N} \left( \sum_{j=1}^{N} a_{ij}^2 \right) \\ &= \sum_{i=M+1}^{N} 1 \\ &= N - M \end{aligned}

总结一下目前的推论如下：

\begin{aligned} \quad & 0 \le w_j \le 1, \quad \forall j \in \{1, \dots, N\} \\ & \sum_{j=1}^{N} w_j = N - M \\ & \lambda_1 \ge \lambda_2 \ge \dots \ge \lambda_N \ge 0 \end{aligned}

由于 $w_j$ 的上限为 1，且总和为 $N-M$ ，根据排序不等式，我们可以得到下列 $N-1$ 个不等式（ $1\le M \le N-1$ ）：

\epsilon^2 = \sum_{j=1}^{N} w_j \lambda_j \ge \sum_{j=M+1}^{N} \lambda_j

不等式右侧仅由随机变量 $\mathbf{x}$ 的性质决定；由此我们分别得到了 $N-1$ 个截断误差的下界。接下来证明这个下界可以取到。

当 $a_{ij} = \delta_{ij}$ 时，我们有 $\phi_i = u_i,\ \forall j \in \{1, \dots, N\}$ ，此时

\begin{aligned} w_j &= 1, \quad \text{对于 } j \in \{ M+1, M+2, \dots, N \} \\ w_j &= 0, \quad \text{对于 } j \in \{ 1, 2, \dots, M \} \end{aligned}

容易验证此时所有等号同时取得。

引理：排序不等式#

已知序列 $\{\lambda_j\}$ 满足 $\lambda_1 \ge \lambda_2 \ge \dots \ge \lambda_N \ge 0$ ，且权重变量 $\{w_j\}$ 满足 $0 \le w_j \le 1, \quad \forall j \in \{1, \dots, N\}$ 且 $\sum_{j=1}^{N} w_j = N - M$ （ $1 \le M \le N-1$ 且为整数）。