1152 words
6 minutes
K-L变换

K-L 变换的推导分两步,第一步给出方均截断误差的一个下界,第二步再给出一组具体的 RN\mathcal{R}^N 空间中的正交基,说明这个下界可以取到,然后我们可以称这一组基上的展开为 K-L 变换。

K-L变换推导#

NN 维随机向量 x\mathbf{x} 的自相关矩阵为 Cx=E[xxT]\mathbf{C}_x = E[\mathbf{x}\mathbf{x}^T]。由于 Cx\mathbf{C}_x 为实对称半正定矩阵,其特征值分解为

Cxuj=λjuj,(j=1,2,,N)\mathbf{C}_x \mathbf{u}_j = \lambda_j \mathbf{u}_j, \quad (j = 1, 2, \dots, N)

其中,特征向量构成标准正交基,即 ujTuk=δjk\mathbf{u}_j^T \mathbf{u}_k = \delta_{jk}。设特征值已按降序排列,若有 l>1l>1 多重特征值,则分开写成 ll 个特征值;由于其特征空间一定为 ll 维子空间,所以不会造成问题。

λ1λ2λN0\lambda_1 \ge \lambda_2 \ge \dots \ge \lambda_N \ge 0

设有一组任意的标准正交基 {ϕ1,ϕ2,,ϕN}\{ \phi_1, \phi_2, \dots, \phi_N \};容易得到,在这一组正交基上展开,保留前 MM 项的截断误差均方值(MSE)为:

ϵ2=i=M+1NϕiTCxϕi\epsilon^2 = \sum_{i=M+1}^{N} \phi_i^T \mathbf{C}_x \phi_i

将基向量 ϕi\phi_i 投影到 Cx\mathbf{C}_x 的特征子空间 {uj}\{ \mathbf{u}_j \} 中得到

ϕi=j=1Naijuj\phi_i = \sum_{j=1}^{N} a_{ij} \mathbf{u}_j

其中投影系数 aij=ujTϕia_{ij} = \mathbf{u}_j^T \phi_i。由于 {ϕi}\{ \phi_i \}{uj}\{ \mathbf{u}_j \} 均为标准正交基,过渡矩阵 A=[aij]N×N\mathbf{A} = [a_{ij}]_{N \times N} 为正交矩阵,满足:

i=1Naij2=1j=1Naij2=1uj=i=1Najiϕi\begin{aligned} \sum_{i=1}^{N} a_{ij}^2 &= 1 \\ \sum_{j=1}^{N} a_{ij}^2 &= 1 \\ u_j &= \sum_{i=1}^{N} a_{ji} \phi_i \end{aligned}

ϕi\phi_i 的展开式代入截断误差公式:

ϕiTCxϕi=(j=1Naijuj)TCx(k=1Naikuk)=j=1Nk=1NaijaikujT(Cxuk)=j=1Nk=1Naijaikλk(ujTuk)=j=1Nk=1Naijaikλkδjk=j=1Naij2λj\begin{aligned} \phi_i^T \mathbf{C}_x \phi_i &= \left( \sum_{j=1}^{N} a_{ij} \mathbf{u}_j \right)^T \mathbf{C}_x \left( \sum_{k=1}^{N} a_{ik} \mathbf{u}_k \right) \\ &= \sum_{j=1}^{N} \sum_{k=1}^{N} a_{ij} a_{ik} \mathbf{u}_j^T (\mathbf{C}_x \mathbf{u}_k) \\ &= \sum_{j=1}^{N} \sum_{k=1}^{N} a_{ij} a_{ik} \lambda_k (\mathbf{u}_j^T \mathbf{u}_k) \\ &= \sum_{j=1}^{N} \sum_{k=1}^{N} a_{ij} a_{ik} \lambda_k \delta_{jk} \\ &= \sum_{j=1}^{N} a_{ij}^2 \lambda_j \end{aligned}

求和得到总截断误差,并交换求和顺序:

ϵ2=i=M+1N(j=1Naij2λj)=j=1Nλj(i=M+1Naij2)\begin{aligned} \epsilon^2 &= \sum_{i=M+1}^{N} \left( \sum_{j=1}^{N} a_{ij}^2 \lambda_j \right) \\ &= \sum_{j=1}^{N} \lambda_j \left( \sum_{i=M+1}^{N} a_{ij}^2 \right) \end{aligned}

wj=i=M+1Naij2w_j = \sum_{i=M+1}^{N} a_{ij}^2,则目标函数化为

ϵ2=j=1Nwjλj\epsilon^2 = \sum_{j=1}^{N} w_j \lambda_j

对权重 wjw_j 放缩可知其上下界。根据正交矩阵的性质:

0wj=i=M+1Naij2i=1Naij2=10 \le w_j = \sum_{i=M+1}^{N} a_{ij}^2 \le \sum_{i=1}^{N} a_{ij}^2 = 1

且对所有 wjw_j 求和:

j=1Nwj=j=1Ni=M+1Naij2=i=M+1N(j=1Naij2)=i=M+1N1=NM\begin{aligned} \sum_{j=1}^{N} w_j &= \sum_{j=1}^{N} \sum_{i=M+1}^{N} a_{ij}^2 \\ &= \sum_{i=M+1}^{N} \left( \sum_{j=1}^{N} a_{ij}^2 \right) \\ &= \sum_{i=M+1}^{N} 1 \\ &= N - M \end{aligned}

总结一下目前的推论如下:

0wj1,j{1,,N}j=1Nwj=NMλ1λ2λN0\begin{aligned} \quad & 0 \le w_j \le 1, \quad \forall j \in \{1, \dots, N\} \\ & \sum_{j=1}^{N} w_j = N - M \\ & \lambda_1 \ge \lambda_2 \ge \dots \ge \lambda_N \ge 0 \end{aligned}

由于 wjw_j 的上限为 1,且总和为 NMN-M,根据排序不等式,我们可以得到下列 N1N-1 个不等式(1MN11\le M \le N-1):

ϵ2=j=1Nwjλjj=M+1Nλj\epsilon^2 = \sum_{j=1}^{N} w_j \lambda_j \ge \sum_{j=M+1}^{N} \lambda_j

不等式右侧仅由随机变量 x\mathbf{x} 的性质决定;由此我们分别得到了 N1N-1 个截断误差的下界。接下来证明这个下界可以取到。

aij=δija_{ij} = \delta_{ij} 时,我们有 ϕi=ui, j{1,,N}\phi_i = u_i,\ \forall j \in \{1, \dots, N\},此时

wj=1,对于 j{M+1,M+2,,N}wj=0,对于 j{1,2,,M}\begin{aligned} w_j &= 1, \quad \text{对于 } j \in \{ M+1, M+2, \dots, N \} \\ w_j &= 0, \quad \text{对于 } j \in \{ 1, 2, \dots, M \} \end{aligned}

容易验证此时所有等号同时取得。

引理:排序不等式#

已知序列 {λj}\{\lambda_j\} 满足 λ1λ2λN0\lambda_1 \ge \lambda_2 \ge \dots \ge \lambda_N \ge 0,且权重变量 {wj}\{w_j\} 满足 0wj1,j{1,,N}0 \le w_j \le 1, \quad \forall j \in \{1, \dots, N\}j=1Nwj=NM\sum_{j=1}^{N} w_j = N - M1MN11 \le M \le N-1 且为整数)。

根据排序不等式的原理,当较小的权重与较大的值相乘、较大的权重与较小的值相乘时,内积达到最小。因此,我们需要证明:

j=1Nwjλjj=M+1Nλj\sum_{j=1}^{N} w_j \lambda_j \ge \sum_{j=M+1}^{N} \lambda_j

我们将目标不等式作差,考察其差值 Δ\Delta

Δ=j=1Nwjλjj=M+1Nλj\Delta = \sum_{j=1}^{N} w_j \lambda_j - \sum_{j=M+1}^{N} \lambda_j

将求和区间拆分为前 MM 项与后 NMN-M 项:

Δ=j=1Mwjλj+j=M+1N(wj1)λj\Delta = \sum_{j=1}^{M} w_j \lambda_j + \sum_{j=M+1}^{N} (w_j - 1) \lambda_j

根据已知条件,序列 {λj}\{\lambda_j\} 是单调递减的,因此对于任意 jMj \le M,都有 λjλM\lambda_j \ge \lambda_M;对于任意 jM+1j \ge M+1,都有 λjλM\lambda_j \le \lambda_M

由于 wj0w_j \ge 0,对于前 MM 项,我们可以得到:

j=1Mwjλjj=1MwjλM=λMj=1Mwj\sum_{j=1}^{M} w_j \lambda_j \ge \sum_{j=1}^{M} w_j \lambda_M = \lambda_M \sum_{j=1}^{M} w_j

同时,由于 wj1w_j \le 1,即 (wj1)0(w_j - 1) \le 0。结合 λjλM (jM+1)\lambda_j \le \lambda_M \ (j \ge M+1) 的条件,在相乘放缩时不等号方向反转,因此对于后 NMN-M 项,我们可以得到:

j=M+1N(wj1)λjj=M+1N(wj1)λM=λMj=M+1N(wj1)\sum_{j=M+1}^{N} (w_j - 1) \lambda_j \ge \sum_{j=M+1}^{N} (w_j - 1) \lambda_M = \lambda_M \sum_{j=M+1}^{N} (w_j - 1)

将上述两部分的放缩结果代入 Δ\Delta 的表达式中:

ΔλMj=1Mwj+λMj=M+1N(wj1)ΔλM(j=1Mwj+j=M+1Nwjj=M+1N1)ΔλM(j=1Nwj(NM))\begin{aligned} \Delta &\ge \lambda_M \sum_{j=1}^{M} w_j + \lambda_M \sum_{j=M+1}^{N} (w_j - 1) \\ \Delta &\ge \lambda_M \left( \sum_{j=1}^{M} w_j + \sum_{j=M+1}^{N} w_j - \sum_{j=M+1}^{N} 1 \right) \\ \Delta &\ge \lambda_M \left( \sum_{j=1}^{N} w_j - (N - M) \right) \end{aligned}

根据已知条件 j=1Nwj=NM\sum_{j=1}^{N} w_j = N - M,代入上式即可得到:

ΔλM((NM)(NM))=0\Delta \ge \lambda_M ( (N - M) - (N - M) ) = 0

因此,j=1Nwjλjj=M+1Nλj0\sum_{j=1}^{N} w_j \lambda_j - \sum_{j=M+1}^{N} \lambda_j \ge 0,即:

j=1Nwjλjj=M+1Nλj\sum_{j=1}^{N} w_j \lambda_j \ge \sum_{j=M+1}^{N} \lambda_j

证毕。上面已经给出了取等条件,所以这里证明下界就可以了。