跳至内容
Lec-8 信息的传输 2

Lec-8 信息的传输 2

1. 凸函数与凸优化

1.1 凸函数的平稳点

假定 \(f(x)\) 是定义在 所有分量为非负 的 \(K\) 维无穷凸集 \(R\) 上的一个 凸函数,则满足下式的点称为 \(f(x)\) 的 平稳点,\(f(x)\) 在平稳点处取到 极值

\[ \nabla f(x) = \begin{bmatrix} \frac{\partial f(x)}{\partial x_1}& \frac{\partial f(x)}{\partial x_2}& \cdots& \frac{\partial f(x)}{\partial x_K} \end{bmatrix}^{T} = \mathbf{0} \]

在该平稳点处的 Hessian 矩阵是 对称矩阵

\[ H(x) = \begin{pmatrix} \frac{\partial^2 f(x)}{\partial x_1^2} & \frac{\partial^2 f(x)}{\partial x_1\partial x_2} & \cdots & \frac{\partial^2 f(x)}{\partial x_1\partial x_K} \\[6pt] \frac{\partial^2 f(x)}{\partial x_2\partial x_1} & \frac{\partial^2 f(x)}{\partial x_2^2} & \cdots & \frac{\partial^2 f(x)}{\partial x_2\partial x_K} \\[6pt] \vdots & \vdots & \ddots & \vdots \\[6pt] \frac{\partial^2 f(x)}{\partial x_K\partial x_1} & \frac{\partial^2 f(x)}{\partial x_K\partial x_2} & \cdots & \frac{\partial^2 f(x)}{\partial x_K^2} \end{pmatrix} \]

如果是凸函数,则在其定义域内,Hessian 矩阵为 半正定,可用于判断一个函数是否为凸。

半正定矩阵

\(n\times n\) 的实对称矩阵 \(A\) 被称为 半正定矩阵 ,如果对任意非负实向量 \(x\in\mathrm{R}^n\) 都有:

\[\mathbf{x}^TA\mathbf{x}\geq0\]

即以 \(A\) 作为二次型的系数矩阵时,它永远 不可能 产生负值。

1.2 凸函数的极值点

定理 1:\(f(x)\) 是定义在所有分量为非负的 \(K\) 维无穷凸集 \(R\) 上的一个凸函数,如果 \(\nabla f(x)\) 在 \(R\) 上 连续,则 \(f(x)\) 在 \(R\) 上取 极大值充要条件 为:

\[ \begin{align} &f'(x)=0,\forall x_k>0\\ &f'(x)<0,\forall x_k=0 \end{align} \]

如果在 \(R\) 上能找到 \(f'(x)=0\) 则极大值必然在该点取到,否则取边界点,此时 \(f'(x)<0\) 。

定理 2:\(f(x)\) 是定义在 \(K\) 维概率空间 \(R\) 上的一个凸函数,如果 \(\nabla f(x)\) 在 \(R\) 上 连续,则 \(f(x)\) 在 \(R\) 上取 极大值充要条件 为:

\[ \begin{align} &f'(x)=\lambda,\forall x_k>0\\ &f'(x)<\lambda,\forall x_k=0 \end{align} \]

其中 \(\lambda\) 为拉格朗日乘数,由 \(\sum_k x_k=1\) 决定。

1.3 凸优化与 KTT 条件

凸优化问题可以写为目标函数不等式约束等式约束 的标准形式:

\[ \begin{align} &\text{Minimize}\quad f(x)\\ &\text{Subject to}\quad g_i(x)\leq0,h_j(x)=0 \end{align} \]

为了求解,为不等式约束引入系数 \(\mu_i\) ,为等式约束引入系数 \(\lambda_i\) ,则最优解 \(x^*\) 必须满足:

  • 梯度平衡:目标函数的梯度和约束函数的梯度相互抵消: \[ \nabla f(x^*) +\sum_{i=1}^m\mu_i\nabla g_i(x^*) +\sum_{j=1}^l\lambda_j\nabla h_j(x^*) =0 \]
  • 原始可行性:最优解 \(X^*\) 必须是合法的,即必须满足原本所有约束条件: \[ \begin{align} &g_i(x^*)\leq0,\text{ for all }i=1,\cdots,m\\ &h_j(x^*)=0,\text{ for all }j=1,\cdots,l \end{align} \]
  • 对偶可行性:不等式约束对应的系数 \(\mu_i\) 必须非负: \[ \mu_i\geq0,\text{ for all }i=1,\cdots,m \]
  • 互补松弛性:对于任意一个不等式约束,要么乘子 \(\mu_i=0\) ,要么约束函数 \(g_i(x^*)=0\): \[ \mu_i g_i(x^*)=0,\text{ for all }i=1,\cdots,m \]

Note

对偶可行性和互补松弛性实际上在处理 不等式约束的边界问题

  • 当 \(x^*\) 不在不等式约束的等号上时 \(\mu_i=0\) ,相当于这一条不等式约束没有生效;
  • 当 \(x^*\) 在不等式约束的等号边界上时,此时 \(g_i(x^*)=0\) ,由于 \(x^*\) 向边界外移动可能让 \(f(x)\) 的值更小,为阻止 \(x^*\) 向边界外移动,要让 \(\mu_i>0\) 抵消向外移动的趋势。

上述 KTT 条件总是能让 \(\mu_ig_i(x^*)=0\) ,实际上就是转换为最小化拉格朗日函数:

\[L(x,\mu,\lambda)=f(x)+\sum_{i=1}^m\mu_ig_i(x)+\sum_{j=1}^l\lambda_jh_j(x)\]

2. DMS 信道容量定理

2.1 DMS 信道容量定理

概率分布 \(\{Q_0\cdots,Q_{K-1}\}\) 达到转移概率为 \(\{p(j|k)\}\) 的 DMS 信道容量 \(C\) 的 充要条件 为:

\[ \begin{align} &I(X=k;Y)=C,\forall k,Q_k>0\\ &I(X=k;Y)<C,\forall k,Q_k=0 \end{align} \]

\(I(X=k;Y)\) 表示通过信道传送字符 \(X=k\) 时,信道输入输出间可获得的互信息期望值:

\[ I(X=k;Y) = \sum_{j=0}^{J-1} p(j|k) \log\frac{p(j|k)}{p(j)} = \sum_{j=0}^{J-1} p(j|k) \log\frac{p(j|k)}{\sum_{i=0}^{K-1} Q_i p(j|i)} \]

证明

\[ I(X=l;Y) = \sum_{j=0}^{J-1} p(j|l) \log\frac{p(j|l)}{\sum_{i=0}^{K-1} Q_i p(j|i)} \]

\[ \frac{\partial I(X=l;Y)}{\partial Q_k} = -\sum_{j=0}^{J-1} p(j|l) \frac{p(j|k)}{\sum_{i=0}^{K-1} Q_i p(j|i)} \]

\[ \begin{aligned} \sum_{l=0}^{K-1} Q_l\frac{\partial I(X=l;Y)}{\partial Q_k} &= -\sum_{l=0}^{K-1} Q_l \sum_{j=0}^{J-1} p(j|l) \frac{p(j|k)}{\sum_{i=0}^{K-1} Q_i p(j|i)} \\[4pt] &= -\sum_{j=0}^{J-1} \frac{p(j|k)}{\sum_{i=0}^{K-1} Q_i p(j|i)} \sum_{l=0}^{K-1} Q_l p(j|l) = -1 \end{aligned} \]

构造拉格朗日函数:

\[ J(\{Q_k\}) = I(X;Y) - \lambda\!\left(\sum_{k=0}^{K-1} Q_k\right) = \sum_{k=0}^{K-1} Q_k I(X=k;Y) - \lambda\!\left(\sum_{k=0}^{K-1} Q_k\right) \]

互信息是上凸函数,根据凸函数的极值点条件:

\[ \frac{\partial J(\{Q_k\})}{\partial Q_k} \begin{cases} =0, & \forall Q_k > 0 \\[4pt] <0, & \forall Q_k = 0 \end{cases} \]

\[ \begin{aligned} \frac{\partial J(\{Q_k\})}{\partial Q_k} &= I(X=k;Y) + \sum_{l=0}^{K-1} Q_l\frac{\partial I(X=l;Y)}{\partial Q_k} - \lambda \\[4pt] &= I(X=k;Y) - (\lambda+1) \end{aligned} \]

令 \(C=\lambda+1\) ,即得 DMS 信道容量定理的条件:

\[ \begin{cases} I(X=k;Y)=C, & \forall k,\; Q_k > 0 \\[4pt] I(X=k;Y)<C, & \forall k,\; Q_k = 0 \end{cases} \]

Note

取到 DMS 信道的容量的充要条件是对于好的(使用该符号) \(I(X=k;Y)\) 其值均相等,对于不好的(不使用该符号) \(I(X=k;Y)\) 其值均为 \(0\) :

\[C=I(X;Y)=\sum_{k}Q_kI(X=k;Y)\]

2.2 对称 DMS 信道

离散无记忆信道的转移概率可用 \(K\times J\) 矩阵表示:

\[ \mathbf{P}=\{p(j|k)\}= \begin{bmatrix} p(0|0) & p(1|0) & \cdots & p(J-1|0) \\ p(0|1) & p(1|1) & \cdots & p(J-1|1) \\ \vdots & \vdots & \ddots & \vdots \\ p(0|K-1) & p(1|K-1) & \cdots & p(J-1|K-1) \end{bmatrix} \]

向量 \(\textbf{x} = \{x_1, x_2, …, x_N\}\) 的置换向量定义为:

\[ \mathbf{x}' = \{x_{\pi(1)}, x_{\pi(2)}, \cdots, x_{\pi(N)}\} \]

\(\mathbf{\pi}=\{\pi_1,\pi_2,\cdots,\pi_N\}\) 是 \(\{1,2,\cdots,N\}\) 的任意排列。

若 \(\mathbf{P}\) 中每一行都是第一行的一个置换,则该信道 关于输入对称,有推论:

\[ H(Y|X) = H(Y|X=k) = -\sum_{j=0}^{J-1} p(j|k)\log p(j|k) \]

若 \(\mathbf{P}\) 中每一列都是第一列的一个置换,则该信道 关于输出对称,有推论:

\[ \sum_{k=0}^{K-1} p(j|k) = \frac{K}{J},\quad j=0,1,\cdots,J-1 \]

若一个信道既关于输入对称,又关于输出对称,即 \(\mathbf{P}\) 中每一行都是第一行的一个置换,每一列都是第一列的一个置换,则该信道是 对称的

对一个信道的转移概率矩阵 \(\mathbf{P}\) 按列划分,得到若干个子信道,若划分出的所有子信道均是对称的,则称该信道是 准对称的。下面是两个准对称信道的例子:

\[ \mathbf{P_1}=\begin{pmatrix} 0.8 & 0.1 & 0.1 \\ 0.1 & 0.1 & 0.8 \end{pmatrix}, \quad \mathbf{P_2}=\begin{pmatrix} 0.2 & 0.1 & 0.4 & 0.3 \\ 0.3 & 0.1 & 0.4 & 0.2 \\ 0.2 & 0.4 & 0.1 & 0.3 \\ 0.3 & 0.4 & 0.1 & 0.2 \end{pmatrix} \]

2.3 准对称信道容量定理

达到准对称离散无记忆信道容量的输入分布为 均匀分布

证明:若 \(Q_k=\frac{1}{K},k=0,1,\cdots,K-1\) ,则有:

\[ \begin{aligned} I(X=k;Y) &= \sum_{j=0}^{J-1} p(j|k) \log\frac{p(j|k)}{\frac{1}{K}\sum_{i=0}^{K-1}p(j|i)} \\[4pt] &= \sum_s \sum_{j\in y_s} p(j|k) \log\frac{p(j|k)}{\frac{1}{K}\sum_i p(j|i)} = \text{const} \end{aligned} \]

满足 KKT 条件,此时的互信息值记为该信道的信道容量。

2.4 不同对称性信道容量

若信道 关于输入对称 则:

\[ I(X;Y)=H(Y)-H(Y|X)=H(Y)+\sum_{j=0}^{J-1}p(j|k)\log p(j|k) \]

若信道同时也 关于输出对称(即信道对称),则:

\[ C=\log J+\sum_{j=0}^{J-1}p(j|k)\log p(j|k) \]

若信道 只关于输入对称,则:

\[ C\leq\log J+\sum_{j=0}^{J-1}p(j|k)\log p(j|k) \]

2.5 案例:K 元对称信道

$$ p(j|k)=\begin{cases} 1-p,&k=j\\ \frac{p}{K-1},&k\neq j \end{cases} $$ $$ \begin{align} C &=\log K+\sum_{j=0}^{J-1}p(j|k)\log p(j|k)\\ &=\log K+(1-p)\log(1-p)+p\log\frac{p}{K-1}\\ &=\log K-H(p)-p\log(K-1) \end{align} $$

2.6 案例:除删信道

$$ \mathbf{P} = \begin{pmatrix} 1-p-q & q & p \\ p & q & 1-p-q \end{pmatrix} $$ 当 $Q_0=Q_1=0.5$ 时有: $$ \begin{align} C &= I(X=0;Y) = I(X=1;Y) \\[4pt] &= (1-p-q)\log\frac{1-p-q}{(1-q)/2} + q\log\frac{q}{q} + p\log\frac{p}{(1-q)/2} \\[4pt] &= (1-p-q)\log(1-p-q) + p\log p - (1-q)\log\frac{1-q}{2} \end{align} $$ 当 $p=0$ 时该信道为二元除删信道,当 $q=0$ 时为二元对称信道。

2.7 案例:模 K 加法信道

$$ Y = X + Z \bmod K,\quad X,Y,Z \in \{0,1,2,\cdots,K-1\} $$ $p(z)$ 为任意分布,该信道是一个对称信道。 $$ \begin{aligned} H(Y|X) &= -\sum_x \sum_y Q(x)p(y|x)\log p(y|x) \\ &= -\sum_x \sum_z Q(x)p(z)\log p(z) = H(Z) \end{aligned} $$ $$ C = \log K - H(Z) $$

当 \(Z\) 为 等概分布 时,信道容量为 \(0\);当 \(Z\) 为 确定性分布 时,信道容量为 \(\log K\)。

2.8 可逆转移矩阵信道容量

根据 KKT 条件,当所有输入 \(k\) 均有非零概率时,互信息 \(I(X=k;Y)\) 必须等于常数 \(C\):

\[ \sum_j p(j|k)\log\frac{p(j|k)}{p(j)}=C,\quad p(j)=\sum_iQ_ip(j|i) \]

将上述方程拆分并移项:

\[ \sum_jp(j|k)\log p(j)=\sum_jp(j|k)\log p(j|k)-C \]

令 \(\beta_j=C+\log p(j)\) ,原式变成矩阵形式:

\[ \mathbf{P} \boldsymbol{\beta} = \boldsymbol{\alpha}, \quad\alpha_k=\sum_jp(j|k)\log p(j|k) \]

由于 \(\mathbf{P}\) 可逆,求解 \(\boldsymbol{\beta}=\mathbf{P}^{-1}\boldsymbol{\alpha}\) ,由 \(\beta_j=C+\log p(j)\) 得到 \(p(j)=2^{\beta_j-C}\) ,归一化

\[ \sum_j2^{\beta_j-C}=1 \space\Longrightarrow\space 2^C=\sum_j2^{\beta_j} \space\Longrightarrow\space C=\log_2\left(\sum_j2^{\beta_j}\right) \]

再由 \(\omega_j=\sum_{i=0}^{K-1}Q_i p(j|k),j=0,1,\cdots,K-1\) 即可求出 \(\{Q_k\}\) 。