信息论

91 分钟读完

第一部分绪论

主要讲什么是信息以及通信系统的结构。

1 信息、消息与信号

含义

信息是指各个事物运动的状态及状态变化的方式。

消息是指包含信息的语言、文字和图像等。

信号是消息的物理体现。

关系

消息是信息的数学载体，信号是信息的物理载体。

同一信息，可以采用不同形式的物理量来载荷，也可以采用不同的数学描述方式。同样，同一类型信号或消息也可以代表不同内容的信息。

区别

信号：具体的、物理的

消息：具体的、非物理的

信息：非具体的、非物理的

信息的度量

信息是可以量度的，信息量有多少的差别。

2 信息论的起源、历史与发展

1948年，香农提出信息论。《通信中的数学理论》——现代信息论的开创性的权威论文，为信息论的创立做出了独特的贡献。

香农信息论的科学体系

香农信息论的科学体系

3 通信系统的性能指标

通信系统的性能指标主要是有效性、可靠性、安全性和经济性。通信系统优化就是使这些指标达到最佳。

有效性

从提高通信系统的有效性意义上说，信源编码器的主要指标是它的编码效率，即理论上所需的码率与实际达到的码率之比。

提高通信系统有效性的最根本途径是信源编码，减少冗余。

可靠性

信道编码，增加冗余。

由此我们可以看出，通信系统的有效性和可靠性是矛盾的。

第二部分压缩理论

离散信源

1 信源的数学模型及分类

离散信源

离散信源数学模型如下

\[\left[\begin{matrix}X\\P(x)\end{matrix}\right]=\left[\begin{matrix}a_1&a_2&...&a_q\\P(a_1)&P(a_2)&...&P(a_q)\end{matrix}\right]\]

且满足

\[0<=P(a_i)<=1,\sum\limits_{i=1}^{q}p_i=1\]

集合$X$中，包含该信源所有可能输出的消息，集合$P$中包含对应消息的概率密度，各个消息的输出概率总和应该为1。

连续信源

用连续性的概率空间来描述，其数学模型如下

\[\left[\begin{matrix}X\\P(x)\end{matrix}\right]=\left[\begin{matrix}(a,b)\\p(x)\end{matrix}\right]\]

且满足

\[\int\limits_{a}^{b}p(x)dx=1\]

2 离散信源的信息熵

各种信息量（消除的不确定性）

定义

信源中某一消息发生的不确定性越大，一旦它发生，并被收信者收到后，消除的不确定性就越大，获得的信息也就越大。

直观定义：收到某消息获得的信息量=不确定性减少的量=收到此消息前关于某事件发生的不确定性-收到此消息后关于某事件发生的不确定性。

信源符号的不确定度

具有某种概率的信源符号在发出之前，存在不确定度，不确定度表征该符号的特性。符号的不确定度在数量上等于它的自信息量，而这单位相同，但含义不同：

不确定度是信源符号固有的，不管符号是否发出
自信息量是信源符号发出后给予收信者的
为了消除该符号的不确定度，接收者需要获得信息量

自信息量

自信息量

\[I(X_i=a_i)=-logp(x_i)=log\frac{1}{p(x_i)}\]

条件自信息量

\[I(x_i/y_j)=-logp(x_i/y_j)=log\frac{1}{p(x_i,y_j)}\]

联合自信息量

\[I(x_i,y_j)=-logp(x_i,y_j)=log\frac{1}{p(x_i,y_j)}\]

互信息量

先验概率：信源发出消息$x_i$的概率$p(x_i)$。

后验概率：信宿收到$y_i$后推测信源发出$x_i$的概率$p(x_i/y_i)$。

互信息量：

\[I(x_i;y_j)=log\frac{p(x_i/y_j)}{p(x_i)}=I(x_i)-I(x_i/y_j)=I(x_i)+I(y_j)-I(x_iy_j)\]

表明不确定度被消除的部分。

各种信息熵（信源的平均不确定性）

定义

自信息是一个随机变量，随着所发出消息的改变而改变，故不能用它来作为整个信源的信息测度。我们选择自信息的数学期望，定义为信源的平均自信息量，即

\[H(X)=E[log\frac{1}{P(a_i)}]=-\sum\limits_{i=1}^{q}P(a_i)logP(a_i)\]

也叫信源熵。

条件熵

疑义度：

\[H(X/Y)=E[I(x_i/y_j)]=\sum\limits_{j=1}^m\sum\limits_{i=1}^{n}p(x_iy_j)I(x_i/y_j)=-\sum\limits_{j=1}^m\sum\limits_{i=1}^{n}p(x_iy_j)logp(x_i/y_j)\]

噪声熵：

\[H(Y/X)=E[I(y_j/x_i)]=-\sum\limits_{j=1}^m\sum\limits_{i=1}^{n}p(x_iy_j)logp(y_j/x_i)\]

联合熵

\[H(XY)=E[I(XY)]=-\sum\limits_{i,j}p(x_iy_j)logp(x_iy_j)\]

3 信源熵的基本性质

对称性。

变量顺序任意互换时，熵函数的值不变。
非负性。
\[H(p)=-\sum{p_ilogp_i}{\geq}0\]
注意：连续信源不存在非负性。
确定性。

某分量为1时，该信源是一个确知信源，其熵等于零。
扩展性。
\[\lim\limits_{\epsilon}H_{q+1}(p_1,p_2,...,p_q-\epsilon,\epsilon)=H_q(p_1,p_2,...,p_q)\]
信源中增加某些概率很小的信号，信源熵保持不变。
最大离散熵定理。

信源中包含$q$个不同离散消息时，信源熵$H(X)$有
\[H(X){\leq}log q\]
当且仅当$X$中各个消息出现的概率全相等时取等号。

证明过程需掌握

(提示：利用不等式$lnx{\leq}x-1$)
可加性。
\[H(XY)=H(x)+H(Y/X)=H(Y)+H(X/Y)\]
当$X$与$Y$相互独立时
\[H(XY)=H(X)+H(Y)\]
上凸性。
\[H[{\alpha}P+(1-{\alpha})Q)]>{\alpha}H(P)+(1-{\alpha})H(Q)\]
条件熵小于无条件熵。
\[H(Y/X){\leq}H(Y)\]
当且仅当$y$和$x$相互独立时取等号。
联合熵小于信源熵之和。
\[H(X,Y){\leq}H(X)+H(Y)\]
两个条件下的条件熵小于一个条件下的条件熵。
\[H(Z|X,Y){\leq}H(Z|X)\]

信源熵的物理意义

信源熵是在平均意义上来表征信源的总体特性，它是信源$X$的函数，而$X$是指随机变量的整体（包括概率空间）。信源给定，信源熵就是一个确定值。

信源熵$H(X)$的三种物理含义：

表示信源输出后，每个离散消息所提供的平均信息量
表示信源输出前，信源的平均不确定度
反映了变量$X$的随机性

4 马尔可夫信源

定义

信源输出的符号和所处的状态满足下列两个条件：

某一时刻信源符号的输出至于此刻信源所处的状态有关，与以前的状态和以前的输出符号都无关，即
\[P(X_l=a_k|s_l=E_i,x_l-1,s_l-1=E_j,...)=p_l(a_k|E_i)\]
信源某$l$时刻所处的状态由当前的输出符号和前一时刻$(l-1)$信源的状态唯一决定。即
\[P(s_l=E_j|x_l=a_k,s_{l-1}=E_i)=\left\{ \begin{array}{rcl} 0,& E_i,E_j\in E\\ 1,& a_k\in A \end{array} \right.\]

则此信源称为马尔可夫信源。

m阶马尔可夫信源

对m阶有记忆离散信源，在任何时刻$l$，符号发出的概率只与前面$m$个符号有关，把这m个符号看作信源在$l$时刻的状态。

m阶马尔可夫信源的极限熵：m阶马尔可夫信源的极限熵$H_{\infty}$等于m阶条件熵

\[H_{\infty}=H(X_{m+1}\mid X_1X_2...X_m)=-\sum\limits_{i=1}^{q^m}\sum\limits_{j=1}^{q^m}Q(E_i)p(E_j\mid E_i)log_2p(E_j\mid E_i)\]

$Q(E_i)$为信源稳定后的状态极限概率，$$P(E_j

E_i)$$是一步转移概率

\[Q(E_i)=\sum\limits_{j=1}^{q^m}Q(E_j)p(E_i\mid E_j) (j=1,2,...,q^m)\]

m阶马尔可夫信源在起始的有限时间内，信源不是平稳和遍历/各态历经性的，状态的概率分布有一段起始渐变过程。经过足够长时间后，信源处于什么状态已于初始状态无关，这时每种状态出现的概率已达到一种稳定分布。

由于平稳信源必须知道信源的各维分布，而m阶马尔可夫信源只需知道与前m个符号有关的条件概率，就可计算出信源的信息熵。所以，一般平稳信源可以用m阶马尔可夫信源来近似。

5 信源剩余度

熵的相对率

一个信源实际的信息熵与具有同样符号集的最大熵的比值。

\[\eta=\frac{H_\infty}{H_0}\]

式中，$H_\infty$是信源的实际熵；$H_0=logq$是信源的最大熵，$q$为信源的符号数。

信源剩余度

1减去熵的相对率。

\[\gamma=1-\eta=1-\frac{H_\infty}{H_0}\]

信源剩余度的大小能很好地反映离散信源输出的符号序列中符号之间依赖关系的强弱。剩余度$\gamma$越大，表示信源的实际熵$H_\infty$越小，这表明信源符号之间的依赖关系越强，即符号之间的记忆长度越长。反之，剩余度越小，表明信源符号之间的依赖关系越弱，即符号之间的记忆长度越短。当剩余度等于零时，信源的信息熵就等于极大值$H_0$，信源的信息熵就等于极大值$H_0$，这表明信源符号之间不但统计独立无记忆，而且各符号还是等概率分布。

波形信源

1 连续信源的熵

定义

\[h(X)=-\int\limits_Rp(x)log_2p(x)dx\]

上式定义的熵在形式上和离散信源相似，也满足离散熵的主要特性，如可加性，但在概念上与离散熵有差异因为它失去了离散熵的部分含义和性质。

意义

连续信源熵并不是实际信源输出的绝对熵。

连续信源的绝对熵还有一项正的无穷大的量。

$h(x)$不能代表信源的平均不确定度，也不能代表连续信源输出的信息量。

连续信源的联合熵和条件熵

联合熵

\[h(XY)=-\iint\limits_{R^2}p(xy)log_2p(xy)dxdy\]

条件熵

\[h(Y\mid X)=-\iint\limits_{R^2}p(xy)log_2p(y\mid x)dxdy\] \[h(X\mid Y)=-\iint\limits_{R^2}p(xy)log_2p(x\mid y)dxdy\]

两种特殊连续信源的差熵

均匀分布

限频、限时均匀分布的波形信源的熵

\[h(X)=2FTlog(b-a)\]

均匀分布的波形信源的熵

\[h_t(X)=2Flog(b-a)\]

高斯信源

\[h(X)=\frac{1}{2}log2\pi e\sigma^2\]

高斯连续信源的熵与数学期望$m$无关，只与方差$\sigma^2$有关。即数学期望m对高斯信源的总体特性没有任何影响。

2 连续信源熵的性质及最大差熵定理

性质

连续信源的差熵只具有熵的部分含义和性质。

可加性。
\[h(XY)=h(X)+h(Y\mid X)=h(Y)+h(X\mid Y)\]

所以可得

\[h(XY)\leq h(X)+h(Y)\] \[h(X\mid Y)\leq h(X)\] \[h(Y\mid X)\leq h(Y)\]

凸状性和极值性。

差熵$h(X)$是输入概率密度函数$p(x)$的上凸函数，对于某一概率密度函数可以得到差熵的最大。
差熵可为负值。
变换性。

连续信源输出的随机变量（或随机矢量）通过确定的一一对应变换，其差熵会发生变化。
\[h(kX+a)=h(X)+log|k|\]

最大差熵定理

限峰值功率的最大熵定理

若某信源输出信号的峰值功率受限为$P$，它等价于信源输出的连续随机变量$X$的取值幅度受限，限于$[a,b]$内取值。

若信源输出的幅度被限定在$[a,b]$区域内，则当输出信号的概率密度是均匀分布时信源具有最大熵。其值等于$log(b-a)$。若当N维随机矢量取值受限时，也只有随机分量统计独立并均匀分布时具有最大熵。

限平均功率的最大熵定理

若一个连续信源输出信号的平均功率被限定为$P$，则其输出信号幅度的概率密度分布是高斯分布时，信源有最大熵，其值为$\frac{1}{2}log2\pi eP$

无失真信源编码定理

等长码

等长码码字长度$l$是固定的，相应的编码定理称为等长信源编码定理，是寻求最小$l$值的编码方法。

等长信源编码定理

一个熵为$H(s)$的离散无记忆信源，若对其$N$次扩展信源进行等长$r$元编码，码长为$l$,对于任意$\varepsilon>0$，只要满足

\[\frac{l}{N}\geq \frac{H(s)+\varepsilon}{logr}\]

当N无穷大时，则可以实现几乎无失真编码。反之，若

\[\frac{l}{N}\leq \frac{H(s)-2\varepsilon}{logr}\]

则不可能实现无失真编码，当N趋向于无穷大时，译码错误概率接近于1。

编码效率

\[\eta=\frac{H(S)}{\frac{l}{N}logr}\]

变长码

$l$是变值，相应的编码定理称为变长编码定理，$l$值最小意味着数学期望最小。

信源编码

Kraft不等式

对于码符号为$X={x_1,x_2,...,x_q}$的任意即时码，所对应的码长为$l_1,l_2,...,l_q$，则必定满足

\[\sum\limits_{i=1}^{q}r^{-l_i}\leq1\]

反之，若码长满足上式，则一定存在这样的即时码。

唯一可译码一定满足Kraft不等式；反之，满足不等式的码不一定是唯一可译码，但一定至少存在一种唯一可译码。

唯一可译码的判断方法和步骤

首先观察其是否是非奇异码。若是奇异码则一定不是唯一可译码。
其次观察其是否满足Kraft不等式，若不满足则一定不是唯一可译码。
将码化成一棵码树图，观察其是否满足即时码的树图构造，若满足则是唯一可译码。
用萨德纳斯和彼特森设计的判断方法，计算出码中所有可能的尾随后缀集合F，观察F中有没有包含任意码字。若无则为唯一可译码；若有则一定不是唯一可译码。

变长信源编码定理（香农第一定理）

离散无记忆信源$S$的$N$次扩展信源$S^N$，其熵为$H(S^N)$ ，并且编码器的码元符号集为$X=\{x_1,x_2,…,x_r\}$ 对信源$S^N$进行编码，总可以找到一种编码方法，构成唯一可译码，使信源S中每个符号所需要的平均码长满足

\[\frac{H(S)}{logr}\leq \frac{L_N}{N}<\frac{H(S)}{logr}+\frac{1}{N}\]

当$N\rightarrow\infty$则得：$\lim\limits_{N\rightarrow\infty}L=H_r(S)$

这个定理是香农信息论中非常重要得一个定理，它指出，要做到无失真的信源编码，信源每个符号所需要的平均码元数就是信源的熵值，如果小于这个值，则唯一可译码不存在，可见，熵是无失真信源编码的极限值。定理还指出，通过对扩展信源进行编码，当N趋向于无穷时，平均码长可以趋近该极限值。

由此可见，这时信道的信息传输率等于无噪无损信道的信道容量$C$，信息传输效率最高。因此，无失真信源编码的实质就是对离散信源进行适当的变换，使变换后新的码符号信源(信道的输入信源)尽可能为等概率分布，以使新信源的每个码符号平均所含的信息量达到最大，从而使信道的信息传输率$R$达到信道容量$C$ ，实现信源与信道理想的统计匹配。这也就是香农第一定理的物理意义。

无失真的信源编码

香农编码

步骤

按信源符号的概率从大到小的顺序排列$p(x_1)\geq p(x_2)\geq...\geq p(x_q)$
令$p(x_0)=0$，用$p_a(x_j),j=i+1$表示第$i$个码字的累加概率 $p_a(x_j)=\sum\limits_{i=1}^{j-1}p(x_i)=1$
\[-log_2p(x_i)\leq l_i\leq 1-log_2p(x_i)\]
把$p_a(x_j)$用二进制表示，用小数点后的$l_i$位作为$x_i$的码字

费诺编码

步骤

将信源符号的概率按从大到小的顺序排列$p(x_1)\geq p(x_2)\geq...\geq p(x_q)$
按编码进制数将概率分组，使每组概率和尽可能接近或相等。如二进制码就分成两组，编$r$进制码就分成$r$组。
给每一组分配一位码元
将每一分组再按同样规则划分，重复步骤2和3，直至概率不可再分为止。

霍夫曼编码

步骤

将信源符号按概率从大到小的顺序排列$p(x_1)\geq p(x_2)\geq...\geq p(x_q)$。
给两个概率最小的信源符号$p(x_{n-1})$和$p(x_n)$各分配一个码位“0”和“1”，将这两个信源符号合并成一个新符号，并用这两个最小的概率之和作为新符号的概率，结果得到一个只包含$(q-1)$个信源符号的新信源。称为信源的第一次缩减信源，用$S_1$表示。
将缩减信源$S_1$的符号仍按概率从大到小顺序排列，重复步骤2，得到只含$(q-2)$个符号的缩减信源$S_2$。
重复上述步骤，直至缩减信源只剩两个符号为止，此时所剩两个符号的概率之和必为1。然后从最后一级缩减信源开始，依编码路径向前返回，就得到各信源符号所对应的码字。

游程编码

用交替出现的“0”游程和“1”游程长度表示任意二元序列。

游程变换减弱了原序列符号间的相关性，将二元序列变换成了多元序列。这样就适合用于其它方法，如哈夫曼编码，进一步压缩信源，提高通信效率。

编码方法

首先测定“0”游程长度和”1“游程长度的概率分布，即以游程长度为元素，构造一个新的信源。
对新的信源（游程序列）进行哈夫曼编码。

限失真信源编码

失真度（失真函数）

定义

失真函数用来表征信源发出一个符号$u_i$，而在接收端再现成符号$v_j$所引起的误差或失真。$d(u_i, v_j)$越小表示失真越小，等于$0$表示没有失真。

失真函数是根据人们的实际需要和失真引起的损失、风险、主观感觉上的差别大小等因素人为规定的。

可以将所有的失真函数排列成矩阵的形式，称为失真矩阵：

\[D=\left[\begin{matrix} d(u_1,v_1) & d(u_1,v_2) &...&d(u_1,v_s)\\ d(u_2,v_1) & d(u_2,v_2) &...&d(u_2,v_s)\\ \vdots & \vdots & \vdots & \vdots\\ d(u_r,v_1) & d(u_r,v_2) &...&d(u_r,v_s) \end{matrix}\right]\]

常用的失真函数

误码失真函数

\[d(u_i,v_j)= \left\{ \begin{array}{rcl} 0,& i=j\\ a(a>0),&i\ne j \end{array} \right.\] \[[D]= \left[ \begin{matrix} 0 & a & a & ... & a\\ a & 0 & a & ... & a\\ a & a & 0 & ... & a\\ \vdots & \vdots & \vdots & 0 & \vdots\\ a & a & a & ... & 0 \end{matrix} \right]\]

当$i=j$时，$U$与$V$的取值一样，用$V$来代表$U$就没有误差，所以定义失真函数为$0$；

当$i\ne j$时，用$V$代表$U$就有误差。

这种定义认为对所有不同的$i$和$j$引起的误差都一样，所以定义失真函数为常数$a$。

失真矩阵的特点是对角线上的元素均为0，对角线以外的其它元素都为常数$a$。

当$a=1$时的失真函数称为汉明失真函数。

均方失真函数

\[d(u_i,v_j)=(v_j-u_i)^2\]

这种函数称为平方误差失真函数，失真矩阵为平方误差失真矩阵。

若信源符号代表输出信号的幅度值，则较大的幅度失真比较小的幅度失真引起的错误更为严重，严重程度用平方表示。

绝对失真

\[d(u_i,v_j)=|v_j-u_i|\]

相对失真

\[d(u_i,v_j)=\frac{|v_j-u_i|}{|u_i|}\]

第一种失真函数适用于离散信源，后三种失真函数适用于连续信源。

平均失真度

定义

\[\begin{aligned} \overline{D} &= E[d(u_i,v_j)]\\ &=\sum\limits_{U,V}P(u,v)d(u,v)\\ &=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{s}P(u_i)P(v_j\mid u_i)d(u_i,v_j) \end{aligned}\]

若平均失真度$\overline{D}$不大于我们所允许的失真限度$D$，则称为保真度准则。

凡满足保真度准则的这些试验信道称为D失真许可的试验信道。

意义

$\overline{D}$是在平均意义上，从总体上对整个系统失真情况的描述。它是信源统计特性$p(u_i)$ 、信道统计特性$p(v_j\mid u_i)$和失真度$d(u_i,v_j)$的函数。当$p(u_i)$，$p(v_j\mid u_i )$和$d(u_i,v_j)$给定后，平均失真度就不是一个随机变量了，而是一个确定的量。

如果信源和失真度一定，$\overline{D}$就只是信道统计特性的函数。信道传递概率不同，平均失真度随之改变。

信息率失真函数

定义

在满足保真度准则下平均互信息的最小值，即

\[R(D)=\min\limits_{p(v_j\mid u_i)\in B_D} I(U;V)\]

改变试验信道求平均互信息的最小值，实质上是选择一种编码方式使信息传输率为最小。

定义域（允许失真限度的最小值和最大值）

失真度限度的最小值$D_{min}$

令失真矩阵$[D]$中某一行中的最小元素所对应的试验信道的转移概率为1，其余为0，则和式最小，即

\[\left\{ \begin{array}{rcl} \sum\limits_{j=1}^sP(v_j\mid u_i)=1 &所有d(u_i,v_j)=最小的v_i\\ P(v_j\mid u_i)=0 & d(u_i,v_j)\ne最小的v_i \end{array} \right.\]

则可得信源的最小平均失真度为

\[D_{min}=\sum\limits_{i=1}^{r}p(u_i)\min\limits_{j}d(u_i,v_j)\]

失真度限度的最大值$D_{max}$

$R(D)$等于零时，所对应的平均失真度的下界就是失真限度的最大值$D_{max}$

\[D_{max}=\min\limits_{j}\left[\sum\limits_{i=1}^rp(u_i)d(u_i,v_j)\right]\]

结论

$R(D)$的定义域为$(D_{min},D_{max})$；
一般情况下$D_{min}=0$，$R(D_{min})=H(U)$；
当$D\geq D_{max}$时，$R(D)=0$；
当$D_{min}<D<D_{max}$时，$0<R(D)<H(U)$

性质

率失真函数对允许平均失真度的下凸性
率失真函数的单调递减和连续性

率失真函数的一般图形

率失真函数

几个典型信源的率失真函数

二元离散对称信源U

$P(U)=\{\omega,1-\omega\}(\omega\leq\frac{1}{2})$，汉明失真

\[R(D)=\left\{ \begin{array}{rcl} H(\omega)-H(D) &0\leq D\leq\omega\\ 0 &D>\omega \end{array} \right.\]

离散对称信源U

$U=\{u_1,u_2,...,u_r\}$，等概率分布，汉明失真

\[R(D)=\left\{ \begin{array}{rcl} logr-Dlog(r-1)-H(D) &0\leq D\leq1-\frac{1}{r}\\ 0 &D>1-\frac{1}{r} \end{array} \right.\]

高斯信源U

均值为$m$，方差为$\sigma^2$的正态分布，$d(u-v)=(u-v)^2$

\[R(D)=\left\{ \begin{array}{rcl} \frac{1}{2}log\frac{\sigma^2}{D} &D\leq\sigma^2\\ 0 &D\geq\sigma^2 \end{array} \right.\]

保真度准则下的信源编码定理（香农第三定理）

信源的信息率失真函数为$R(D)$，并有有限的失真测度，若$R^{'}>R(D)$则码长$n$足够长，一定存在一种信源编码，码字个数$M=2^{nR^{'}}$，而码的平均失真度$\rightarrow D$。若$R^{'}<R(D)$，这种码不存在。

第三部分传输理论

离散信道

1 信道的数学模型及分类

信道的分类

根据输入输出随机信号的特点分类：离散信道、连续信道、半离散/半连续信道
根据输入输出随机变量个数的多少分类：单符号信道、多符号信道
根据输入输出个数分类：单用户信道、多用户信道
根据信道上有无干扰分类：有干扰信道、无干扰信道
根据信道有无记忆特性分类：无记忆信道、有记忆信道

离散信道的数学模型

信道的数学模型

联合概率：

\[P(a_ib_j)=P(a_i)P(b_j\mid a_i)=P(b_j)P(a_i\mid b_j)\]

其中，$P(b_j\mid a_i)$称为前向概率，描述信道的噪声特性；$P(a_i\mid b_j)$称为后向概率；$P(a_i)$称为先验概率，把$P(a_i\mid b_j)$称为后验概率。

输出符号的概率：

\[P(b_j)=\sum\limits_{i=1}^{r}p(a_i)p(b_j\mid a_i)\]

后验概率：

\[P(a_i\mid b_j)=\frac{P(a_ib_j)}{P(b_j)}\]

表明输出端收到任一符号，必定是输入端某一符号所致。

2 平均互信息

信道疑义度

\[H(X\mid Y)=E[H(X\mid b_j)]=\sum\limits_{X,Y}P(xy)log\frac{1}{P(x\mid y)}\]

平均互信息

观察者站在输出端
\[I(X;Y)=H(X)-H(X\mid Y)=\sum\limits_{i=1}^n\sum\limits_{j=1}^{m}p(x_iy_j)log_2\frac{p(x_i\mid y_j)}{p(x_i)}\]
物理意义：收到Y前后关于X的不确定度减少的量。从Y获得的关于X的平均信息量。

$H(X\mid Y)$是Y关于X的后验不定度，或称疑义度。
观察者站在输入端
\[I(Y;X)=H(Y)-H(Y\mid X)=\sum\limits_{i=1}^r\sum\limits_{j=1}^{s}p(x_iy_j)log_2\frac{p(y_j\mid x_i)}{p(y_j)}\]
物理意义：发出X前后关于Y的先验不确定度减少的量。

$H(Y\mid X)$是X关于Y的后验不定度，常称噪声熵。它还代表了信道中损失的信息，又称损失熵。
观察者站在通信系统总体立场上
\[I(X;Y)=H(X)+H(Y)-H(XY)=\sum\limits_{i=1}^r\sum\limits_{j=1}^{s}p(x_iy_j)log_2\frac{p(x_iy_j)}{p(x_i)p(y_j)}\]
物理意义：通信前后整个系统不确定度减少量。

从三种不同角度说明从一个事件获得另一个时间的平均互信息需要消除不确定度，一旦消除了不确定度，就获得了信息，此即”信息就是负熵“。

3 平均互信息的特性

对称性。
\[I(X;Y)=I(Y;X)\]
由Y提取到的关于X的信息量与从X中提取到的关于Y的信息量是一样的。$I(X;Y)$和$I(Y;X)$只是观察者的立足点不同。
非负性。
\[I(X;Y)\geq 0\]
当且仅当X和Y相互独立时等号成立。

（提示：利用詹森不等式，借助$f(x)=logx$的上凸性进行证明）
极值性。
\[I(X;Y)\leq H(X)\] \[I(Y;X)\leq H(Y)\]
物理意义：从一个事件提取关于另一个事件的信息量，至多是另一个时间的熵那么多，不会超过另一个事件自身所含的信息量。
凸函数性。

平均互信息量$I(X;Y)$是信源概率分布$P(x_i)$的上凸函数。研究信道容量的理论基础。

平均互信息量$I(X;Y)$是信道传递概率$P(y_j\mid x_i)$的下凸函数。研究信源的信息率失真函数的理论基础。
数据处理定理（信息不增原理）。

数据处理定律

\[I(X;Z)\leq I(X;Y)\] \[I(X;Z)\leq I(Y;Z)\]
当消息经过多级处理后，随着处理器数目的增多，输入消息与输出消息之间的平均互信息量趋于变小。

4 信道容量及其一般计算方法

信道容量$C$：在信道中最大的信息传输速率，单位是比特/信道符号

\[C=max_{p(x_i)}R=max_{p(x_i)}I(X;Y)\]

单位时间的信道容量$C_t$：若信道平均传输一个符号需要t秒钟，则单位时间的信道容量为

\[C_t=\frac{1}{t}max_{p(x_i)}I(X;Y)\]

实际是信道的最大信息传输速率。

信道容量是完全描述信道特性的参量，是信道能够传送的最大信息量，仅仅是信道转移概率的函数，只与信道统计特性有关，与$p(x_i)$无关

5 离散无记忆扩展信道及其信道容量

无噪无损信道

噪声熵$H(Y\mid X)=0$，$I(X;Y)=H(X)=H(Y)$

当信源呈等概分布时，具有一一对应确定关系的无噪信道达到信道容量

\[C=max_{p(x_i)}I(X;Y)=max_{p(x_i)}H(X)=log_2r\]

有噪无损信道

噪声熵$H(Y\mid X)=0$，$I(X;Y)=H(X)$

与无噪无损信道不同的是，此时输入端符号熵小于输出端符号熵，即$H(X)<H(Y)$

信道容量为

\[C=max_{p(x_i)}I(X;Y)=max_{p(x_i)}H(X)=log_2r\]

无噪有损信道

信道噪声熵$H(Y\mid X)=0$，信道疑义度$H(X\mid Y)\neq 0$

信道容量为

\[C=max_{p(x_i)}I(X;Y)=max_{p(x_i)}H(Y)=log_2s\]

这种信道输入端符号熵大于输出端符号熵，$H(X)>H(Y)$

注意：在求信道容量时，调整的式中是输入端的概率分布$p(x_i)$，尽管信道容量式子中平均互信息$I(X;Y)$等于输出端符号熵$H(Y)$，但是在求极大值时调整的仍然是输入端的概率分布$p(x_i)$，而不能用输出端的概率分布$p(y_j)$来代替。

结论

信道容量只取决于信道的输入符号数r，或输出符号数s，与信源特性无关。

对称离散信道的信道容量

定义

信道矩阵具有可排列性

如一个离散对称信道具有n个输入符号，m个输出符号，则当输入为等概分布时，达到信道容量

\[C=max_{p(x_i)}[H(Y)-H_si]=log_2s-H(p_1,p_2,...,p_s)\]

引理

对于对称信道，只有信道输入为等概率分布时，输出才能为等概率分布

强对称信道

\[P=\left[\begin{matrix} 1-\varepsilon & \frac{\varepsilon}{n-1} & ... & \frac{\varepsilon}{n-1} \\ \frac{\varepsilon}{n-1} & 1-\varepsilon & ... & \frac{\varepsilon}{n-1} \\ \vdots & \vdots & \vdots & \vdots \\ \frac{\varepsilon}{n-1} & \frac{\varepsilon}{n-1} & ... & 1-\varepsilon \end{matrix}\right]\] \[\begin{aligned} C &= logn-H(1-\varepsilon,\frac{\varepsilon}{n-1},...,\frac{\varepsilon}{n-1}) \\ &= logn-log(n-1)-H(p) \end{aligned}\]

当信道输入呈等概率分布时，强对称离散信道能够传输最大的平均信息量，即达到信道容量。

准对称离散信道

一个r行s列但符号离散信道矩阵$[P]$的行具有可排列性，列不具有可排列性。但是列矩阵可分成几个互不相交的子集$B_k$，由$B_k$为列组成的矩阵$Q_k$是对称矩阵，则称信道矩阵所对应的信道为准对称信道。

信道容量为

\[C=logr-H(p_1,p_2,...,p_s)-\sum\limits_{k=1}^nN_klog_2M_k\]

$N_k$是第k个子矩阵$Q_k$中行元素之和，$M_k$是第k个子矩阵$Q_k$中列元素之和

6 信源与信道的匹配

剩余度

信道剩余度$=C-I(X;Y)$

信道的相对剩余度$=1-\frac{I(X;Y)}{C}$

对于无损信道，相对剩余度$=1-\frac{H(X)}{logr}$

如何才能做到匹配-香农无失真信源编码理论

一般通信系统中，把信源发出的符号变成能在信道中传输的符号，在传输时，要能够尽量用较少的符号表示相同的信息，这样就可以提高信息的传输率，从而提高信道的利用率。

无失真信源编码就是将信源输出的消息变换成适合信道传输的新信源的消息来传输，而使新信源的符号接近等概率分布，新信源的熵接近最大熵。这样，信源传输的信息量达到最大，信道剩余度接近于零，信源与信道达到匹配。

波形信道

1 分类

按信道输入和输出的统计特性分类

连续无记忆信道

连续有记忆信道

按噪声的统计特性分类

高斯信道

信道中的噪声是高斯噪声。高斯噪声是平稳遍历的随机过程，其瞬时值的概率密度函数服从高斯分布（即正态分布）。

白噪声信道

信道中的噪声是白噪声。白噪声也是平稳遍历的随机过程。它的功率谱密度均匀分布于整个频率区间，功率谱密度为一常数。

高斯白噪声信道

具有高斯分布的白噪声称为高斯白噪声。一般情况把既服从高斯分布而功率谱密度又是均匀的噪声称为高斯白噪声。

有色噪声信道

除白噪声以外的噪声称为有色噪声。信道的噪声是有色噪声称此信道为有色噪声信道。

一般有色噪声信道都是有记忆信道。

按噪声对信号的功能分类

乘性信道

加性信道

加性信道的条件熵等于其噪声熵。说明$h(Y\mid X)$是由噪声引起的，它完全等于噪声信源的不确定性，即噪声信源的熵，所以称它为噪声熵。

\[\begin{aligned} h(Y\mid X) &=-\iint\limits_{XY}p(x)p(y\mid x)log_2p(y\mid x)dxdy\\ &=-\iint\limits_{XN}p(x)p(n)log_2p(n)dxdn\\ &=-\int\limits_{N}p(n)log_2p(n)dn\left\{\int\limits_Xp(x)dx\right\}\\ &=-\int\limits_{N}p(n)log_2p(n)dn\\ &=h(n) \end{aligned}\]

2 信息传输率

平均互信息

定义

\[\begin{aligned} I(X;Y) &=h(X)+h(Y)-h(XY)\\ &=\iint\limits_{xy}p(xy)log\frac{p(x\mid y)}{p(x)}dxdy\\ &=\iint\limits_{xy}p(xy)log\frac{p(y\mid x)}{p(y)}dxdy\\ &=\iint\limits_{xy}p(xy)log\frac{p(xy)}{p(x)p(y)}dxdy\\ \end{aligned}\]

对于连续信道的平均互信息来说，关系式和离散信道下平均互信息的关系式完全类似，而且保留了离散信道平均互信息的含义和性质，只是表达式中用连续信源的差熵代替了离散信源的熵。

性质

非负性。
\[I(X;Y)\geq 0\]
对称性。
\[I(X;Y)=I(Y;X)\]
凸状性。

连续变量之间的平均互信息是输入连续变量$X$和概率密度函数$p(x)$的∩型上凸函数；平均互信息又是连续信道传递概率密度函数$p(y/x)$的下凸函数。
信息不增性（数据处理定理）。
坐标变换平均互信息的不变性。

通过一一对应的变换，差熵会发生变换，但所传输的平均互信息是不变的。因为平均互信息是两熵之差，通过变换后，雅克比行列式对数的统计平均那一项正好抵消，因此平均互信息保持不变。因此，在一一对应的变换下，传输的信息量不会增加，也不会减少，符合数据处理定理。

信息传输率

多维连续信道的信息传输率

\[R=I(X;Y)(比特/自由度)\]

平均每个自由度的信息传输率

\[R_N=\frac{1}{N}I(X;Y)\]

波形信道的信息传输率

\[R_t=\lim\limits_{T\rightarrow \infty}I(X;Y)(比特/秒)\]

3 信道容量

设信道的频带限于$(0,W)$。根据采样定理，如果每秒传送$2W$个采样点，在接收端可无失真地恢复出原始信号。

香农公式

把信道的一次传输看成是一次采样，由于信道每秒传输$2W$个样点，所以单位时间的信道容量为

\[C_t=Wlog_2(1+\frac{P_s}{P_n})(比特/秒)\]

当信道容量一定时，增大信道带宽，可以降低对信噪功率比的要求；反之，当信道频带较窄时，可以通过提高信噪功率比来补偿。

香农公式的意义

提高信号与噪声功率比能增加信道的容量。
当噪声功率N0趋近于0时，信道容量趋于无穷值，这意味着无干扰连续信道的信道容量为无限大。
信道容量一定时，带宽W，传输时间T和信噪功率比Ps/Pn三者之间可以相互转换。
若传输时间T固定，则扩展信道的带宽W就可以降低信噪比的要求；反之，带宽变窄，就要增加信噪功率比。
如果信源固定不变，则增加信道的带宽W就可以缩短传送时间T，换取传输时间的节省；或者花费较长的传输时间来换取频带的节省。
如果保持频带不变，我们可以采用增加时间T来改善信噪比。
增加信道带宽W并不能无限制地使信道容量增大。
给出了无错误通信的传输速率的理论极限
\[P_s=E_bC_t\]

有噪信道编码定理

译码准则

最大似然译码准则

选择译码函数

\[F(b_j)=a^*\]

并满足

\[P(b_j\mid a^*)\geq P(b_j\mid a_i)\]

最大后验概率准则（最小错误概率准则）

选择译码函数

\[F(b_j)=a^*\]

使

\[P(a^*\mid b_j)\geq P(a_i\mid b_j)\]

即

\[\frac{P(b_j\mid a^*)p(a^*)}{P(b_j)}\geq\frac{P(b_j\mid a_i)p(a_i)}{P(b_j)}\]

可使平均错误概率最小。

一般$P(b_i)\ne0$，这样最大后验概率准则可表示为

选择译码函数

\[F(b_j)=a^*\]

使满足

\[P(b_j\mid a^*)p(a^*)\geq P(b_j\mid a_i)p(a_i)\]

最小距离译码准则

选择译码函数

\[F(b_j)=a^*\]

使满足

\[D(\alpha^*,\beta_j)\leq D(\alpha_i,\beta_j),\alpha_i\ne\alpha^*\]

即满足

\[D(\alpha^*,\beta_j)=D_{min}(\alpha_i,\beta_j),\alpha_i\ne\alpha^*\]

在二元对称信道中最小距离译码准则等于最大似然译码准则。在任意信道中也可采用最小距离译码准则，但它不一定等于最大似然译码准则。

错误概率

条件错误概率

\[P(e\mid b_j)=1-P(a_i\mid b_j)=1-P[F(b_j)\mid b_j]\]

平均错误概率

\[\begin{aligned} P_E &=E[P(e\mid b_j)]=\sum\limits_{j=1}^{s}P(b_j)P(e\mid b_j)\\ &=\sum\limits_{X}\sum\limits_{Y-a^*对应的b_j}P(a_i)P(b_j\mid a_i) \end{aligned}\]

它表示经过译码后平均接收到一个符号所产生的错误大小。

费诺不等式

$P_E$和信道疑义度$H(X\mid Y)$的关系

\[H(X\mid Y)\leq H(P_E)+P_Elog(r-1)\]

编码方法

通过编码方法来降低错误概率。

M元对称信道的n次扩展信道：错误概率降低。编码后的信息传输率为$R=\frac{logM}{n}$。$n$$越大，$P_E$越低，信息传输率$R$越低。

有噪信道编码定理

有噪信道编码定理（香农第二定理）

一个离散无记忆信道，信道容量为$C$。当信息传输率$R\leq C$时，只要码长足够长，总可以在输入$X$符号集中找到$M=2^{nR}$个码字组成的一组码$(2^{nR},n)$和相应的译码准则，使译码的平均错误概率达到任意小。

有噪信道编码逆定理

一个离散无记忆信道，信道容量为$C$。当信息传输率$R>C$时，则无论码长$n$多长，总找不到一种编码$(2^{nR},n)$使信道输出端的平均错误译码概率达到任意小。

信道容量与信息率失真函数的比较

求信道容量和信息率失真函数的问题，都是求平均互信息极值问题，为对偶问题

率失真函数与信道容量对比

Twitter Facebook LinkedIn

Ziqing Zhao

第一部分 绪论

1 信息、消息与信号

含义

关系

区别

信息的度量

2 信息论的起源、历史与发展

香农信息论的科学体系

3 通信系统的性能指标

有效性

可靠性

第二部分 压缩理论

离散信源

1 信源的数学模型及分类

离散信源

连续信源

2 离散信源的信息熵

各种信息量（消除的不确定性）

定义

信源符号的不确定度

自信息量

互信息量

各种信息熵（信源的平均不确定性）

定义

条件熵

联合熵

3 信源熵的基本性质

信源熵的物理意义

4 马尔可夫信源

定义

m阶马尔可夫信源

5 信源剩余度

熵的相对率

信源剩余度

波形信源

1 连续信源的熵

定义

意义

连续信源的联合熵和条件熵

联合熵

条件熵

两种特殊连续信源的差熵

均匀分布

高斯信源

2 连续信源熵的性质及最大差熵定理

性质

最大差熵定理

限峰值功率的最大熵定理

限平均功率的最大熵定理

无失真信源编码定理

等长码

等长信源编码定理

编码效率

变长码

Kraft不等式

唯一可译码的判断方法和步骤

变长信源编码定理（香农第一定理）

无失真的信源编码

香农编码

步骤

费诺编码

步骤

霍夫曼编码

步骤

游程编码

编码方法

限失真信源编码

失真度（失真函数）

定义

常用的失真函数

误码失真函数

均方失真函数

绝对失真

相对失真

平均失真度

定义

意义

信息率失真函数

定义

第一部分绪论

第二部分压缩理论

第三部分传输理论