清华大学电子与信息技术系列教材
应用信 息论基 础
朱雪龙 编著
清 华 大 学 出 版 社
( 京 ) 新登字 158 号
内 容 简 介
本书从基本概念、基本方法和基本应用三个 方面较 系统全 面地介 绍了信 息理 论。本书取材既重视基础理论 , 又面向 实际应 用 ; 既讲述 成熟的 原理 , 又适当 介绍 发展中的前沿课题。全书共分 9 章。第 1 章和第 2 章分别为概述和基本概念 , 第 3 章至第 6 章分别介绍信源的冗余度压缩编 码、熵 压缩编 码和信 道的容 量与信 道编 码。第 7 章讨论最大熵与最小鉴别信息原理及其应用。第 8 章讨论非统计 意义下 的信息理论 , 内容包括组合信息、算法信息与通用编码。最后在第 9 章中简要介绍 了通信网中的信源编码与信道容量问题。各章附有习题。
本书可作为高等学校与科研院所信息 类专业 研究生 教材或 教学参 考书使 用 , 也可供有关科技人员在学习专业基础理论时参考。
图书在版编目 (CIP) 数据
应用信息论基础/ 朱雪龙编著 . —北京 : 清华大学出版社 , 2000 清华大学电子与信息技术系列教材
ISBN 7-302-04154-7
Ⅰ. 应… Ⅱ. 朱… Ⅲ. 信息学-高等学校-教材 Ⅳ. G201
中国版本图书馆 CIP 数据核字 (2000) 第 78583 号
出版者 : 清华大学出版社 ( 北京清华大学学研大厦 , 邮编 100084) h tt p :/ / ww w .t up .t si ngh ua .e du .cn
印刷者 : 北京市清华园胶印厂 发行者 : 新华书店总店北京发行所
开 本 : 787×960 1/ 16 印张 : 22 字数 : 394 千字 版 次 : 2001 年 3 月第 1 版 2001 年 5 月第 2 次印刷 书 号 : ISBN 7-302-04154-7/ T N・116
印 数 : 3001~6000 定 价 : 26 .00 元
( 京 ) 新登字 158 号
内 容 简 介
本书从基本概念、基本方法和基本应用三个 方面较 系统全 面地介 绍了信 息理 论。本书取材既重视基础理论 , 又面向 实际应 用 ; 既讲述 成熟的 原理 , 又适当 介绍 发展中的前沿课题。全书共分 9 章。第 1 章和第 2 章分别为概述和基本概念 , 第 3 章至第 6 章分别介绍信源的冗余度压缩编 码、熵 压缩编 码和信 道的容 量与信 道编 码。第 7 章讨论最大熵与最小鉴别信息原理及其应用。第 8 章讨论非统计 意义下 的信息理论 , 内容包括组合信息、算法信息与通用编码。最后在第 9 章中简要介绍 了通信网中的信源编码与信道容量问题。各章附有习题。
本书可作为高等学校与科研院所信息 类专业 研究生 教材或 教学参 考书使 用 , 也可供有关科技人员在学习专业基础理论时参考。
图书在版编目 (CIP) 数据
应用信息论基础/ 朱雪龙编著 . —北京 : 清华大学出版社 , 2000 清华大学电子与信息技术系列教材
ISBN 7-302-04154-7
Ⅰ. 应… Ⅱ. 朱… Ⅲ. 信息学-高等学校-教材 Ⅳ. G201
中国版本图书馆 CIP 数据核字 (2000) 第 78583 号
出版者 : 清华大学出版社 ( 北京清华大学学研大厦 , 邮编 100084) h tt p :/ / ww w .t up .t si ngh ua .e du .cn
印刷者 : 北京国马印刷厂
发行者 : 新华书店总店北京发行所
开 本 : 787×960 1/ 16 印张 : 22 字数 : 394 千字 版 次 : 2001 年 3 月第 1 版 2001 年 3 月第 1 次印刷 书 号 : ISBN 7-302-04154-7/ T N・116
印 数 : 0001~3000 定 价 : 26 .00 元
前 言
自香农 ( C . E . Shannom) 提出信 息理 论以 来 , 在大 学中 开设 信 息理 论课 已 有近半个世纪的历史。尽管课程的中心 内容 都离 不开香 农提 出的基 本概 念、方 法和定理 , 但课程设置的对象、目的、课程内容的组织、取舍以至讲授的方式方法 都因校、因时、因人而异 , 存在众多显著的差别。
信息理论涉及两个学科是造成上 述差 别的 主要原 因。在 数学界 , 信 息理 论 被看成是概率论的分支 , 是遍历性 理论的 分支 , 一 个涉及 不变 变换 理论的 分支。
所以在数学系 , 这一课程是为统计数学专业的学生开设的。而在工学界 , 信息理 论被看成是通信理论的一部分 , 是通信的统计理论 , 是数字通信的基础理论。因 此在电气或电子工程系内它是为通信专业的学生开设的。了解同一名称的课程 在不同系开设时的差异不但是有益的 , 而且是必要的 , 这可使授课者或学习者都 能把他们的精力有效地放在他们关心的问题和关心的方向上。这一本书是从工 程应用的角度编写的 , 所以我们在信息论前加上应用两字 , 以明确本书的性质和 特点。
其次 , 正如汉明 ( R . W . H amming) 所说 , 从 逻辑 上讲是 编码 理论导 致信 息 理论 , 而信息理论又给出编码的性 能极限。 因此 信息 理论常 和编 码理论 放在 一 起讲授 , 甚至把课程称为信息与编 码理论。 但目 前这 样做时 其中 的编码 理论 往 往只指基于近世代数的信道编码构造理论。由于迄今在信源编码方面尚没有一 个统一的构造性理论 , 因此目前还难 于开设 一个 在内 容上组 织均 衡的本 来意 义 上的信息与编码理论。基于这一考虑 , 本书 对信 道编 码的构 造理 论仅作 简单 的 介绍 , 也不把编码理论四字纳入教材名称 , 以明确本书完全以信息理论为中心。
香农提出的信息理论是一种基于统计意义上的信息理论。这一理论对通信 技术的发展产生了持久和深刻的影响 , 但它对信息技术的其他一些方面 , 如人工 智能等 , 则很少有理论指导作用。所以自香农以来 , 人们对更广泛意义下的信息 的研究一直 没 有 停 止。 迄 今 为 止 , 较 为 成 熟 的 研 究 成 果 有 : E . T . Jaynes 在 1957 年提出的最大熵原 理的 理论 , S . K . K ullback 在 1959 年首 次 提出 后又 为 J . S . S hor e 等人在 1980 年后发 展了的 鉴别 信 息及 最小 鉴别 信息 原 理的 理论 , A . N . K olmogorov 在 1965 年 提出 的 关于 信 息量 度 定 义的 三 种方 法———概 率
法 , 组合法 , 计算法 , A . N . Kolmogorov 在 1968 年阐明并为 J . Chaitin 在 1987 年系统发展了的关于算法信息的理 论。这些 成果 大大丰 富了 信息 理论的 概念、
方法和应用范围。首先 , 它把信息的 统计定 义进 一步 推广并 对非 统计意 义的 信 息给出了一种量度。其次 , 信息 量度 的 意 义已 不 再限 于 信源 编 码和 信 道 编码。
信息的量度已系统地发展成为信息处理 的一 种准 则 , 这一准 则在 信息技 术领 域 正逐渐取代代表功率的最小均方误差准则。可以认为信息理论已从通信的数学 理论发展成为信号与信息处理的基础 理论。 基于 这一考 虑 , 本书 对上述 列举 的 研究成果也作了系统的介绍。
本书共分 9 章 , 第 1 章介绍信 息论和 信息 论方 法。通过 这一 章读者 可以 明 了在学习信息理论后什么是他们可以得到的 , 什么是不能得到的 , 以及为了他自 己的学习目的 , 他应该如何学习。第 2 章 介绍信 息论 的基 本概念 : 熵、互 信息 和 鉴别信息。这是学习本书的基础。第 3 章至第 6 章介绍香农的信源编码和信道 编码理论 , 同时对实用的信源编码方 法 ( 如矢 量量 化、线性预 测编 码、变换 编码 ) 和信道编码方法 ( 如线性码等 ) 作简单的介绍。主要目的是说明信息理论如何应 用于实际以及理论与实际之间存在什么差距。第 7 章介绍最大熵与最小鉴别信 息原理。这一章具体体现了熵与鉴别信息作为准则在信息处理中的作用。非统 计意义上的信息理论在 第 8 章 中介 绍。这 一 章同 时 给出 了 通 用编 码 方法 的 代 表——— Lempel-Ziv 编 码方 法及 其 性能 界。第 9 章介 绍网 络 中的 信源 编码 与 信 道容量问题。这些内容主要针对以电路 交换 为基 础的通 信网 , 但 不适用 于以 分 组交换为基础的通信网。在以分组交换为基础的通信网中信息传输的载体———
信号 , 除了在信号幅度上受到干扰外还在信号传输的延迟时间上受到干扰 , 这两 者都对信号携带的信息量起到限制作用。它们的分析方法与这一章介绍的方法 差异很大 , 限于篇幅 , 这部分内容在书中未作介绍。
作者希望通过这 9 章的内容能为读者提供有关信息理论的比较全面和比较 系统的知识。在全书各章的叙述中作者都尽可能地使基本概念和基本方法的描 述清晰易懂 , 为此省略了某些数学 细节。少 数不 涉及 基本概 念且 较深入 的内 容 在目录中用 * 号标出。全书除第 1 , 2 , 8 章外其余各章都有一些内容涉及信号处 理和通信技术 , 这对了解信息理论 的应用 是有 益的。 为此学 习本 书时除 了需 要 有概率论、随机过程的必要基础知识外 , 还需具有信号处理和通信技术方面的基 础知识。
我国已故院士常迥教授 , 信息科学界的前辈周炯 院士 , 吴佑寿院士以及知 名学者仇佩亮、章照止、钟义信、周 荫清、孟 庆生、王 新梅、贾世 楼、金振 玉、方军、
姜丹等都在信息理论方面有很好的著作或教材。国外学者如 T . M . Cover , T . Be rg er , R . E . Blah ut , R . G . Gallag er 等也都有很好的专著或教材。作者在编 写此书时得益于早期对他们著作的学习 , 在此顺表谢意。
作者感谢清华大学电子工程系对作 者的 信任 , 使 作者有 机会 多年担 任此 课 程的讲授。本书正是在这一基础上写成的。
作者还感谢艾红梅、邓北星及郁杨在整理出版本书中的帮助。
本书不当之处 , 敬请来函赐教。
朱雪 龙 2000 年 7 月
于清华大学电子工程系
目 录
第 1 章 信息论与信息论方法概述……… 1
1 .1 信息、信息科学和信息论……… 1
1 .2 信息论方法的应用及其取得的成果 ……… 3
1 .3 信息论的形成与发展 ……… 7
1 .3 .1 通信技术的理论基础……… 7
1 .3 .2 统计数学的一个分支 ……… 11
1 .3 .3 信号与信息处理的一般理论基础 ……… 12
第 2 章 信息论的基本概念 ……… 14
2 .1 离散熵……… 14
2 .1 .1 熵的定义 ……… 14
2 .1 .2 熵函数的性质 ……… 19
2 .1 .3 熵函数形式的唯一性 ……… 23
2 .1 .4 联合熵与条件熵 ……… 26
2 .2 离散互信息……… 29
2 .2 .1 互信息的定义 ……… 29
2 .2 .2 多个随机变量下的互信息 ……… 31
2 .2 .3 互信息函数的性质 ……… 35
2 .3 连续随机变量下的熵与互信息……… 38
2 .3 .1 连续随机变量下的微分熵 ……… 38
2 .3 .2 随机变量函数的微分熵 ……… 40
2 .3 .3 连续随机变量下的互信息 ……… 42
2 .4 鉴别信息 ……… 44
2 .4 .1 鉴别信息的定义 ……… 44
2 .4 .2 K ullback 与香农两种信息量度之间的关系……… 47
2 .4 .3 鉴别信息的性质 ……… 51
* 2 .4 .4 鉴别信息函数形式的唯一性 ……… 57
2 .5 对信息论基本概念的若干评注……… 70
习题 ……… 71
第 3 章 信源的熵率、冗余度与冗余度压缩编码……… 74
3 .1 信源、信源模型与信源编码 ……… 74
3 .1 .1 信源 ……… 74
3 .1 .2 信源模型 ……… 75
3 .1 .3 信源编码 ……… 77
3 .2 离散稳恒信源的熵率与冗余度……… 78
3 .3 离散无记忆信源的渐近等同分割性与信源的定长编码定理……… 82
3 .3 .1 渐近等同分割性 ……… 82
3 .3 .2 定长编码定理 ……… 84
3 .4 离散无记忆信源的变长编码……… 86
3 .4 .1 前缀码与 K raft 定理 ……… 87
3 .4 .2 唯一可译码定理 ……… 89
3 .5 变长编码的平均码长与最优编码……… 90
3 .5 .1 变长编码的平均码长 ……… 90
3 .5 .2 最优编码 ……… 92
3 .6 离散无记忆信源的变长树码……… 95
3 .6 .1 算术码 ……… 95
3 .6 .2 算术码的存在性 ……… 97
3 .7 离散马尔可夫信源的熵率 ……… 100
3 .7 .1 马尔可夫链的基本概念……… 100
3 .7 .2 离散马尔可夫信源熵率的计算……… 102
3 .8 离散马尔可夫信源的编码定理与最优编码 ……… 105
习题……… 108
第 4 章 信道、信道容量与信道的有效利用 ……… 110
4 .1 信道、信道模型与信道分类……… 110
4 .1 .1 信道……… 110
4 .1 .2 信道模型与信道分类……… 111
4 .2 离散无记忆信道及其信道容量 ……… 112
4 .3 离散无记忆信道容量的计算 ……… 116
4 .3 .1 信道容量解的充要条件……… 116
4 .3 .2 某些简单情况下信道容量的解……… 119
4 .3 .3 一般情况下信道容量的解……… 122
* 4 .3 .4 信道容量的迭代解法 ……… 124
4 .4 级联信道和并联信道的信道容量 ……… 125
4 .4 .1 级联信道……… 125
4 .4 .2 并联信道……… 128
4 .5 信道达到充分利用时输入输出字母概率分布的唯一性 ………… 131
4 .6 连续信道的信道容量 ……… 135
4 .6 .1 无记忆加性噪声信道的信道容量费用函数……… 136
4 .6 .2 无记忆加性高斯噪声信道的信道容量费用函数………… 137
4 .6 .3 一般无记忆加性噪声信道的信道容量费用函数的界…… 141
4 .6 .4 无记忆加性高斯噪声信道的级联和并联……… 142
4 .7 模拟信道的信道容量 ……… 145
4 .7 .1 模拟随机信号的正交展开……… 145
4 .7 .2 模拟信道下的信道容量费用函数及其计算……… 148
4 .8 限带加性白色高斯噪声信道的极限性能及其与传输要求的 匹配 ……… 156
4 .8 .1 限带加性白色高斯噪声信道的性能及其极限……… 157
4 .8 .2 信道与信息传输要求的匹配……… 160
4 .9 限带模拟信道的数字化 ……… 163
* 4 .10 蜂窝移动通信条件下信道的有效利用 ……… 165
4 .10 .1 蜂窝移动通信与系统的频谱利用效率 ……… 165
4 .10 .2 不同接入方法下蜂窝移动通信系统的频谱利用 效率及其比较 ……… 167
习题……… 171
第 5 章 信道编码……… 173
5 .1 信道编码概述 ……… 173
5 .2 信道译码准则 ……… 176
5 .3 联合典型序列与联合渐近等同分割定理 ……… 179
5 .4 信道编码定理 ……… 181
5 .5 信道编译码方法的最初范例———汉明码 ……… 183
5 .6 分组码之一 : 线性码……… 185
5 .6 .1 线性码的定义、编码与生成矩件 ……… 185
5 .6 .2 线性码的伴随式与伴随式译码……… 187
* 5 .7 分组码之二 : 循环码……… 190
5 .7 .1 循环码的定义……… 191
5 .7 .2 循环码的编码与生成多项式……… 191
5 .7 .3 循环码的伴随式与译码原理……… 193
5 .8 树码、网格码与卷积码……… 195
5 .9 关于信道编码理论的若干评注 ……… 199
习题……… 200
第 6 章 信源的信息速率失真函数与熵压缩编码……… 203
6 .1 熵压缩编码和信源的信息速率失真函数 ……… 204
6 .1 .1 熵压缩编码……… 204
6 .1 .2 离散无记忆信源的熵压缩分组编码及信源的信息 速率失真函数……… 204
6 .2 信息速率失真函数的性质 ……… 206
6 .3 离散无记忆信源下的信息速率失真函数的计算 ……… 211
6 .3 .1 信息速率失真函数解的充要条件及参数方程 ………… 211
* 6 .3 .2 求解信息速率失真函数的迭代算法 ……… 217
6 .3 .3 信息速率失真函数解的唯一性问题 ……… 220
6 .3 .4 乘积信源的信息速率失真函数 ……… 222
6 .4 连续无记忆信源的信息速率失真函数 ……… 224
6 .4 .1 连续无记忆信源信息速率失真函数的定义及其解 的充要条件……… 224
6 .4 .2 差值失真量度下连续无记忆信源信息速率失真 函数的计算……… 226
6 .5 标量量化 ……… 233
6 .5 .1 均匀量化……… 235
6 .5 .2 Lloyd-Max 算法……… 235
6 .6 有记忆连续信源与模拟信源的信息速率失真函数 ……… 236
6 .6 .1 有记忆连续信源的信息速率失真函数的定义……… 236
6 .6 .2 模拟信源的信息速率失真函数的定义……… 237
6 .6 .3 高斯有记忆连续信源的信息速率失真函数……… 237
6 .6 .4 高斯模拟信源的信息速率失真函数……… 240
6 .7 变换编码———实用的熵压缩分组编码 ……… 242
6 .8 预测编码———实用的熵压缩树码 ……… 248
6 .8 .1 最小均方误差预测器……… 249
6 .8 .2 最小平均绝对误差预测器……… 249
6 .8 .3 最大零误差概率预测器……… 249
习题……… 251
第 7 章 最大熵原理与最小鉴别信息原理……… 254
7 .1 非适定问题与最大熵和最小鉴别信息原理 ……… 254
7 .1 .1 非适定问题的提出……… 254
7 .1 .2 最大熵原理与最小鉴别信息原理……… 255
7 .2 最大熵原理的合理性 ……… 258
* 7 .3 最小鉴别信息原理与最大熵原理的公理化推导 ……… 261
7 .3 .1 最小鉴别信息原理的推导……… 261
7 .3 .2 最大熵原理的推导……… 269
7 .4 最小失真意义下的最大熵原理与最小鉴别信息原理 ……… 269
7 .4 .1 方向正交与投影失真……… 270
7 .4 .2 投影失真的一般形式……… 272
7 .4 .3 最小失真准则与熵准则……… 274
7 .5 最大熵与最小鉴别信息原理的应用及其解的分布 ……… 276
7 .5 .1 最大熵与最小鉴别信息原理的应用……… 276
7 .5 .2 最大熵分布与最小鉴别信息分布……… 281
习题……… 282
第 8 章 组合信息、算法信息与通用编码 ……… 284
8 .1 信源统计特性不确定时的信源编码问题 ……… 284
8 .1 .1 统计特性失配时统计编码的性能……… 285
8 .1 .2 自适应统计编码……… 285
8 .2 基于组合的信息量度与通用编码 ……… 287
8 .2 .1 基于组合的信息量度……… 287
8 .2 .2 通用编码……… 288
8 .2 .3 Fitingof 通用编码的性能 ……… 289
8 .3 算法信息量 ……… 292
8 .3 .1 单一事件或数值下的信息量度问题……… 292
8 .3 .2 K olmogorov 算法熵 ……… 293
8 .4 二元字符序列的算法熵 ……… 294
8 .5 算法熵的不可计算性 ……… 296
8 .6 有限状态压缩编码器 ……… 298
8 .7 Lew pel-Ziv 编码 ……… 302
8 .8 LZ 编码压缩比与香农熵……… 305
习题……… 306
第 9 章 通信网中的信源编码与信道容量……… 309
9 .1 概述 ……… 309
9 .2 反馈信道 ……… 314
9 .3 多个随机变量下的联合典型序列 ……… 316
9 .4 多源接入信道 ……… 320
9 .4 .1 多源接入信道的容量……… 320
9 .4 .2 相关信源输入下的多源接入信道……… 324
9 .5 高斯多源接入信道 ……… 324
9 .5 .1 高斯多源接入信道的容量域……… 324
9 .5 .2 对高斯多源接入信道容量域的讨论……… 326
9 .5 .3 多源接入信道容量域与多址方法的关系……… 327
9 .6 分布信源编码 ……… 329
习题……… 333
参考文献……… 335
索引……… 336
第 1 章 信息论与信息论方法概述
顾名思义 , 信息论是 关于 信 息的 理 论 , 应 有自 己 明确 的 研 究对 象 和适 用 范 围。但从信息论诞生的那时起人们就对它有不同的理解。随着信息和信息科学 对现代社会生活各方面影响的不断加大 和深 化 , 人们 对信息 论的 意义的 认识 和 价值的估计也不断变化。在这一章中 , 我们 将简 要地 从工程 技术 或技术 科学 的 角度讨论一下什么是信息 , 什么是信 息科 学和信 息论 , 并 对信 息论形 成、发展 的 过程及其已取得的应用成果作简要的回顾。我们的目的主要是通过历史发展的 实际过程来说明信息论的研究对象、方法和适用的范围。
1 .1 信息、 信息科学和信息论
什么是信息 ? 信息一词在我国由 来已 久。据 辞海记 载 , 我国 南唐诗 人李 中 有诗云“梦断美人沉 信息 , 目穿 长路 依楼 台”, 可见 信 息泛 指 音讯 和 消息。 在 近 代 , 信息一词又被用作英语中 information 的译 名 , i nformation 在 英语中 来自 词 根 inform( 通知 ) , 乃指被告知的事实或知识。information 在牛津英 文字典里 给 出的解释是“某人被通知或告知的 内容、情 报、消息”。在 这样 的解释 中 , 信息 一 词显然不是作为科学名词或技术术语来 定义 的 , 因此 无法对 信息 一词作 更深 入 的推敲。实际上在不同的字典中对信息 一词 还有 不同的 解释 , 更 不用说 工作 在 不同领域的人们对信息有不同的理解了。
尽管信息一词的含义模糊和难于 捉摸 , 但 人人 都感觉 到它 的存在。 每时 每 刻我们都在通过对周围世界的观察去获 取它 , 并 且通 过一定 的方 法把它 传送 给 别人、进行交换或把它存储起来留 作以后 使用。 这种 目前尚 难明 确定义 的信 息 我们暂时可以把它称 为广 义理 解的 信息。 对 这种 广 义的 信 息 自然 是 值得 研 究 的 , 实际上语言学家已经对其作了 认真的 研究 , 如 Zellig H arris 的著 作《语言 和 信息的理论》就是这方面的代表。但 迄今为 止尚 未有 得到普 遍接 受的有 关广 义 信息的定义。
信息作为技术术语广泛使用是在计算机特别是微处理器得到广泛应用以后 的事。在计算机发展的早期 , 计算机 处理 的对象 仍沿 用过 去的名 词 , 如数 据、记
录、报表、文字等等。但随着计算机的不 断发 展 , 无论 在计算 机学 术界或 工业 界 都产生一种明显的倾向 , 即希望有一 个名称 能把 所有 这些处 理对 象统统 包含 在 内。信息这一名称恰好符合这一要求 , 因为 只有 这样 一个含 糊的 术语才 能对 多 种多样且在不断涌现的对象得到一个统一的、全面的、不需时时改变的表达。作 为一个技术术语的信息其意义当然要比 前面 广义 信息的 含义 具体得 多 , 但仍 然 是比较笼统和含混不清的。
信息作为一个可以用严格的数学公式定义的科学名词首先出现在统计数学 中 , 随后又出现在通信技术中。无论 是在统 计数 学中 还是在 通信 技术中 定义 的 信息都是一种统计意义上的信息 , 我们可 以把 它简 称为统 计信 息。统计 信息 是 非常明确的 , 同时其适用范围要比 广义信 息狭 隘得 多。我们 在本 书中讨 论的 信 息论正是关于这种统计信息的理论。
统计信息是一个抽象的然而明确的 概念 , 它 与作 为技术 术语 用的信 息仍 有 很大的区别。后者比较笼统 , 没有 确切定 义但 却比 较具体。 有一 种意见 认为 作 为技术术语用的信息实际上是指一切符号、记号、信号等表达信息所用的形式或 载体 , 这种意见实际上把信息的形 式或载 体和 它的 具体内 容区 分开来。 计算 机 所能处理的 ( 特别是通信所能传送的 ) 都是信息的载体或表达形式。计算机可把 信息的一种形式转换成另一种形式 , 如把英语文本翻译成法语文本 , 把数据库中 的数据整理成所需形式的报表 , 或把 气象数 据进 行处 理后给 出某 一地区 的气 温 等 , 而通信则把信息的具体载体或 形式从 甲地 传送 到乙地。 这种 看法虽 然未 得 到广泛的承认 , 但基本上反映了目前的实际情况。
上述讨论归纳起来可以说 : 广义信息是把信息的形式、内容等全都包含在内 的最广泛意义上的信息。作为技术术语 的信 息主 要指信 息的 具体表 达形 式 , 虽 然信息的形式总是与信息的内容有一定的联系 , 且不可能存在没有内容的形式 , 但作为技术术语的信息的确不考虑信息的内容。而统计信息则是一种有明确定 义的科学名词 , 它与内容无关 , 而且不随 信息具 体表 达形式 的变 化 ( 如把 文字 翻 译成二进制码 ) 而变化 , 因而也独立于形式。它反映了信息表达形式中统计方面 的性质 , 是一个统计学上的抽象概念。
现在我们转过来讨论信息科学和信 息理 论 , 但为 此我们 必须 先谈谈 信息 技 术。什么是信息技术 ? 对此我们又无法给予明确的回答。但在实际中我们知道 它是泛指计算机所涉及的各种各样的技术。有意思的是这一名词的笼统和不明 确反倒成为一个优点 , 使它能对计算 机涉及 的种 类繁 多且在 不断 发展的 技术 得 到一个统一的、全面的、高层次的表述。信息技术的出现当然使人们联想到信息
科学 , 因为所谓技术乃是对科学原 理加以 应用 的具 体实践。 我们 知道能 源技 术 和材料技术都是有相应的科学原理作为 基础 的 , 但信 息技术 迄今 为止还 没有 上 述意义的信息科学作为基础 , 或者确 切地说 系统 的信 息科学 迄今 还没有 完全 成 熟。信息科学作为一个名词来看 , 最早出现在图书馆学中 , 主要研究图书文献的 检索。在计算机出现以后 , 信息科学被赋予新的含义 , 但在不同国家中它的含义 不尽相同。在日本信息科学的含义和美 国的 计算 机科学 的含 义相似 , 主 要研 究 科学计算的理论和方法。而在美国信息科学原先主要指科学计算以外 , 如商业、
服务业、管理统计部门等所需要的涉 及大量 数据 但计 算比较 简单 的数据 处理 问 题。20 世纪 80 年代以来 , 信息科学的含义不断 扩大 , 不但 逐渐把计 算机科学 的 内容统一包含在内 , 而且有把信息技 术涉及 的所 有科 学理论 统统 包含在 内的 趋 势。20 世纪 80 年代初美国信息科学学会就曾多次 举行学 术讨论会 研究这种 意 义上的信息科学 , 即作为信息技术理论基础的信息科学。因此 , 尽管人们还在不 同意义上使用信息科学这一名词 , 但从发展和长远的观点来看 , 把信息科学理解 成能与信息技术相对应的基础科学可能是合适的。在这样的理解下信息科学与 信息理论的关系又如何呢 ? 在美国信息科学学会所组织的一次学术讨论会上这 一问题成为讨论的中心问题之一。有一部分人的意见认为统计信息理论不能解 决诸如人工智能中如何进行启发式搜索 和学 习等 问题 , 因此 在未 来的信 息科 学 中没有信息理论的位 置。但 多数 人的 意见 认 为信 息 理论 尽 管 有其 局 限性 和 不 足 , 但仍然是未来信息科学所不可 缺少的 一块 基石。 近年来 信息 论的发 展和 信 息论方法的逐渐广泛应用表明后一种看 法是 比较 全面和 客观 的看法 , 我 们有 理 由相信今后的发展还会证明这一点。
1 .2 信息论方法的应用及其取得的成果
信息论从它诞生的那时起就吸引了 众多 领域 学者的 注意 , 他 们竞相 应用 信 息论的概念和方法去理解和解决本领域中的问题。 50 年过去了 , 这 期间虽有 失 败的教训但也不乏成功的例子 , 下面我们就列举若干成功的范例。
(1 ) 语音信号压缩
语音信号一直是通信网中传输的 主要 对象。 自从通 信网 数字化 以来 , 压 缩 语音信号的编码速率就成为通信中的 一个 重要 问题。根 据信 息理论 的分 析 , 语 音信号所需的编码速率可以远远低于仅按 Nyquist 采样定理和量化 噪声分析 所 决定的编码速率。几十年来的工作已在 这方 面取 得巨大 的进 展 : 长途电 话网 标
准的语音编码速率已从 1972 年 CCIT T G .711 标准中的 64 k bit/ s 降低 到 1992 年 CCI T T 标准中的 16 k bit/ s。在移动通信中 1988 年欧洲 GSM 标准中的语音 编码速率为 13 .2 kbit/ s, 而 1989 年 美 国 CTIA 标 准 中的 速 率 为 7 .95 kbit/ s。
对语音质量要求 较 低 的军 用 通 信 , 美 国 NSA 标 准 的 速 率 在 1975 年 时 已 达 到 2 .4 kbit/ s。目前 , 在实验室中已实现 600 bit/ s 的低速率语音编码 , 特别是按 音 素识别与合成原理构造的声码器其速率可 低于 100 bit/ s, 已接近 信息论 指出 的 极限。
(2 ) 图像信号压缩
图像信号的信息量特别巨大 , 这 对图像 信号 的传 输及存 储都 带来极 大的 不 便。经过多年的研究 , 到 20 世纪 80 年代时图像压缩逐步进入建立标准的阶段。
1989 年 CCI T T 提 出 电 视 电 话/ 会 议 电 视 的 压 缩 标 准 H .261 , 其 压 缩 比 达 到 25 ∶1到 48∶1 左右。1991 年 CCI T T 与 ISO 联合提出的“多灰度静止图像压缩 编码”标准 JPEG , 其压缩比为 24∶1。对常规电视信号的压缩在 1991 年提出 的 国际标准 M PE G-1 中其平均压缩比可达 50∶1。这些巨大的进展为图像信号进 入通信领域以及多媒体计算机的发展 创造 了条 件。此外 , 随 着全 数字高 清晰 度 电视技术的发展 , 相应 的 压 缩 编 码 研 究 也 已 取 得 进 展 , 这 就 是 1993 年 提 出 的 M PE G-2。
(3 ) 计算机文件的压缩
由于数据库的广泛应用 , 存储 计算机 文件 所需 的存储 量问 题日益 突出。 在 过去的二十多年 中 对 计 算 机文 件 的 压 缩 已发 展 了 至 少 二十 余 种 不 同 的 算 法。
1988 年澳大利亚举行的压 缩算 法对 抗 赛对 各种 算法 进行 了 一次 大检 阅。竞 赛 所用的文件内容多种多样 , 如各种 高级语 言的 源程序、目 标码、论 文、小说、科 学 数据、图书目录等等。压缩工作全 在当时 比较 典型 的微机 上进 行。测试 结果 表 明 , 其中较好的算法都能使各种文件压缩后所需 的存储量 只为原 文件的 25 % 到 50 % , 其平均 值约 为 30 % 左右。压 缩所 需的时 间和 存储器 开销 都不 大。目前 , 各种压缩算法已在计算机中得到广泛的应用。
(4 ) 模拟话路中数据传输速率的提高
20 世纪 50 年代初计算机 开始 在美 国联 网 , 当 时模 拟话 路是 传 输计 算机 数 据的几乎唯一 可 用的 信 道。 最早 的 调 解 器 其速 率 只 有 300 bit/ s , 而 信 息 论 指 出 , 标称带宽为 4 k H z, 信 噪比 为 25 dB 的 话路 信 道 的极 限 速率 应 在 25 kbit/ s 左右。所以在以后的三十多年中就开始 了提 高速 率的长 期的、现 在看来 是极 其 成功的工作。1967 年速率为 4 800 bit/ s, 1971 年 为 9 600 bit/ s, 1980 年 开始 进
入 14 .4 kbit/ s, 1985 年时利用多维网 格编码 调制 的调 解器Codex2680使 速率 达 到 19 .2 k bit/ s, 非常接近于理论极限。信息论在模 拟话路数 据传输中 获得的 巨 大成功 , 其意义远远超出模拟话路 本身。实 际上 由于 模拟话 路中 所用的 调解 器 可用 V LSI 电路实现 , 价格低廉 , 因而实际上成了信息论 方法的试 验场。各种 在 话路调解器中获得成功的调制方法都很快被推广应用到载波的高次群信道及数 字微波、数字卫星信道中 , 他们都同样获得了成功。
(5 ) 降低信息传输所需的功率
在远距离无线通信 , 特别是深空 通信中 如何 降低 信息传 输所 需的功 率至 关 重要 , 因为在这种情况下发送设备的 功率和 天线 的尺 寸都已 成为 设备生 产和 使 用中的一个困难问题。幸运的是正是在这个领域信息论获得了它第一批令人信 服的成果。从 20 世纪 60 年代后期起 , NASA 发 射的 所有深 空探 测器无 一例 外 地在其通信设备中采取了信道编码措施 , 因为根据信息理论的分析 , 采用低码率 的信道编码可以降低传送单位比特所需 的能 量 Eb与噪 声功 率谱 密度 N0 之比。
现在利用不太复杂的信 道编 码就 可以 使 同样 误码 率下 所需 的 Eb/ N0 比 不采 用 信道编码时低 6 dB 左右。其中 一些 好 的方 案 ( 如 用 RS 码作 为外 码、卷 积码 作 为内码的方案 ) 可以使误码率在 10- 5 的情况 下所 需的 Eb/ N0降 到 0 .2 dB, 比 不 用信道编码时所需的 10 .5 dB 降低了近 10 dB。
(6 ) 计算机网中数据传输可靠性的保证
随着计算机技术的发展 , 计算机设备的布局变得愈来愈分散 , 各种终端及外 围设备离主机也越来越远 , 这就产生了计算机网。近年来 , 计算机网还与分布式 计算机系统相联系而变得更为重要。在用各种电缆联接而成的计算机网中电噪 声和各种外界的电磁干扰是不能不考 虑的 , 因 为它 使传输 的信 息发生 差错。 一 般情况下局域网中的差错率在 10- 8左右 , 广域网中的差错率 在 10- 3 ~10- 5 。 这 样高的差错率在实际应用中是无法接受的。
目前普遍采用的解决办法是带自动重发请求的差错检测码。差错检测的方 法从最简单的奇偶检验到比较复杂的循 环冗 余检 验都被 采用 , 但 较大的 网一 般 都用循环冗余检验。这 种方 法已 被 各种 网 络 通信 协 议采 用 并成 为 标准。 例 如 ISO 制定的高级数据链路协议 H DLC 就采用 CCI T T V .41 的 CRC 码进行循 环 冗余检验。 H DLC 在全世 界已 被广 泛采 用 , 这 一标 准 有 很广 的 应用 领 域 , 许 多 协议都是从它派生出来的。
(7 ) 计算机中的容错问题
计算机的存储器是计算机的重要组成部分。随着计算机技术的发展无论是
内存或外存其存取速度以及存储密度等 都在 不断 提高 , 如何 保证 存取的 正确 性 已成为越来越突出的问题。特别是在外存中 , 由于存储量大 , 而且存储体的表面 难免有缺损 , 要保证绝对不发生差错已不可能 , 现在广泛采取的解决办法是增加 适当的检错纠错装置。例如 IBM4300 , Cray-1 等大型 机的内 存都有较 简单的 检 错纠错措施。而在外存中 , 根 据 不同 的情 况 和要 求 从较 简 单的 Fir e 码到 BCH 码以及 RS 码 等 都 被 广 泛 使 用 , 例 如 在 IBM360 的 光 盘 存 储 器 中 就 采 用 了 RS 码。
(8 ) 图像信号的复原与重建
图像的复原与重建是图像信号处理 的一 个重 要内容 , 在 实用 中有很 大的 价 值。20 世纪 80 年代以来 , 最大熵方法在图像 复原与重 建中取 得了很大 的成功。
在退化图像复原中 , 图像退化的原因 是多 种多样 的 , 如由 于景 物的运 动、光学 系 统的不理想、噪声等等。图像重构的 形式 也很多 , 如计算 机层 析图像、合 成孔 径 射电望远镜图像、结晶学研究中用的光学干涉仪或无线电干涉仪的图像、核磁共 振波谱仪图像等。在这些应用中最大熵方法较其他方法优越的主要原因是其合 理性 , 即所得结果是我们可以而且 能够期 望的 最好 结果。同 时也 有一些 派生 的 好处 , 如在盲解卷时同时给出卷积函数 , 在重建图像中可以同时对仪器中的某些 参数进行校正等等。
虽然最大熵法在这些应用中目前还 不能 给出 性能的 解析 表达式 , 但 算法 已 比较成熟 , 如常用的剑桥算法等。
(9 ) 模式分类问题与树分类器的设计
模式分类是一个在很多学科中都 遇到 的问 题 , 具有相 当普 遍的意 义。按 照 这一概念相同类别的模式在空间中有较 短的 距离 , 但 什么是 距离 一直是 一个 令 人困惑的问题。从统计分类以及统计信息的观点来看 , 熵、鉴别信息 ( 交叉熵 ) 与 互信息是各种不同情况下可以选用的比较合理的距 离量度。 20 世纪 80 年代 以 来 , 这一观点在模式分类中得到广 泛承认 并有 重要 的应用。 例如 利用互 信息 作 准则的 自顶 向下法 设计 树分类 器等 效于 设计香 农-Fano 前缀 码 , 在语音 识别 中 广泛使用的 It akur a-Saito 距离实际上就是 鉴别 信息的 一种 具体 形式等。 此外 , 信息论方法在汉字识别的具体应用中也取得了很好的结果。
(10) 其他应用成果
信息论方法的应用领域相当广泛 , 有 时甚 至出 乎我们 的预 料。我们 知道 在 语言学、生物学、医学方面早已有大量论 文甚 至专 著讨论 信息 论方法 的应 用 , 最 近在研究人工神经网络作为联想存储器的存储容量以及分析动力系统吸引子的
分形性质时也都利用了信息论的方法。最后我们还可以提一下在经济学方面的 应用成果 , 这就是美国经济学家 K . J . A rrow 所开创的“ 信息经济学”, 他因在这 方面的研究成果而获 得诺 贝尔 经济 学奖。 至 于其 他 种种 应 用 我们 就 不一 一 列 举了。
当信息论方法用于具体学科时 , 信息无疑会有其特殊的具体内容 , 并且会有 某种概念上的发展 , 但信 息的基 本统 计学 性质却 是一 样的。 例如 K . J . A rrow 在《信息经济学》的中译本序言中是这样说的 :“ 大多数经济决策都是在具有相当 的不确定性的条件下作出的 , 一旦不确定性的存在在形式上可以分析 , 信息的经 济作用就变得十分重要了。人们可以花费人力及财力来改变经济领域所面临的 不确定性 , 这种改变恰好就是信 息的获 得。…… 所以 把信息 作为 一种经 济物 品 来加以分析 , 既是可能的 , 也是非常重要 的。”这 些话 , 只要 我们 把其 中的“经 济”
两字改成“通信”就和通信工程师说的话几乎没有什么不同。
所以 , 我们相信信息论方法有相当普遍的意义和价值 , 它在各种有关学科中 的应用还会不断发展。
1 .3 信息论的形成与发展
了解信息论的形成过程对于我们进一步了解信息论有很大的好处。从历史 上看信息论的形成是两部分人共同努力的结果 , 一部分是通信工程方面的学者 , 另一部分是统计数学家。这两部分人虽 然研 究的 是同一 领域 的问题 , 但 他们 感 兴趣的方面和侧重点 是有 差异 的。这 种情 况 从信 息 论产 生 时 起一 直 保持 到 现 在 , 今天从事信息论研究工作的人 仍然由 这两 部分 人组成。 根据 这一实 际情 况 我们在下面分三个方面来介绍信息论的形成与发展。
1 .3 .1 通信技 术的理论 基础
信息论的形成与发展最主要是以通信技术基础理论的形式逐步形成和发展 起来的。这一点有它内在的原因 : 一方面如我们在 1 .1 节中所述 , 广义信息的含 义极其复杂 , 而通信本身只涉及信息 的表现 形式 或者 说只对 信息 的表现 形式 感 兴趣 , 而这是广义信息最简单最基 础的方 面。因 此我 们可以 认为 正是从 这最 简 单的方面得到突破 , 形成了信息论。另一方面 , 当通信技术得到广泛发展和应用 以致形成通信网以后 , 人们自然要问 : 既 然交 通解 决物质 的运 输 , 电网解 决能 量
( 电力 ) 的传输 , 那么通信传送的究 竟是什 么 ? 而 信息 论正是 对这 一问题 的全 面 和系统的回答。
但是不要以为人们只要想到“ 通信传 送的 究竟是 什么 ?”就会 自然地 导致 信 息论的诞生。因为通信关心的是信息的 表现 形式 , 这 种形式 在通 信的传 输过 程 中可能经过多次的变换 , 只要通信设 备还能 够把 发送 端输入 的形 式足够 精确 地 在接收端输出处再现 , 人们是不会进一步追根究底的。只有当人们无法实现“ 准 确再现”时 , 理论上的追根究底也才有 了动 力 , 并导 致信息 论的 诞生。下 面我 们 就来看一看电信技术发展的过程及信息论的形成。
电信技术发展的历史可以上溯到 19 世 纪 30 年代。1832 年 J . H enry 发 明 电报和 1838 年 F . B . Morse 发明电码使信息获得了 电气的 表现形式。 1876 年 Bell 发明电话 使 人 类 语 言第 一 次 获 得 电信 号 的 形 式。 1895 —1896 年 Ma rconi 和 Popov 的工作使电报和电 话可 以通 过电 波 加以 传送。 1904 年 Fleming 发 明 的二极管和 1906 年 deForest 发明的三极管放 大器使 电报电话 的有线和 无线 长 距离传输成为可能。可以认为电信技术 在 19 世 纪时 所面临 的主 要问题 是如 何 获得信息的电气表现形式以及如何将它们进行远距离传输。
进入 20 世纪后电信技术获得快速发展 , 如何提高信道利用率的问题开始提 上日程。1917 年 G . A . Campbell 申 请了第 一个 关 于滤 波器 的专 利 , 为 频分 复 用信道提供了条件。1922 年 J . R . Car son 分析了振幅调制信号 , 开始明确上下 边带的概念。1924 年 H . Nyquist 开始分析电报信号传输 中脉冲速 率与信道 带 宽的关系。这一结果稍后又在 1928 年的论文中得到发展 , 建立了限带信号的采 样定理。20 世纪 20 年代电信号理论的最后一个重要发展是 R . V . L . H ar tley 取得的 , 他在 1928 年发表的论文“信息的传输”中第一次从通信的观点出发对信 息量作了定义。 H ar tley 的工作是在 Nyquist 已取得的结果上进行的 , 他的新 贡 献是引入了接收机在估计接收脉冲幅度时只有有限精确度的概念。按照这一概 念 , 接收机只能分辨有限数目的脉 冲幅度。 假设 这一数 目是 M, 则 N 个 脉冲 所 可能组成的不同序列的总数是 MN , H a rtley 就把信息量 H 定义为 H = Nlog M。
这样 , 通过信道传输的信息量就与 信道带 宽和 传输 总时间 的积 成正比。 从上 面 这些进展可以看出 , 在 20 世纪 30 年 代以前 通信 的主 要目标 还集 中在如 何使 发 送信号无失真地送到接收端 , 所用 的分析 方法 还是 分析确 定性 信号的 方法。 所 以虽然 H ar tley 定义了信息量 , 但这还不是一个统计的 概念 , 因此其 意义还是 相 当有限的。
20 世纪 30 年代 , 由于通 信技 术水 平的 提 高以 及随 后第 二次 世 界大 战的 爆
发 , 使通信中的噪声和 抗干扰 问题 逐渐突 出。1930 年 维纳 ( N . Wiener ) 开始 把 F ourier 分析方法全面引入到随机信号的研究中来 , 1936 年 V . D . Landon 发 表 他第一篇有关噪声的 论文。与 此 同时 抗干 扰的 通信 方 法先 后出 现 , 1936 年 E . H . A rms trong 提 出 频 率 调 制 , 1939 年 H . Dudley 发 明 声 码 器 , 1939 年 H . Reeve 提出了具有强抗干扰能 力的 脉冲 编码 调 制。对 噪声 的研 究到 1945 年 时 由 S . O . Rice 作了全面的总结。 所以 20 世 纪 40 年代 中通 信的 理 论已 经全 面 走上统计分析的道路 , 抗干扰已经 取代抗 失真 成为 通信研 究中 的中心 问题。 在 这样的背景下香农和维纳几乎同时提出了信息的统计定义。关于这一概念的产 生过程 , 维纳在其 1948 年发表的《控制 论》中 是这样 说的 ,“这 样一来 , 我 们就 把 通信工程变成为一门统计科学 , 变 成为统 计力 学的 一个分 支。在 通信工 程的 场 合 , 统计因素的意义是 直接 明了 的 , 信 息的 传 递除 非 作为 二 中 择一 的 事件 的 传 递 , 否则是不可能的。……为了概括通信工程的这个局面 , 我们必须发展一个关 于信息量的统计理论。在这个理论中单位信息量就是对具有相等概率的二中择 一事件作选择时所传递出去的信息。这个思想差不多在同一个时候由好几位科 学家提 出来 , 其 中有 统 计学 家 R . A . Fisher , Bell 电话 研究 所的 香 农和 作者 自 己。Fisher 研究这题目的动机来 自古典 统计 理论 , 香农 的动 机来 自信息 编码 问 题 , 作者本人的动机则来自电气滤波 中的 噪声与 消息 问题 ……信 息量的 概念 非 常自然地从属于统计力学中的一个古典概念———熵。正如一个系统中的信息量 是它的组织化程度 的 度 量”。 香 农 本人 没 有 正 面 阐述 这 一 想 法 的来 源 , 但 W . Weave r 在其 1949 年与香农合写的著作中曾这样介绍过 :“香农的工作植根于 玻 耳兹曼 ( Boltzman) 1894 年 在统 计 物理 方面 的工 作。玻 耳兹 曼已 经 把熵 看作 是
‘失去的信息’, 这一想法后来在 1925 年经 L . Szilard、1932 年经 V . Neuman 先 后进一步发展。…… 香 农 的 工 作 与 R . V . L . H ar tley 的 工 作 也 有 直 接 的 联 系。”不过应该指出的是香农在其 1948 年发表的信息论奠基性论文“ 通信的数学 理论”一文中只定义了熵和互信息 , 而没有单独定义一个信息量。关于这一差别 香农在 1971 年回答 M . Tribus 的问题时是这 样说的 :“ 我最 关心 的问题 是给 它 取个什么名称好 ? 我曾经想把它称为‘信息’, 但这一名称有点过份 , 所以我决定 叫它‘不确 定性’。当 我 把 这一 想 法 和 V . Neuman 讨 论 时 , 他 提 了 个 好 主 意。
他说 , 你应该称它为熵。理由有两条 : 第 一 , 你的 不确 定性函 数在 统计力 学中 已 经被称为熵 , 所以它 早已 有名 称了。 第 二 , 更 重要 的 是没 有 人 知道 熵 到底 是 什 么 , 这样在有争论时你就永远立于不败之地。”上述我们提到的两个文献 , 即香农 的“通信的数学理论”和维纳的《控制 论》后来 被公 认为信 息论 的经典 著作 , 但 后
者讨论的范围更广 , 它更主要的是控制论的经典著作。
在 1948 年 以后 的十 余 年中 , 香 农 对信 息论 的发 展作 出 了巨 大的 贡献。 在 1973 年出版的信息论经典论文集中 , 香农是 49 篇 ( 总 数 ) 论文中 12 篇论文的 作 者。迄今为止 , 信息论的主要概念 除通用 编码 外几 乎都是 香农 首先提 出的。 除 一系列基本的概念外香农的贡献还在于 证明 了一 系列编 码定 理 , 这些定 理不 但 给出了某些性能的理论极限 , 而且实 际上也 是对 香农 所给基 本概 念的重 大价 值 的证明。由于香农的这一系列贡献 , 香农被认为是信息论的创始人。
值得指出的是 , 香农在给出一系 列编码 定理 时所 用的证 明方 法是非 常独 特 的 , 他使用了他自己创造的随机编 码的方 法。这 一方 法的优 点是 能够给 出极 限 性能的数学表达式 , 但 缺点 是 对如 何构 造 一个 好 的编 码 不能 给 出具 体 的 指导。
所以从 20 世纪 50 年代起 , 通信技术 界就把 主要 的精 力转向 信源 编码和 信道 编 码的具体构造方法上。四十多年来 , 这方面取得了稳步的进展。首先 , 在无失真 信源编码方面 , 香 农 本人 提 出 的 香农 编 码 方 法 已经 成 为 历 史。1952 年 D . A . H uffma n 提出的 H uffma n 编 码 方法 , 1963 年 P . Elias 提 出 的算 术 编 码 方 法 , 1965 年 A . N . Kol mogorov 提出的 通 用编 码方 法等 现在 都 已 有重 大 的改 进 而 先后实用化。例如 Huffman 编码用于传真图像的压缩标准 , 算术编 码用于二 值 图像的压缩标准 JBIG, 通用编 码用于 计算 机文 件的压 缩等。 其次 , 在有 失真 信 源编码方面 , 量化这一最古老的方法 经过发 展现 在已 经成为 语音 和图像 压缩 的 最重要的手段。例如北美移动通信标准 IS-54 中语 音压缩 的标准算 法就是矢 量 量化算法。1969 年由 T . S . Huang 首先提出的 分组 变换与 量化 方法经 过发 展 现在已在电视图像压缩 的 各种 标准 如 H .261 , JP EG , M PEG 中得 到 应用 , 1955 年 P . Elias 提出的预测编码经过发展现在已成为美国军用通信中语音压缩的标 准算法。第三 , 在面向数字信道的信道编码方面 , 20 世纪 40 年代末由 M . J . E . Golay 和汉明最早提出的分组 编码 技术 已经 发展 成 为系 统的 编码 理论 , 成为 代 数学的一个分支。分组 码 中 的不 少 码 , 如 汉明 码、Golay 码、Fire 码、BCH 码 等 都在通信、计算机技术中获得广泛 应用。分 组编 码理 论中关 于能 否构造 出渐 近 好码使其极限性能满足香农编码定理的问题已由 J . Justeseu 在 1972 年的工 作 得到初步解决。1954 年由 P . Elias 首 先提 出 的卷 积码 虽然 在理 论 上未 能获 得 系统的发展 , 但依靠计算机搜索找到 的部分 好码 已在 陆地移 动通 信以及 卫星 通 信和深空通信中获得重要 的应用。 1993 年提 出的 Turbo 码在 性能 上已 非常 接 近理论极限。最后 , 在面向模拟信道 的信道 编码方 面 , 1974 年 J . L . Massey 最 早提出将编码与调制统 一考虑 的概 念。1982 年 这一 想法 在 G . Unger boeck 等
人的研究下终于得到突破 , 这就是 网格编 码调 制。网 格编码 调制 实用中 发生 的 相位含糊问题在 1984 年被 L . F . Wei 所解决 , 这 一方法随 即被 CCIT T 所采 纳 成为一种标准。现在 , 网格编码调制正在向卫星通信、磁记录等领域扩展其应用 范围。
信息论在近半个世纪的历程中所取得的上述这些进展说明信息论作为通信 技术基础理论的意义已经有了重大的发展。从最初形成时提供性能极限和进行 概念方法性指导发展到今天具体指导通 信系 统的 结构组 织和 部件的 设计 , 这 种 趋势势必还会进行下去 , 而信息论也将在与通信理论、通信系统设计的理论日益 融合的过程中得到进一步的发展。
1 .3 .2 统计数 学的一个 分支
从历 史 上看 信 息作 为 一个 科 学名 词 最 早出 现 在统 计 数学 中。 1925 年 , 即 R . V . L . H a rtley 发表信息量定义的前 3 年 , 统计数学家 R . A . Fish er 就从古 典统计理论的角度定义了一种信息量 , 这种信息 量现在一 般被称 为 Fisher 信 息 量。Fisher 信息量在估计问题中迄今仍有重要的价值。
香农的论文“通信的数学理论”发表以 后 , 一方面 由于 文中 出现的“ 信息”一 词引起各相关应用领域的兴趣 , 同时 由于文 中所 涉及 的数学 问题 而引起 统计 数 学家的兴趣。如前所述 , 信息作为 一个科 学名 词对 统计数 学家 并不陌 生。对 数 学家来说 , 香农工作的意义在于把熵、互 信息 和遍 历性理 论联 系起来 , 用 随机 编 码这一独创的方法证明了一系列编码定理 , 这些定理同时又说明了熵、互信息这 两个概念的重要性。但香农最初的工作 集中 在无 记忆信 源和 无记忆 信道 , 虽 然 他也讨论了马尔可夫信源 , 但这与 一般的 稳恒 信源 还有相 当距 离。所以 数学 家 们如 A . J . Kh inchine、A . Fei nstein、J . Wolfowitz 纷 纷把 香农 的 基本 概念 和 编码定理推广到更一般的信源模型、更一般的编码结构和性能量度 , 并给出严格 的证明。在发展信息论的概 念方 面 , 苏联数 学家 A . N . Kolmogorov 有 突出 贡 献。1956 年他提出信息量的一般定义 , 1958 年他指出熵相等是动力系统同构的 必要条件 , 这一工作开辟了遍历理论的一个新方向 , 即动力系统的熵及其在同构 中的应用。1968 年他又提出定义信息量的三种 途径 , 首次 提出序列 复杂度的 概 念并把它和香农熵相互联系起来 , 这一工作后来得到 G . J . Chaitin 的发展并 在 1987 年 建 立了 算 法 信息 理 论。在 数学 家 中我 们 要 提到 S . K . K ullback , 他 在 1959 年系统地论述了鉴别信息 ( 现 在又 被称 为相 对熵、交叉 熵等 ) 的概 念、定 义
及其和 Fise r 信息量、香 农熵 的关 系。由 于香 农 熵的 概念 在连 续随 机 变量 下 失 去意义 , 因此鉴别信息在这种情况下具有特别重要的价值。
以上这些进展不仅对数学本身而 且对 信息 技术也 有重 大的影 响。例 如 , 动 力系统同构问题的研究使人们对信源编码有了更深刻的认识并获得了一些新的 结果和编码方法 ; 序列复杂度的概念已导致通用编码 , 这对非遍历信源来讲是非 常重要的 ; 鉴别信息的概念为估计问 题、识别 问题 带来了 理想 的数学 工具 , 在 信 号处理中获得了重要的应用。
除以上这些已获重要结果的进展外 , 统计数学家对熵的定义作了很多推广 , 其中较重要的是 A . N . Kolmogorov 在 1958 年引入的 ε熵。ε熵不但解决了 连 续随机变量下香农熵 定义 推广 时 的困 难 , 而 且 导致 率 失 真理 论 的建 立。 此外 , A . Renyi 在 1961 年时认为香农熵 只是 在编 码问 题 中才 是唯 一可 取的 形 式 , 在 其他情况下其他信息 度 量同 样可 用甚 至更 好。Renyi 具体 提出 所谓 α阶 熵 , 香 农熵可看成是 α阶熵的一种极限 形式因而被包括 在α阶 熵的概念之内。自 Re-
nyi 以后 J . Ha vrd a 在 1967 年提出 β次 熵 , S . A rimot o 在 1971 年 提出 γ熵 , S . G uiasu 在 1968 、1977 年提 出加 权熵 , B .D .Sh arm a 和 D .P .Mittal 于 1975 年 提 出 α阶β次熵 , C . Ferr eri 于 1980 年引 入次熵 等等。 这些熵 在统 计模式 识别 及 模糊集理论中有某些应用 , 但其重要性均远不如香农熵。
香农在 1961 年最早提出的多用 户信息 论在 20 世纪 70 年代 由于卫 星通 信 的发展而引起广泛的讨论 , 特别是 引起了 数学 家们 的兴趣。 这一 研究一 时形 成 高潮并在数学上取得了很多成果 , 但 这些结 果在 工程 问题中 尚未 得到成 功的 应 用。相反 , 利用分组交换的多用户 通信却 取得 了成 功的应 用。对 于这样 一些 目 前尚未获得重要应用的研究进展我们就不再赘述了。
1 .3 .3 信号与 信息处理 的一般理论 基础
如前所述 , 信息论的基本概念最 初是从 古典 的统 计理论 与通 信工程 中提 出 的。但自从信息论产生以后它的一些基本概念与方法就在一般的信号与信息处 理中获得应用 , 并在应用过程中逐步丰富和发展了信息论的内容。今天 , 这方面 的内容虽然还没有形成 非常 系 统的 理论 或 理论 分 支 , 但 取得 的 成果 是 明 显的。
1925 年 Fi she r 提出的信息量不但在估计理论中占有地位 , 而且迄今还在各种 信 号处理中获得应用。1949 年香 农把 他在“ 通信 的 数学 理论”一文 中 发展 起来 的 概念用于保密系统 , 发表了“ 保密系统 的通信 理论”。 这一论 文提 出了完 全保 密
性等重要概念 , 从而奠定了密码学 的理论 基础。 1957 年 E . T . Jaynes 发表“ 信 息论与统计力学”, 该文提出的最大熵原 理不 但对 统计力 学有 重要意 义 , 而且 在 随后的几十年中对信号 处理 产 生了 很大 影 响 , 成 为信 号 处理 的 一个 重 要 方法。
最大熵谱估计是这一原理获得成功应用 的一 个突 出例子 , 它 标志 着熵作 为一 种 标准开始取代其他标准在信号处理中发挥作用。20 世纪 60 年代人 们又开始 在 模式识别与分类中应用信息论 , 其中较突出的代表 是 S . Wa tanabe , 他最早用 熵 去解释模式分类过程。1969 年他发表《认识与猜测》一 书 , 较系统地 总结了他 的 研究成果。到 20 世纪 80 年代时分类器特别是树分类器的设计以及模式识别器 的设计已相当普遍地采用了 信息 论的 方法 , 并获 得满 意的 结果。20 世 纪 80 年 代的另一个重要发展是鉴别信息或交 叉熵这 一概 念所受 到的 广泛 重视和 研究。
在这一方面 , J . E . S hor e 和 R . W . John son 的工 作最有代 表性 , 他们发 展和 完 善了最早由 Kullback 提出的概念 , 并 将其成 功 地应 用于 信号 处理 的 各个 方面。
今天 , 随着信号与信息处理的深入 , 人们已经越来越深刻地认识到信号与信息处 理的中心问题是信息。在非线性非高斯 信号 处理 问题、在信 号分 类识别 问题 和 信号重建复原等问题中 信息 论 的方 法应 该取 代诸 如 最小 二 乘 误差 等 准则 和 方 法 , 信息论应该成为信号与信息处理的一个理论基础。
第 2 章 信息论的基本概念
1925 年 , R . A . Fis her 给出了“ 信息”的定义。它是从 古典统计 理论的角 度 定义的一种信息量 , 又称 Fis her 信息量。 Fisher 信息 量在估 计理 论中具 有重 要 价值 , 并且 在 各 种 信 号 处 理 中 获 得 了 应 用。 其 后 , 信 息 论 的 创 始 人 香 农 在 其 1948 年发表的信息论奠基性 论文“通 信的 数学 理 论”中 提出 了两 个 重要 的概 念 熵 ( en tropy ) 和互信息 ( mu t ual information) 。利用这两个概念 , 香农对通信系统 进行理论分析 , 取得 了通 信技 术史 上 划时 代的 重要 成 果。1959 年 , S .K . Kull-
b ac k 提出了另一个重要概念———鉴别信息 ( discrimi nation information) , 他认为 这一概念 可以 统一 Fisher 在 1925 年定 义的 信息以 及后 来由香 农定 义的 信息。
由于香农熵在连续随机变量下失去了意 义 , 因此 鉴别 信息在 此情 况下具 有特 别 重要的价值。此后的几十年中对信息的 研究 有了 很多进 展 , 但迄 今为止 在实 际 问题中得到最广泛应用的仍然是上述三个概念。
在这一章中 , 我们将利用概率论 中已经 发展 起来 的一整 套描 述随机 事件 的 理论和方法 , 对离散和连续情况下的 熵、互信 息、鉴别 信息这 三个 基本概 念及 其 主要性质进行介绍和讨论。
2 .1 离 散 熵
熵的概念在离散随机变量的情况下 可以 得到 最清楚 的表 述 , 而且不 会遇 到 数学上的困难 , 所以我们先从离散随机变量开始引入熵的概念。
2 .1 .1 熵的定 义
2 .1 .1 .1 熵的引入
设有一个离散随机变量 X, 它有 N 个 可能取 值 , 分别 为 a1 , a2 , … , aN , 各 种 取值出现的概率分别为 p1 = P ( a1 ) , p2 = P ( a2 ) , … , pN = P( aN ) 且
∑
N
n = 1
pn = 1
对这种简单的离散型随机变量 , 我们一般用下述分布列或密度矩阵来加以描述 : X
P( x) = a1 a2 … aN p1 p2 … pN
信息论所关心的是这一随机变量的不确 定性 , 即 我们 在对这 一随 机变量 进行 观 察、测量、记录 ( 在概率论中称为“ 试验”) 时 , 其 结果 的不确 定性。 因为正 是这 种 不确定性 , 才驱使我们对随机变量进行观察、记录 , 并从中获取信息。显然 , 随机 变量的不确定程度越高 , 我们从试验中可能获取的信息也就越多。
直观地看来 , 随机变量的不确定程度并不都 是一样的。 例如 , 3 个随机变 量 X , Y , Z 的密度矩阵分别为
X
P ( x ) = a1 a2 0 .01 0 .99 Y
P ( y) = b1 b2 0 .4 0 .6 Z
P ( z) = c1 c2 0 .5 0 .5
在这 3 个随机变量 X , Y , Z 中 , 不确定性程度由小到大的排列顺序是 X , Y , Z, 因 为等概分布时 , 随机变量的不确定性程度最大。
又如 , 两个随机变量 X , Y 的密度矩阵分别为 X
P ( x) = a1 a2 a3 a4 a5 0 .2 0 .2 0 .2 0 .2 0 .2 Y
P( y) = b1 b2 0 .5 0 .5 在这两个随机变量中 , X 的不确定程度比 Y 更高。
那么 , 能否严格给出这种不确 定性的 量度 呢 ? 又 该如何 严格 给出这 种不 确 定性的度量呢 ?
香农指出 , 存在 这样 的不 确定性 的量 度 , 它是 概率分 布 p1 , p2 , … , pN 的 函 数 f ( p1 , p2 , … , pN ) , 且该函数满足以下 3 个先验条件 :
(1 ) 连续性条件 : f ( p1 , p2 , … , pN ) 应是 pn( n = 1 , 2 , … , N ) 的连续函数 ; (2 ) 等概时为单调增函数 : f 1
N, 1
N, … , 1
N = g( N) 应是 N 的增函数 ; (3 ) 可加性条件 : 当随机变量 的取 值不 是通过 一次 试验 而是 若 干次 试验 才 最后得到时 , 随机变量在各次试验中的不确定程度应该可加 , 且其和始终与通过
一次试验取得结果的不确定程度相同 , 即
f ( p1 , p2 , … , pN ) = f ( ( p1 + p2 + … + pK ) , pK+ 1 , … , pN ) + ( p1 + p2 + … + pK ) f ( p1′, p2′,… , pK′) 其中
p′=k pk
( p1 + p2 + … + pK ), k = 1 , 2 , … , K
香农的研究证明 , 当函数 f ( p1 , p2 , … , pN ) 满 足上述 3 个 条件 时 , 其 形式 唯 一 , 如下所示 :
f ( p1 , p2 , … , pN) = - C
∑
N
n = 1
pnlog pn
其中 C= 常数 > 0。 香农把这 一函数 称为熵 , 它是 随机变量 不确定 性的量度 ( 关 于熵中对数的 底 , 在 介 绍 熵的 单 位 时 再 说 明 , 这 里 暂 时 省 略 ) , 并 记 作 H ( p1 ,
p2 , … , pN ) 或 H ( p) , 即
H ( p1 , p2 , … , pN ) = -
∑
N
n = 1
pnlog pn ( 2 .1) 当 有 多 个 随 机 变 量 时 , 为 区 别 不 同 随 机 变 量 的 熵 , 可 将 熵 写 成 H ( X ) , H ( Y ) , 以分别表示 X 或 Y 的熵 , 但是 , 这并不表示 X 或 Y 是熵 H 的宗量。
2 .1 .1 .2 香农熵与热力学中热熵的关系
熵这一名称并不是香 农 首先 提 出的。 最 先提 出 熵这 一 名 称的 是 物理 学 家 R . Cla usius , 他提出的熵现在称其为热熵 , 它是热力学系统的一个状态函数 , 即
S =
∫
d QT其中 Q 是热量 , T 是绝对温度。以 后不 久 , 玻 耳兹 曼给 出了 热熵 S 与热 力学 概 率 Ω 的关系
S ∝ ln Ω
其中 Ω是指一个物理系统所处宏观状态所对应的微观状态数。 1900 年 , 普朗 克 引进玻耳兹曼常数 k 后 , 得到玻耳兹曼关系式
S = kln Ω
热熵是物 理系统无 序性的 量度。Ω越 大 , 表明物理 系统可 能的微观 状态数也 就 越多 , 从微观上看 , 系统就越变化多端 , 越没有秩序。
香农在研究随机变量不确定性量度时所 得的式 ( 2 .1 ) 在 数学 模型层 次上 与 热熵完全相同 , 所以香农根据 V . Neumann 的意 见 , 也 把它称 作熵 , 现在 一般 称
其为信息熵或香农熵。
若把系统分子的相空间作为系统宏 观状 态的 状态空 间 , 则按 分子在 相空 间 中的分布而求得的香农熵 H 与其热熵 S 有如下的关系 :
S = kH
因此 , 可以认为热熵是香农熵的一个特例 , 它仅仅是分子在相空间所处位置的不 确定性的量度。
然而 , 热熵是有量纲的 , 而香农熵是无量纲的 , 这是两者的重大差别。
2 .1 .1 .3 熵可以作为信息的量度
对于随机变量而言 , 其取值是不确定的。在做随机试验之前 , 我们只了解各 取值的概率分布 , 而做完随机试验后 , 我 们就 确切 地知道 了取 值 , 不确定 性完 全 消失。这样 , 通过随机试验我们获得了信息 , 且该信息的数量恰好等于随机变量 的熵。在这个意义上 , 我们可以把熵作为信息的量度。
例 2 .1 掷一枚色子 , 各个点数出现的概率相等 , 用随机变量 X 表示为 X
P( x ) = 1 2 3 4 5 6
1/ 6 1/ 6 1/ 6 1/ 6 1/ 6 1/ 6 则该随机变量 X 的熵为
H ( X ) = -
∑
6
n = 1
pn log pn = log6
当掷出色子 , 得知点数为 2 时 , 该随 机变 量的 不确定 性完 全消除 , 此 时概 率 分布为
X′
P ( x′) = 1 2 3 4 5 6 0 1 0 0 0 0 则随机变量 X 在做完试验后 , 其熵变为
H ( X′) = 0 在此过程中 , 试验者获得的信息量为
H ( X ) - H ( X′) = log6
例 2 .2 同时掷两枚色子 , 设各个点数出现的概率相等 , 用随机变量 Y 表 示 两个色子面朝上的点数之和时 , 有
Y P ( y ) =
2 3 4 5 6 7 8 9 10 11 12
1 36
2 36
3 36
4 36
5 36
6 36
5 36
4 36
3 36
2 36
1 36