深度学习与自然语言处理第一次作业
SY2106318 孙旭东
1.作业内容
阅读文章 《Entropy_of_English_PeterBrown》, 参考此文章来计算中文(分别以词和字为单位)的平均信息熵。
2.相关知识
2.1信息熵
信息熵的概念最早由香农(1916-2001)于1948年借鉴热力学中的“热熵”的概念提出,旨在表示信息的不确定性。熵
值越大,则信息的不确定程度越大。其数学公式可以表示为:
论文中假设 是基于有限字母表的平稳随机过程, 为 的概率分布, 为
的数学期望,则 的信息熵定义为
当对数底数为2时,信息熵的单位为bit,相关理论说明 可以表示为
如果 是遍历的,则 。我们无法精确获取 的概率分布,即无法获取精确的 ,但可以通过足够长的随机样
本来估计 ,通过建立 的随机平稳过程模型 来估算 的上界,与上述推理过程相同,我们可以得到以下公
式:
有较大的参考价值,因为其是 的一个上界,即 ,更加准确的模型能够产生更加精
确的上界。从文本压缩的角度来理解信息熵,对于 的任意编码方式, 为编码所需的比
特数,均有
由上述分析知, 是对从P中提取的长字符串进行编码所需的每个符号的平均位数的下限,每个符号编码时需要
的位数越多,即熵越高,说明混乱程度越高,单个字符携带的信息量越大。
2.2统计语言模型(N-Gram)
统计语言模型是基于预先人为收集的大规模语料数据,以真实的人类语言为标准,预测文本序列在语料库中可能出现
的概率,并以此概率去判断文本是否“合法”,是否能被人所理解。
给定一个句子(词语序列): ,它的概率可以表示为:
评论0