信息熵计算实验 实验报告
2013011427 刘智峰 计 31
一、 实验目的
由于本次是自选实验,主题是信息熵的计算,所以我给自己设定了一
个实验目标:网上都能搜到汉字和 26 个英文字母的使用频率,根据这些
信息,可以计算出汉字和 26 个字母的信息熵。在此基础上,分别实现对
一部长篇中文小说和一部长篇英文小说的单词统计,并计算信息熵,将结
果与网上得到的数据计算出的结果进行对比分析,看看是否符合网上所陈
述的数据的分布。
二、 实验过程
本次实验使用的熵公式为:
选取的中文样本为:三体 1-3 部合集,保存在 santi.txt 中;选取的
英文样本为:哈利波特 1-4 部英文合集,保存在 HarryPotter.txt 中。
使用 python 编写代码,实验环境为 pycharm 4.5.4. 代码思路为:
维护并统计所有非重复的汉字或单词的个数信息,同时统计所有单词或汉
字的总和,然后计算各个汉字、字母的频率,计算信息熵。由于汉字博大
精深,在进行中文信息熵计算时,只取了概率高的 50 个汉字。
中文前 50 个字的概率统计结果,位于 countChinese.txt 中,最终
的信息熵由程序 calChinese 输出。
评论0