Python剑桥真题词频统计
最好还是要学以致用,自主搜集了19年最近的14份剑桥真题之后,通过Python提供的jieba第三方库,对所有的文章信息进行了词频统计,并选择性地剔除了部分简易词汇,比如数字,普通冠词等,博主较懒,未清楚干净。
Python代码如下:
import jieba
# 以只读方式打开text(即真题库)
text = open('text.txt', 'r', encoding = 'utf-8').read()
# len(text)
#统一为小写
text = text.lower()
# 需要剔除的词汇列表,也可以用记事本的形式,添加一个打开记事本的语句即