没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
1页
Python英⽂⽂章词频统计( 英⽂⽂章词频统计(14份剑桥真题词频统计) 份剑桥真题词频统计) Python剑桥真题词频统计 最好还是要学以致⽤,⾃主搜集了19年最近的14份剑桥真题之后,通过Python提供的jieba第三⽅库,对所有的⽂章信息进⾏ 了词频统计,并选择性地剔除了部分简易词汇,⽐如数字,普通冠词等,博主较懒,未清楚⼲净。 Python代码如下: import jieba # 以只读⽅式打开text(即真题库) text = open('text.txt', 'r', encoding = 'utf-8').read() # len(text) #统⼀为⼩写 text = text.lower() # 需要剔除的词汇列表,也可以⽤记事本的形式,添加⼀个打开记事本的语句即可 # 即 stwlist = [line.strip() for line in open 'stopwords.txt',encoding='utf-8').readlines()] # 这⾥使⽤列表 stwlist = ['the','a','of','to','end','in','you','i
资源推荐
资源详情
资源评论
Python英⽂⽂章词频统计(英⽂⽂章词频统计(14份剑桥真题词频统计)份剑桥真题词频统计)
Python剑桥真题词频统计
最好还是要学以致⽤,⾃主搜集了19年最近的14份剑桥真题之后,通过Python提供的jieba第三⽅库,对所有的⽂章信息进⾏
了词频统计,并选择性地剔除了部分简易词汇,⽐如数字,普通冠词等,博主较懒,未清楚⼲净。
Python代码如下:
import jieba
# 以只读⽅式打开text(即真题库)
text = open('text.txt', 'r', encoding = 'utf-8').read()
# len(text)
#统⼀为⼩写
text = text.lower()
# 需要剔除的词汇列表,也可以⽤记事本的形式,添加⼀个打开记事本的语句即可
# 即 stwlist = [line.strip() for line in open 'stopwords.txt',encoding='utf-8').readlines()]
# 这⾥使⽤列表
stwlist = ['the','a','of','to','end','in','you','is','that','for','on','it','as','your','...','14',
'this','or','20','40','27','30','13','21','26','10','15','22',
'32','31','1','2','4','5','6','7','8','9','0','10','11','12','13',
'12','13','15','16','17','25','33','35','36','18','23','19','24',
'38','29','34','37','000','...............................']
# 先进⾏分词
words = jieba.cut(text, cut_all = False, HMM = True)
#cut_all:是否采⽤全模式
#HMM:是否采⽤HMM模型
word_ = {}
for word in words:
if (word.strip() not in stwlist):
if len(word) > 1:
if word != '\t':
if word != '':
# 计算词频
if word in word_:
word_[word] += 1
else:
word_[word] = 1
# 将结果保存为元组
word_freq = []
for word, freq in word_.items():
word_freq.append((word, freq))
# 降序排列
word_freq.sort(key = lambda x:x[1], reverse = True)
#输出前3500个词汇
for i in range(3500):
word, freq = word_freq[i]
print('{0:10}{1:5}'.format(word, freq))
以上就是本⽂的全部内容,希望对⼤家的学习有所帮助,也希望⼤家多多⽀持。
资源评论
是空空呀
- 粉丝: 168
- 资源: 3万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功