【免费】PYTHON自然语言处理（中文版）笔记1_()函数用于获取语料库中的文件资源-CSDN文库

自然语言处理

需积分: 0 6 浏览量 2022-08-03 21:36:49 上传评论收藏 1015KB PDF 举报

资源推荐

资源详情

资源评论

PYTHON自然语言处理（中文版）
一、语言处理与Python
1、NLTK入门
2、自然语言处理
二、获得文本语料和词汇资料
1、单语料库使用
书籍
网络文本
即时聊天会话语料库
布朗语料库
路透社语料库
就职演说语料库
标注文本语料库：https://www.nltk.org/howto/
词汇列表语料库
其他语言语料库
2、使用自己的预料库
3、生成随机文本
4、条件概率
5、词典语料
6、WordNet
三、加工原料文本
1、从网络和硬盘访问文本
2、编码
3、正则表达式
4、词干提取器（中文不需要）
5、词形归并/词形还原（中文不需要）
6、分词
四、编写结构化程序
五、分类和标注词汇
默认标注器
正则表达式标注器
查询标注器
N-gram标注器
组合标注器
存储标注器
基于转换的标注 - Brill标注
确定词性
六、学习分类文本
性别鉴定
词性分析
序列分类
句子分割
七-十、文法
使用文法
交互式文法编辑器
依存文法
特征结构
十一、语言数据管理
TIMIT
XML
Toolbox
OLAC元数据

标注文本语料库：https://www.nltk.org/howto/

词汇列表语料库

其他语言语料库

2、使用自己的预料库

from nltk.corpus import inaugural # 就职演说预料库

inaugural.fileids()[:10]

[fileid[:4] for fileid in inaugural.fileids()][:10] # 获取时间

# 绘制不同词在随时间演讲时的变换

cfd = nltk.ConditionalFreqDist(

 (target, fileid[:4]) for fileid in inaugural.fileids()

             for w in inaugural.words(fileid)

               for target in ['america', 'citizen']

                 if w.lower().startswith(target))

cfd.plot()

1

2

3

4

5

6

7

8

9

10

11

12

# 过滤高频词汇

def unusual_words(text):

 text_vocab = set(w.lower() for w in text if w.isalpha()) # 不重复英文单词

 english_vocab = set(w.lower() for w in nltk.corpus.words.words()) # 所有

不重复单词

 # 返回text_vocab不同于english_vocab的词

 unusual = text_vocab.difference(english_vocab) 

 return sorted(unusual)

unusual_words(nltk.corpus.gutenberg.words('austen-sense.txt'))[:10]

1

2

3

4

5

6

7

8

9

from nltk.corpus import stopwords # 停用词

stopwords.words('english')[:10]

1

2

from nltk.corpus import udhr # 引入世界人权宣言语料

udhr.fileids()[:20] # 检索语言

# 绘制不同语言在《世界人权宣言》的字长差异

languages = ['Chickasaw', 'English', 'German_Deutsch']

cfd = nltk.ConditionalFreqDist(

 (lang, len(word)) for lang in languages

           for word in udhr.words(lang + '-Latin1'))

cfd.conditions() # 查看条件,对于每个cfd['xxx']都是一个频率分布

cfd.plot(cumulative=True)

1

2

3

4

5

6

7

8

9

10

11

from nltk.corpus import PlaintextCorpusReader

corpus_root = '.' # 设置路径

wordlists = PlaintextCorpusReader(corpus_root, ".*") # 查询

wordlists.fileids() # 查看文件夹内容

wordlists.words('my_text.txt') # 使用

1

2

3

4

5

6

剩余24页未读，继续阅读

内容反馈

甜甜不加糖

粉丝: 27
资源: 323

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip