自然语言处理：用paddle对人民日报语料进行分词，停用词，数据清洗和熵计算_eprime数据分析资源-CSDN文库

169 浏览量 2020-12-22 13:31:59 上传评论 1 收藏 167KB PDF 举报

资源详情

资源评论

资源推荐

自然语言处理：用自然语言处理：用paddle对人民日报语料进行分词，停用词，对人民日报语料进行分词，停用词，

数据清洗和熵计算数据清洗和熵计算

自然语言处理：用自然语言处理：用paddle对人民日报语料进行分词，停用词，数据清洗和熵计算对人民日报语料进行分词，停用词，数据清洗和熵计算

数据集提取：

公众号：YOLO的学习进阶日常然后回复：nlp1

安装本地飞桨安装本地飞桨

本人 win10 python3.7 用的CPU

安装方式：

pip install paddlepaddle -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install –upgrade paddlepaddle -i https://pypi.tuna.tsinghua.edu.cn/simple

安装成功如下：

import paddle.fluid

paddle.fluid.install_check.run_check()

Running Verify Fluid Program ...

Your Paddle Fluid works well on SINGLE GPU or CPU.

Your Paddle Fluid works well on MUTIPLE GPU or CPU.

Your Paddle Fluid is installed successfully! Let's start deep Learning with Paddle Fluid now

使用使用jieba分词分词

“结巴”中文分词：做最好的 Python 中文分词组件

参考网站：https://github.com/fxsjy/jieba

支持四种分词模式：

精确模式，试图将句子最精确地切开，适合文本分析；

全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；

搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

paddle模式，利用PaddlePaddle深度学习框架，训练序列标注（双向GRU）网络模型实现分词

支持繁体分词

支持自定义词典

MIT 授权协议

安装方式：pip3 install jieba

算法

基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)

采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

对于未登录词，采用了基于汉字成词能力的 HMM 模型，使用了 Viterbi 算法

参数

jieba.cut 方法接受四个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用

HMM 模型；

jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引

的分词

jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词

语(unicode)，或者用jieba.lcut 以及 jieba.lcut_for_search 直接返回 list

jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器，可用于同时使用不同词典。jieba.dt 为默认分词器，所有全

局分词相关函数都是该分词器的映射。

import jieba

jieba.enable_paddle()

strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"] for str in strs:

seg_list = jieba.cut(str,use_paddle=True) # 使用paddle模式

print("Paddle Mode: " + '/'.join(list(seg_list)))

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)

print("Full Mode: " + "/ ".join(seg_list)) # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)

print("Default Mode: " + "/ ".join(seg_list)) # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式

print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造") # 搜索引擎模式

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余3页未读，立即下载

评论0

内容反馈

weixin_38733382

粉丝: 3
资源: 880

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip