没有合适的资源?快使用搜索试试~ 我知道了~
自然语言处理:用paddle对人民日报语料进行分词,停用词,数据清洗和熵计算
19 下载量 169 浏览量
2020-12-22
13:31:59
上传
评论 1
收藏 167KB PDF 举报
温馨提示
试读
4页
自然语言处理:用paddle对人民日报语料进行分词,停用词,数据清洗和熵计算 数据集提取: 公众号:YOLO的学习进阶日常 然后回复:nlp1 安装本地飞桨 本人 win10 python3.7 用的CPU 安装方式: pip install paddlepaddle -i https://pypi.tuna.tsinghua.edu.cn/simple pip install –upgrade paddlepaddle -i https://pypi.tuna.tsinghua.edu.cn/simple 安装成功如下: import paddle.fluid paddle.fluid.
资源详情
资源评论
资源推荐
自然语言处理:用自然语言处理:用paddle对人民日报语料进行分词,停用词,对人民日报语料进行分词,停用词,
数据清洗和熵计算数据清洗和熵计算
自然语言处理:用自然语言处理:用paddle对人民日报语料进行分词,停用词,数据清洗和熵计算对人民日报语料进行分词,停用词,数据清洗和熵计算
数据集提取:
公众号:YOLO的学习进阶日常 然后回复:nlp1
安装本地飞桨安装本地飞桨
本人 win10 python3.7 用的CPU
安装方式:
pip install paddlepaddle -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install –upgrade paddlepaddle -i https://pypi.tuna.tsinghua.edu.cn/simple
安装成功如下:
import paddle.fluid
paddle.fluid.install_check.run_check()
Running Verify Fluid Program ...
Your Paddle Fluid works well on SINGLE GPU or CPU.
Your Paddle Fluid works well on MUTIPLE GPU or CPU.
Your Paddle Fluid is installed successfully! Let's start deep Learning with Paddle Fluid now
使用使用jieba分词分词
“结巴”中文分词:做最好的 Python 中文分词组件
参考网站:https://github.com/fxsjy/jieba
支持四种分词模式:
精确模式,试图将句子最精确地切开,适合文本分析;
全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
paddle模式,利用PaddlePaddle深度学习框架,训练序列标注(双向GRU)网络模型实现分词
支持繁体分词
支持自定义词典
MIT 授权协议
安装方式:pip3 install jieba
算法
基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法
参数
jieba.cut 方法接受四个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用
HMM 模型;
jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引
的分词
jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词
语(unicode),或者用jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器,可用于同时使用不同词典。jieba.dt 为默认分词器,所有全
局分词相关函数都是该分词器的映射。
import jieba
jieba.enable_paddle()
strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"] for str in strs:
seg_list = jieba.cut(str,use_paddle=True) # 使用paddle模式
print("Paddle Mode: " + '/'.join(list(seg_list)))
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") # 搜索引擎模式
weixin_38733382
- 粉丝: 3
- 资源: 880
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0