对于python里面的jieba库简单介绍_jieba.cut资源-CSDN文库

需积分: 3 139 浏览量 2022-11-25 15:55:22 上传评论收藏 17KB DOCX 举报

资源详情

资源评论

Jieba 库

一、jieba 库简介：

jieba 库是一款优秀的 Python 第三方中文分词库，jieba 支持三种分词模式：精确模式、全

模式和搜索引擎模式，下面是三种模式的特点。

精确模式：试图将语句最精确的切分，不存在冗余数据，适合做文本分析

全模式：将语句中所有可能是词的词语都切分出来，速度很快，但是存在冗余数据

搜索引擎模式：在精确模式的基础上，对长词再次进行切分提高召回率

二、

1 分词

可使用 jieba.cut 和 jieba.cut_for_search 方法进行分词，两者所返回的

结构都是一个可迭代的 generator，可使用 for 循环来获得分词后得到的每一个

词语（unicode），或者直接使用 jieba.lcut 以及 jieba.lcut_for_search 直

接返回 list。其中：

� jieba.cut 和 jieba.lcut 接受 3 个参数：

o 需要分词的字符串（unicode 或 UTF-8 字符串、GBK 字符串）

o cut_all 参数：是否使用全模式，默认值为 False

o HMM 参数：用来控制是否使用 HMM 模型，默认值为 True

� jieba.cut_for_search 和 jieba.lcut_for_search 接受 2 个参数：

o 需要分词的字符串（unicode 或 UTF-8 字符串、GBK 字符串）

o HMM 参数：用来控制是否使用 HMM 模型，默认值为 True

# 尽量不要使用 GBK 字符串，可能无法预料地错误解码成 UTF-8

1.1 全模式和精确模式

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余0页未读，立即下载

内容反馈

评论0

最新资源

张小鱼༒

粉丝: 6244
资源: 11

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip