Jieba 库
一、jieba 库简介:
jieba 库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式、全
模式和搜索引擎模式,下面是三种模式的特点。
精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析
全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据
搜索引擎模式:在精确模式的基础上,对长词再次进行切分提高召回率
二、
1 分词
可使用 jieba.cut 和 jieba.cut_for_search 方法进行分词,两者所返回的
结构都是一个可迭代的 generator,可使用 for 循环来获得分词后得到的每一个
词语(unicode),或者直接使用 jieba.lcut 以及 jieba.lcut_for_search 直
接返回 list。其中:
� jieba.cut 和 jieba.lcut 接受 3 个参数:
o 需要分词的字符串(unicode 或 UTF-8 字符串、GBK 字符串)
o cut_all 参数:是否使用全模式,默认值为 False
o HMM 参数:用来控制是否使用 HMM 模型,默认值为 True
� jieba.cut_for_search 和 jieba.lcut_for_search 接受 2 个参数:
o 需要分词的字符串(unicode 或 UTF-8 字符串、GBK 字符串)
o HMM 参数:用来控制是否使用 HMM 模型,默认值为 True
# 尽量不要使用 GBK 字符串,可能无法预料地错误解码成 UTF-8
1.1 全模式和精确模式
评论0
最新资源