LTP分词器python版本

共1个文件

py：1个

1.该资源内容由用户上传，如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款（资源遇到问题，请及时私信上传者）

版权申诉

中文分词器

0 下载量 12 浏览量 2023-03-07 16:00:48 上传评论收藏 943B RAR 举报

温馨提示

LTP分词器python版本，用于全文检索引擎中分词器部分，对于全文检索来说，建立索引时指定的分词器决定了后续检索和匹配的准确度具体用法可以参考文章 https://blog.csdn.net/yilvyangguang520/article/details/129383702

资源推荐

资源详情

资源评论

收起资源包目录

analyzer.rar （1个子文件）

analyzer.py 2KB

共 1 条

# 以下是一个使用LTP中文分词器替换Whoosh默认分词器的Python脚本： # pythonCopy code import os import jieba from whoosh.analysis import Tokenizer, Token from whoosh.compat import u from whoosh import fields, index from whoosh.qparser import QueryParser from ltp import LTP import torch from settings import * # LTP添加自定义词典 f=open(LTP_user_dict_path,"r",encoding="utf-8") user_dicts=f.readlines() user_dicts=[user_dict.strip() for user_dict in user_dicts] ltp = LTP( "LTP/base2") ltp.add_words(user_dicts) # 将模型移动到 GPU 上 if torch.cuda.is_available(): ltp.to("cuda") # print("begin") # 定义LTP分词器 class LtpTokenizer(Tokenizer): def __call__(self, value, positions=False, chars=False, keeporiginal=False, removestops=True, start_pos=0, start_char=0, mode="", **kwargs): assert isinstance(value, str), "%r is not unicode" % value t = Token(positions, chars, removestops=removestops, mode=mode, **kwargs) segs = ltp.pipeline([value]).cws[0] # print("begin2") for w in segs: t.original = t.text = u(w) t.boost = 1.0 if positions: t.pos = start_pos + value.find(w) if chars: t.startchar = start_char + value.find(w) t.endchar = start_char + value.find(w) + len(w) yield t # 在上面的脚本中，我们首先导入了LTP中文分词器，并创建了一个自定义的LTPTokenizer类，该类用于将文本分成单词。

评论收藏

内容反馈

1.该资源内容由用户上传，如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款（资源遇到问题，请及时私信上传者）

版权申诉

资源评论