作者:汀、人工智能

基于LangChain-Chatchat实现的RAG-本地知识库的问答应用[4]-高阶自定义模块

基于LangChain-Chatchat实现的RAG-本地知识库的问答应用[4]-高阶自定义模块

在这里插入图片描述

1.自定义分词器

  1. text_splitter文件夹下新建一个文件,文件名为您的分词器名字,比如my_splitter.py,然后在__init__.py中导入您的分词器,如下所示:
from .my_splitter import MySplitter

  1. 修改config/kb_config.py文件,将您的分词器名字添加到text_splitter_dict中,如下所示:
MySplitter: {
        "source": "huggingface",  # 选择tiktoken则使用openai的方法
        "tokenizer_name_or_path": "your tokenizer", #如果选择huggingface则使用huggingface的方法,部分tokenizer需要从Huggingface下载
    }
TEXT_SPLITTER = "MySplitter"

完成上述步骤后,就能使用自己的分词器了。

2. 自定义Age

lock