# 机器人问答
当用户询问了机器人,机器人会根据聊天上下文,到知识库里寻找最合适的解决方案,并将答案返回给用户。如果机器人解决不了,则会由人工进行处理。机器人问答常用的组织形式有 FAQ(非结构化),KB(结构化)两类。我们这里讲的定位是 FAQ 形式。
知识库首先由很多的 FAQ 构成,比如构建一个客服领域的知识库,就需要将客服整个垂直场景涉及的问题都罗列出来,并配置相应的答案。比如,“我要怎么开淘宝店?”,“我要怎么退款”,“我的密码要怎么重置”。成千上万的 FAQ 对,构成了整个知识库的基础。机器人在回答时,就是从知识库里找到和用户问题非常接近的标准问题(称为“知识”),用它的答案进行回复。
![](https://assets.ng-tech.icu/item/20230525221648.png)
# 知识库的组织
知识库的逻辑构成如下,3 层结构:标准问题,相似问题,标准答案。一个标准问题对应一个标准答案,一个标准问题下有多个相似问题。机器人定位时,使用标准问题和相似问题进行定位。
![](https://assets.ng-tech.icu/item/20230616143530.png)
# 算法架构
一般的机器人问答链路中我们主要会从不同的链路去生成结果:
- 检索链路:BERT, HCNN, OpenSearch
- 生成链路:Transformer
- 规则链路:Tire 树,基于依存句法的生成
- 辅助算法:敏感词过滤,语言模型,关键词聚类
![](https://assets.ng-tech.icu/item/20230616143550.png)
## 检索链路
### 模糊搜索
检索链路首先是从 OpenSearch 中进行搜索,我们的检索库是定期更新数据,数据通过 ODPS 进行处理,从 ODPS 导入 OpenSearch,没有实时增量,所以 OpenSearch 的基础能力满足我们的需求。公开语料库譬如百度知道,全量 4.5 亿调。语料都通过 ODPS 的 UDF,先进行语料清洗,再进行语料去重。
索引构建阶段,使用 alinlp 电商分词的结果进行索引构建,对名词和动词做了单独处理。使用 alinlp 电商分词后,构建搜索表达式,增加名词和动词的权重,通过 OpenSearch 进行搜索。
### HCNN 精排
精排过程就是比较两个句子的相似度,比较方式一般有两种,Sentence Interaction 和 Sentence Embedding。SE 就是将两个句子变成同一空间里的独立向量,然后计算这两个向量之间的余弦相似度。典型代表如:DSSM,ABCNN。SI 就是将两个句子进行交叉,比如使用向量构造矩阵,通过对矩阵的理解,得到句子之间的相似度。典型代表如:Pyramid。
HCNN 是 Hybrid CNN 的缩写,它包括了 SE 和 SI,分别构造左右两个子网络,一个是 SI,一个是 SE,把两种方式进行了结合。
![](https://assets.ng-tech.icu/item/20230616143617.png)
### BERT 精排
BERT 的信息抽取器是 Transformer,Transformer 在翻译的任务里就表现出了极强的信息抽取能力,再经过大量数据进行训练,我们相信 BERT 能够比 HCNN 有更好的效果。
## 生成链路
针对生成问题,由于是有无到有,而且整个模型是端到端生成,人工可以干预的地方并不多,对整个模型的控制几种在模型设计、超参配置和训练过程中。
在开发阶段,我们尝试了 Seq2Seq、ConSeq2Seq,以上模型经常生成 save answer 和不通顺的语句,场景建模能力较弱,非该场景的生成语句偏多。在尝试了 Transformer + Beam Search 的架构后,Transformer 本身的并行化特性,以及网络结构里,Multi-head Attention 能够获取到更丰富语义,生成效率和生成句子的多样性以及句子质量都得到了答复提高。
![](https://assets.ng-tech.icu/item/20230525221720.png)
## 规则链路
### Trie 树
使用 Trie 树替换原始句子里的同义词。原始 Trie 树包含了模糊匹配、语义节点、集合词、同义词等,目的是为了扩大覆盖,语义归一。但是我们的需求是替换原始句子的同义词,所以很多功能用不上。考虑到修改原始 Trie 树的成本比较大,于是写了 MiniTrie 树,只做同义词替换。
MiniTrie 先读取 Trie 树的同义词文件,在内存里建立替换关系图,然后对输入的 Query 可以进行替换,输出结果。MiniTrie 在同义词替换时,支持最小匹配、最大匹配、全匹配三种匹配方式,通过参数进行配置。
### 基于依存句法的生成
![](https://assets.ng-tech.icu/item/20230616143634.png)
将 root 出发的子树进行合并,调整/删除子树,构造新的句子。整个流程包括两部分,训练和预测。训练是依赖于相似的句对,构造可转换的规则库。
1)确保相似句对来自同一个领域
2)使用 Alinlp 对句对分别进行依存句法分析,获得 chunk 序列,包含依存关系及相应的 label
3)使用 chunk 合并器,对生成的 chunk 序列进行合并
4)取 chunk 序列的 label 作为句子表示,将句对的 label 序列作为一条规则加入到规则库
预测阶段通过规则库,对转换后的句子进行筛选:
1)使用 Alinlp 对输入语句进行依存句法分析,获得 chunk 序列,包含依存关系及相应的 label
2)使用 chunk 合并器,对生成的 chunk 序列进行合并
3)对 chunk 序列进行位置置换,或者删除 chunk,生成候选集
4)对候选集中的 chunk 序列,取 label 作为表示,用规则库判断转换是否合理,不合理的则丢弃
![](https://assets.ng-tech.icu/item/20230616143652.png)
## 辅助算法
### 语言模型
多层双向 LSTM,使用淘系语料进行训练
### 聚类
基于 TextRank 的关键词聚类
### 敏感词过滤
基于 KFC 的 AC 自动机和双数组 trie 树的关键词过滤
没有合适的资源?快使用搜索试试~ 我知道了~
精品--人工智能与深度学习实战 - 自然语言处理篇.zip
共87个文件
md:54个
ipynb:22个
csv:2个
需积分: 5 0 下载量 22 浏览量
2024-02-05
17:52:15
上传
评论
收藏 1.32MB ZIP 举报
温馨提示
精品--人工智能与深度学习实战 - 自然语言处理篇
资源推荐
资源详情
资源评论
收起资源包目录
精品--人工智能与深度学习实战 - 自然语言处理篇.zip (87个子文件)
ahao2
_sidebar.md 7KB
00~导论
README.md 2KB
.nojekyll 0B
99~参考资料
2023-吴恩达-《ChatGPT Prompt Engineering for Developers》
02. 提示原则 Guidelines.ipynb 48KB
03. 迭代优化 Iterative.ipynb 35KB
04. 文本概括 Summarizing.ipynb 20KB
06. 文本转换 Transforming.ipynb 24KB
07. 文本扩展 Expanding.ipynb 20KB
08. 聊天机器人 Chatbot.ipynb 106KB
05. 推断 Inferring.ipynb 29KB
09. 总结.md 2KB
00.README.md 2KB
01. 简介.md 5KB
2023-吴恩达-《Building Systems with the ChatGPT API》
8.Evaluation.ipynb 46KB
9.Evaluation-part1.ipynb 48KB
6.Chaining Prompts.ipynb 75KB
utils_zh.py 29KB
4.Moderation.ipynb 23KB
2.Language Models, the Chat Format and Tokens.ipynb 990KB
utils_en.py 29KB
readme.md 1KB
7.Check Outputs.ipynb 9KB
1.Introduction.md 937B
10.Evaluation-part2.ipynb 30KB
3.Classification.ipynb 13KB
11.conclusion.md 827B
products.json 11KB
5.Chain of Thought Reasoning.ipynb 16KB
2023-陆奇-我的大模型世界观.md 20KB
2023-Numbers every LLM Developer should know.md 11KB
2023-吴恩达-《LangChain for LLM Application Development》
1.开篇介绍.md 2KB
7.代理.ipynb 42KB
5.文档问答.ipynb 27KB
6.评估.ipynb 53KB
readme.md 713B
8.课程总结.md 1KB
4.模型链.ipynb 41KB
OutdoorClothingCatalog_1000.csv 734KB
3.存储.ipynb 53KB
2.模型、提示和解析器.ipynb 48KB
Data.csv 2KB
经典自然语言
主题模型
LDA.md 18KB
统计语言模型
Word2Vec.md 19KB
统计语言模型.md 25KB
词表示.md 11KB
基础文本处理.md 15KB
词嵌入
概述.md 2KB
99~参考资料
2023~Embeddings_ What they are and why they matter.md 117B
词向量
基于 Gensim 的 Word2Vec 实践.md 10KB
语法语义分析
命名实体识别.md 2KB
1_nlp_basics_tokenization_segmentation.ipynb.txt 30KB
LICENSE 16KB
行业应用
聊天对话
README.md 0B
机器人问答
README.md 6KB
INTRODUCTION.md 15B
LLM
99~参考资料
cohere-LLM University
01.What are Large Language Models_
01.Text Embeddings.md 10KB
README.md 1KB
README.md 2KB
2023~赵鑫~大语言模型综述
09~参考.md 0B
01~引言.md 1KB
README.md 2KB
LangChain
99~参考资料
2023-Hacking LangChain For Fun and Profit.md 131B
2023-LangChain 中文入门教程.md 36KB
Agent
99~参考资料
2023~LLM Agent Survey.md 36KB
代码生成
99~参考资料
2023-花了大半个月,我终于逆向分析了 Github Copilot.md 54KB
2023-An example of LLM prompting for programming.md 124B
语言模型微调
99~参考资料
2023-Finetuning Large Language Models.md 121B
2023-Prompt-Tuning:深度解读一种新的微调范式.md 130B
LoRA
99~参考资料
2023~LoRA From Scratch – Implement Low-Rank Adaptation for LLMs in PyTorch.md 182B
README.md 80B
GPT
ChatGPT
99~参考资料
2023-GPT-4 大模型硬核解读.md 56KB
预训练语言模型
BERT
目标函数.md 2KB
输入表示.md 1KB
README.md 0B
Transformer
99~参考资料
2021-王嘉宁-【预训练语言模型】Attention Is All You Need(Transformer).md 151B
2023-Transformers from Scratch.md 4KB
2021-Transformer 模型详解(图解最完整版).md 109B
2021-超详细图解 Self-Attention.md 57B
2020-完全解析 RNN, Seq2Seq, Attention 注意力机制.md 56B
2019-NLP 中的 RNN、Seq2Seq 与 Attention 注意力机制.md 56B
2020-举个例子讲下 Transformer 的输入输出细节及其他.md 11KB
README.md 14B
循环神经网络
README.md 0B
index.html 6KB
.gitignore 9B
README.md 4KB
header.svg 8KB
共 87 条
- 1
资源评论
码农阿豪
- 粉丝: 1w+
- 资源: 1754
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 海尔618算价表_七海5.20_16.00xlsx(1)(2).xlsx
- WebCrawler.scr
- 【计算机专业毕业设计】大学生就业信息管理系统设计源码.zip
- YOLO 数据集:8种路面缺陷病害检测【包含划分好的数据集、类别class文件、数据可视化脚本】
- JAVA实现Modbus RTU或Modbus TCPIP案例.zip
- 基于YOLOv8的FPS TPS AI自动锁定源码+使用步骤说明.zip
- JAVA实现Modbus RTU或Modbus TCPIP案例.zip
- 基于yolov8+streamlit的火灾检测部署源码+模型.zip
- 测试aaaaaaabbbbb
- VID20240521070643.mp4
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功