没有合适的资源?快使用搜索试试~ 我知道了~
SMP2019ECDT任务1技术报告-出门问问信息科技有限公司1
需积分: 0 1 下载量 139 浏览量
2022-08-08
20:29:12
上传
评论
收藏 296KB DOCX 举报
温馨提示
试读
13页
引入知识图谱后的ML-NLU系统框架如图2所示。图2. 基于传统机器学习模型+知识图谱的自然语言理解系统在该系统中,预处理阶段除了进行分词处理,还要根据知识图谱
资源详情
资源评论
资源推荐
SMP2019ECDT 中文人机对话评测
1 / 13
Mobvoi NLU for SMP2019-ECDT-Task-1
作者:张贺, 祝文博, 孟振南, 齐乔松, 赵广璞, 林士翔
出门问问信息科技有限公司
摘要
自然语言理解模块是人机对话系统中必不可少的部分,在 SMP2019-ECDT 任
务 1 中,本文在 BERT 预训练模型的基础上,结合出门问问知识图谱、数据增强
以及语义框架检测,搭建了一套端到端的自然语言理解系统,该系统在
SMP2019-ECDT 任务 1 上句准率为 72.23%,取得了任务 1 第一名的成绩。
关键词:中文人机对话, 自然语言理解, BERT, 出门问问, 知识图谱, 数据增强
1.引言
随着人工智能领域的崛起,人机对话系统在生活中的应用越来越广泛,自
然语言理解模块作为人机对话系统的核心模块之一备受工业界和学术界关注。
SMP2019-ECDT 任务 1 是专门为自然语言理解模块设计的评测任务,在该任务中,
凭借出门问问 NLU 团队自主研发的 QAP 平台(Query Analysis Platform)快速迭
代,我们提交了 50 个评测版本,尝试了多种模型和方法,例如 BERT 预训练模
型、出门问问知识图谱、数据增强、语义框架检测、传统机器学习模型等,最
终的提交系统是在 BERT 预训练模型的基础上,结合出门问问知识图谱、数据增
强以及语义框架检测。在本文中,除了会分享最终版本的技术方案,也会分享
比赛过程中其他尝试的经验。
2.模型及方法介绍
在 SMP2019-ECDT 任务 1 中,我们尝试了多种模型和方法,例如 BERT 预训练
SMP2019ECDT 中文人机对话评测
2 / 13
模型、出门问问知识图谱、数据增强、语义框架检测、传统机器学习模型和语
义规则等,通过将不同模型和方法进行组合,搭建了多套自然语言理解系统,
下面会从中选择部分具有代表性的系统进行详细介绍。
2.1 基于传统机器学习模型的自然语言理解系统
基于传统机器学习模型的自然语言理解系统,主要通过传统机器学习模型
进行 NLU 处理,分类任务使用最大熵模型,序列标注任务使用 CRF 模型。系统框
架如图 1 所示。
图 1. 基于传统机器学习模型的自然语言理解系统
在该系统中,我们首先会对 query 进行分词预处理,然后经过基于最大熵
的 Domain 分类模型,得到 Domain 类别之后,再分别进行 Intent 分类和 Slot 标
注。其中 Intent 分类模块包含多个基于最大熵的 Intent 分类模型,每个
Domain 都有一个对应的 Intent 分类模型;Slot 标注模块包含多个基于 CRF 的
Slot 标注模型,每个 Domain 都有一个对应的 Slot 标注模型。以 SMP2019-ECDT
任务 1 为例,该系统共包含 1 个 29 Domain 分类模型,29 个 Intent 分类模型,
29 个 Slot 标注模型。
为方便描述,下文以 ML-NLU 表示基于传统机器学习模型的自然语言理解系
统。
2.2 基于传统机器学习模型+知识图谱的自然语言理解系统
基于传统机器学习模型+知识图谱的自然语言理解系统,在 ML-NLU 的基础
SMP2019ECDT 中文人机对话评测
3 / 13
上引入了出门问问知识图谱。出门问问知识图谱是针对人机对话领域而专门设
计的知识图谱,包含实体图谱和概念图谱两部分,经过近 7 年的沉淀,实体图
谱积累了 1000 万实体和 2000 万关系,概念图谱积累了 5000 万实体、50 万概念
和 2.5 亿关系。知识图谱在 NLU 模块中有多种用途,其中两个用途就是用于文本
分类和序列标注,用于文本分类的知识图谱是从一个通用的小规模知识图谱,
这个通用的小规模知识图谱包含人机对话系统支持的各个垂直领域,可以根据
人机对话系统支持垂直领域的不同进行定制;用于序列标注的知识图谱是各领
域定制的小规模知识图谱。引入知识图谱后的 ML-NLU 系统框架如图 2 所示。
图 2. 基于传统机器学习模型+知识图谱的自然语言理解系统
在该系统中,预处理阶段除了进行分词处理,还要根据知识图谱检测
query 中出现了哪些实体及其概念,实体信息会作为重新调整分词的依据,概
念信息会作为文本分类的特征用于 Domain 分类和 Intent 分类。在 Slot 标注时,
还会将领域定制知识图谱提供的概念信息作为 CRF 特征。
为方便描述,下文以 ML-KG-NLU 表示基于传统机器学习模型+知识图谱的自
然语言理解系统。
2.3 基于 BERT 的自然语言理解系统-baseline
基于 BERT 的自然语言理解系统-baseline,是在 BERT 预训练模型的基础上,
通过 fine-tuning 来训练 Domain 分类、Intent 分类和 Slot 标注任务。该系统
中,fine-tuning 之后的 BERT 预训练模型是被 Domain 分类、Intent 分类和 Slot
标注三个任务共同使用的,而不是为 Domain 分类、Intent 分类和 Slot 标注三
剩余12页未读,继续阅读
邢小鹏
- 粉丝: 24
- 资源: 327
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0