多语言机器人深度学习模型构建.docx资源-CSDN文库

版权申诉

文档资料

122 浏览量 2022-11-04 10:24:30 上传评论收藏 343KB DOCX 举报

资源详情

资源评论

0 引言

随着“互联网+”在多领域的应用实施，不同电商平台纷纷推进国际化战略运行历程，业务逐渐由国内

向海外拓展，因此对于人机交互智能服务平台也提出了更高的要求.智能对话机器人开始不仅仅是支持中

文，而是要从中文去逐渐地拓展到东南亚、欧洲等更多的语系上.在多语言和国际化业务的背景下，特别

是从中文拓展到更多语言理解的时候，对话机器人可能面临着不同国家的用户、不同文化的用户，基本的

机器人问答处理流程已经无法满足企业和用户的业务需要

[1]

构建跨越语言鸿沟的机器人服务体系首要解决的问题是：不同语言的词项表示差别大，表音和表意

方式复杂多样纠错难，小语种文档量少训练质量差，多语言混排无法正确进行意图识别等.如何通过跨语

言的方式去匹配语义的相似度从文档当中找到答案，利用资源丰富的语言，帮助算法模型去理解资源稀缺

的语言，对于构建高质量跨语言机器人学习模型具有重要意义.

在如上背景下，本文以跨语言自迭代学习为切入点，以构建多语言智能服务机器人为任务，提出了

一种多语言深度学习迭代模型(cross-lingual deep learning iteration，CLDLI)，旨在跨语言的不同地区和

文化差异场景下检验该智能问答机器人学习模型的有效性

[2-4]

1 多语言深度学习模型 1.1 机器问答处理流程

基本的问答机器处理流程和框架如图 1 所示.问答机器人接收用户输入的查询(Query)，结合前几轮

输入的文本(Context)历史内容进行叠加后，传入意图识别模块生成分类模型；通过对话管理系统管理和控

制用户和机器人之间多轮对话的一个状态；最后根据意图识别的结果，从 3 种不同的 Bot 当中去选择一个

Bot 来回答用户的问题

[5]

图 1 传统机器人的问答处理框架流程 Fig.1 Traditional robot question and answer processing frame process

图选项

第 1 类是知识型问答(QA Bot).根据不同的知识结构来选择不同类型的技术进行应答，对于结构化知

识采用知识图谱(knowledge graph)或知识库问答(knowledge base question answering，KB-QA)的方式.

对于常见问答 FAQ 形式的知识类结构，采用文本相似度匹配的方式来从知识库里面寻找答案，而对于非

结构化形式的问答，则采用机器阅读理解技术进行回答，无需人工梳理.

第 2 类是任务型问答(Task Bot).对于如购买机票类的服务，通过填槽(Slot Filling)将用户意图进行解

析转化为明确指令；对于选购商品等直接性需求则通过对话工作室(Dialogue Studio)开启多轮对话上下文

拼接帮助用户完成需求任务，同时采用深度增强学习(deep reinforcement learning，DRL)的最优值迭代技

术提供过程决策，辅助用户完成最优策略选择.

第 3 类是聊天型问答(Chat Bot).在闲聊的过程当中考虑到问答的可控性和安全性.优先采用检索技术

在库中匹配，而对于需要进行多轮交互的场景，则需要通过生成类的技术来完成问答.

如何将机器问答处理框架的几个核心模型拓展到多语言，支持更多的理解和问答，其核心问题在于

解决意图识别分类模型的多语言重构、文本语义匹配相似度算法的融合及跨语言文档下机器阅读理解的答

案机制.本文从几个关键步骤进行介绍，阐述了跨语言场景下的深度学习模型完善适配过程.

1.2 语言特性挖掘和预处理

本文以覆盖东南亚国家业务为例，在中文对话机器人已有的 NLP 能力下对英语(EN)、越南语

(VN)、泰语(TH)、马来西亚语(MY)、印度尼西亚语(ID)进行了建模和训练.新语种、低资源语言存在数据

不足的问题，Wiki dump Data

[6]

所能提供的词向量训练库中，英语可达 100 G 以上，而其它的语种均不足

1 G 数据量.此外，不同国家和地区所产生的不同语言文化，在特征空间的表示上也是巨大的挑战.因此，

对新语种语言特性进行挖掘和预处理，显得至关重要.

1) 是否连写语言：大部分语言是空格分词，少数连写语言需要设计特有分词器.

2) 表音还是表意：了解语言是表音还是表意，设计不同的纠错算法进行拼写错误检查.

3) 词形是否丰富：词形变换丰富的语言会导致大量词表，需要进行词形归一化和去停词，对句子进

行化简，使其易于理解.

为了优化语言种类繁多带来的巨大的词形归一化工作量，引入词形归一通用方案，即先分词，后接

BPE(byte pair encoding)

[7]

. BPE 是一种通过统计方法将单词进一步地分解成子词的方法，可以拆解常见

的派生词和组合词等，共享前缀或者后缀词，设置使用较小的词表来提高系统的性能. BPE 处理后不会有

未登入词的产生.

1.3 多语言词向量语料共享

词向量是很多 NLP 应用中基本的特征.因为小语种或者新语种的语料数据量少，难以通过其训练出

高质量的词向量，而通过共享各个语言的语料数据集合，训练资源量大的语料来提升资源量缺乏的小语

种，能够有效提高词向量的质量，并且可以应对混合语言的场景

[8]

.本文设计了多语言的词向量空间，如图

2 所示为单语言和多语言嵌入映射空间的对比示例，可通过同一个语义空间去表示多种不同的语言，将不

同语种下词汇含义比较接近的点进行对应关联，在三维空间中表征就近查找关系，能够创建出具备多语言

问答能力的混合环境.

剩余10页未读，继续阅读

评论收藏

内容反馈

版权申诉

多语言机器人深度学习模型构建.docx

评论0

最新资源

多语言机器人深度学习模型构建.docx

评论0

最新资源

相关推荐

基于立体视觉的水果采摘机器人系统调研报告资料.docx

一种基于微信小程序和ROS的智能送餐机器人系统及其送餐方法.docx

基于人工智能技术的电网营销稽查虚拟网查机器人系统建设及实践.docx

机器人大赛 大赛评审标准.docx

机器人实训报告讲解.docx

工业机器人PLC控制实例练习.docx

发那科机器人润滑油更换步骤.docx

三轴驱动机器人结构设计分析方案.docx.docx

机器人路径规划算法探讨.docx

工业机器人技术专业课程资源.docx

农业机器人协同作业算法研究.docx

码垛机器人技术方案教学文案.docx

2.4.3 FANUC机器人的常规型号概要.docx

S7-1200PLC与四轴机器人MODBUS-TCP通讯.docx

工业机器人离线编程与仿真(FANUC机器人)课程教案.docx

三自由度机器人结构设计说明书.docx

全国计算机等级考试二级Python真题及解析.docx

1000份ppt模版，PPT模板优秀PPT

导入证书可以解决”无法建立到信任根颁发机构的证书链"问题。

matlab批量读取excel表格数据并处理画图

OpenCv车辆识别训练模型

代码随想录知识星球精华-大厂面试八股文第二版v1.2.pdf

数学建模对乙醇偶合制备C4烯烃的问题研究

Vue-Element UI集成ECharts实现数据统计分析页代码部分(如果帮助到你，感谢关注点赞)

STM32F103C8T6中文数据手册

（头歌）计算机组成原理存储系统设计（HUST）1-7关答案

MATLAB深度学习入门实例（果树病虫害识别VGG19版）

（中文）半导体器件物理第三版课后习题答案，施敏著，

机器人大赛大赛评审标准.docx