基于多特征和分类器的用户意图领域分类系统
李大宇
1
,张鹏
1
,张文跃
1
,王素格
1,2
(1.山西大学 计算机与信息技术学院,太原 030006;
2.山西大学 计算智能与中文信息处理教育部重点实验室,太原 030006)
摘 要: 随着互联网的飞速发展,人机对话技术成为学术界和工业界的研究热点。用户意图
领域分类是其中的一项重要研究任务,其性能直接影响到特定领域的人机对话质量。本文针
对用户意图领域分类的任务,从特征对多类别间的区别能力的角度,讨论了多种特征以及多
种分类器对其分类效果的影响。在此基础上,设计了一种多特征的用户意图领域分类系统,
并在 SMP2017 的中文人机对话技术评测(ECDT)任务一中取得了较好的成绩。
关键词: 人机对话,用户意图领域分类,多特征,分类器,SMP2017
Abstract: With the rapid development of Internet, Chinese human-computer dialogue technology
has become the focus of academic and industrial research. Domain classification of user intention
is one of the most important research tasks, and its performance has a direct impact on the quality
of human-computer dialogue in specific domains. Aiming at the task of domain classification of
user intention, this paper discusses the influence of multiple features and multiple classifiers on
classification performance. On this basis, a multi-feature domain classification of user intention
system is designed, and achieved good results in The Evaluation of Chinese Human-Computer
Dialogue Technology (ECDT) of SMP2017.
Key words: Human-Computer Dialogue Technology, Domain classification of user intention,
multi-feature, classifier, SMP2017
1 引言
随着互联网的飞速发展,人机对话技术成为学术界和工业界的研究热点。对于学术界而
言,人机对话技术对语音识别、自然语言处理、信息检索以及情感分析等领域有着重要的推
动作用;对于工业界而言,人机对话技术是个人事务助理、虚拟情感陪护机器人以及娱乐性
聊天机器人等产品的核心技术,其性能直接影响了产品的市场竞争力。
第六届全国社会媒体处理大会(The Sixth China National Conference on Social Media
Processing)举办了中文人机对话技术评测(ECDT)。本次中文人机对话技术评测分为两个
任务,任务一为用户意图领域分类,任务二为特定域任务型人机对话在线评测。其中任务一
旨在正确识别用户所感兴趣的领域,在用户与机器的交互中,存在多种意图,不同的意图会
触发人机对话系统中的多个领域(domain),包括任务型垂直领域(如查询机票、酒店、公
交车等)、知识型问答以及闲聊等。因而,人机对话系统的一个关键任务就是正确地将用户
的输入分类到相应的领域(domain)中,从而返回正确的回复结果。
我们山西大学文本挖掘团队参加了本次 ECDT 评测的任务一:用户意图领域分类。用
户意图领域分类的主要任务为,正确判断用户所描述的问题属于哪个领域。例如,“你好啊,
很高兴见到你!”为“闲聊类”,“我想订一张去北京的机票。”为“任务型垂类(订机票)”,
“我想找一家五道口附近便宜干净的快捷酒店”为“任务型垂类(订酒店)”。其中“任务型
垂类”细分为了 30 个垂直领域。任务一评测又细分为封闭性测试和开放性测试,封闭性测
评论0