缺乏大规模的问题匹配语料库极大地限制了问题回答(QA)系统中匹配方法的发展,尤其是对于非英语语言。 为了改善这种情况,在本文中,我们引入了一个大规模的中文问题匹配语料库(命名为LCQMC),该语料库已公开发布。 LCQMC比释义语料库更笼统,因为它专注于意向匹配而不是释义。 如何以不同的语言形式收集大量的问题对,这些问题对可能具有相同的意图,这是构建此类语料库的关键。 在本文中,我们首先使用搜索引擎从各个领域收集与高频词相关的大规模问题对,然后通过Wasserstein距离筛选不相关的对,最后招募三个注释器以手动检查左侧的对。 在此过程之后,将构建一个包含260,068个问题对的问题匹配语料库。 对LCQMC语料库进行过序排序,分为三个部分,即包含238,766个问题对的训练集,包含8,802个问题对的开发集和包含12,500个问题对的测试集,并在其上测试几种著名的句子匹配方法。 实验结果不仅证明了LCQMC的良好质量,而且还为该语料库的进一步研究提供了坚实的基准性能。