个人实现的基于Siamesebilstm模型的相似句子判定模型,提供训练数据集和测试数据集资源-CSDN文库

共7个文件

txt：2个

py：2个

bin：1个

131 浏览量 2024-05-21 09:43:48 上传评论收藏 29.88MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

SiameseSentenceSimilarity-master.zip （7个子文件）

folder

SiameseSentenceSimilarity-master

desc.docx 40KB

folder

data

train.txt 7.11MB

predict_siamese.py 6KB

folder

model

tokenvec_bilstm2_siamese_model.h5 6KB

token_vec_300.bin 67.57MB

vocab.txt 6KB

siamese_model.py 11KB

任务：CCKS2018 -微众银行智能客服问句匹配大赛

1. 任务描述

微众银行智能客服问句匹配大赛是由微众银行提供语料支持，哈尔滨工业大学（深圳）

智能计算研究中心负责组织实施的真实场景语句意图匹配任务。

语句匹配是自然语言处理的最基本任务之一，是自动问答、聊天机器人、信息检索、机

器翻译等各种自然语言处理任务基础。语句匹配问题的复杂性在于，匹配的要求不同，对匹

配的定义也不尽相同，比如经典的语句复述判别问题，需要判断两句话是否仅仅是表述方式

不同，但意义相同，而在 Quora 问句匹配语料发布后，大量在该语料库上开展的语句匹配研

究工作都沿袭语料发布者的定义，称为语义等价判别(semantic equivalence identification)，和

复述判别相比，语义等价判别主要从语句（主要是问句）所蕴含的意图来判断两个语句是否

等价，而不直接判断两个语句是否表达相同的语义，所以其核心是语句的意图匹配。由于来

源于真实问答语料库，该任务更加接近于智能客服等自然语言处理任务的实际需求。

与基于 Quora 的语义等价判别相同，本次评测任务的主要目标是针对中文的真实客服语

料，进行问句意图匹配。集给定两个语句，要求判定两者意图是否相同或者相近。所有语料

来自原始的银行领域智能客服日志，并经过了筛选和人工的意图匹配标注。

输入：一个语句对

输出：表明该语句对是否表达相同或者相似意图的二值标签（0 或 1）

示例：

样例

1

输入：一般几天能通过审核一般审核通过要多久

输出：1

样例

2

输入：一般会在什么时候来电话一直在等待电话通知

输出：0

2. 数据描述

本次数据是主要来自金融领域的真实文本，训练集、验证集及测试集的说明如下：

训练集&验证集：

在训练及验证数据发布阶段，我们会发布 10w 对左右的标注训练问句对数据集和 1w 对

左右的验证问句对数据集。

测试集：

在测试数据发布阶段，我们将会再发布 1w 对左右的问句对数据集，不含标注结果，作

为测试。

3. 评价指标

本次任务采用精确率（Precision, P）、召回率（Recall, R）、F1 值（F1-measure, F1）和

准确率(Accuracy, Acc)作为评价指标。

语义匹配精确率

=

正例

标注

正确的语句对数

/

标注为正例

的

语句对总数

内容反馈

博士僧小星

粉丝: 2393
资源: 5995

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip