# 基于Pytorch的中文语义相似度匹配模型
基于Pytorch的中文语义相似度匹配模型
本项目将持续更新,对比目前业界主流文本匹配模型在中文的效果
运行环境:
python3.7、pytorch1.2、transformers2.5.1
数据集采用LCQMC数据(将一个句对进行分类,判断两个句子的语义是否相同(二分类任务)),因数据存在侵权嫌疑,故不提供下载,需要者可向官方提出数据申请http://icrc.hitsz.edu.cn/info/1037/1146.htm ,并将数据解压到data文件夹即可。模型评测指标为:ACC,AUC以及预测总共耗时。
Embeding:
本项目输入都统一采用分字策略,故通过维基百科中文语料,训练了字向量作为Embeding嵌入。训练语料、向量模型以及词表,可通过百度网盘下载。
链接:https://pan.baidu.com/s/1qByw67GdFSj0Vt03GSF0qg
提取码:s830
模型文件:
本项目训练的模型文件(不一定最优,可通过超参继续调优),也可通过网盘下载。
链接:https://pan.baidu.com/s/1qByw67GdFSj0Vt03GSF0qg
提取码:s830
测试集结果对比:
模型 | ACC | AUC | 耗时(s)(备注:环境1070TI)
:-: | :-: | :-: | :-:
[ABCNN](https://arxiv.org/pdf/1512.05193.pdf) | 0.8081 | 0.9059 | 4.6260
[Albert](https://openreview.net/pdf?id=H1eA7AEtvS) | 0.8522 | 0.9475 | 52.3823
[Bert](https://arxiv.org/pdf/1810.04805.pdf) | 0.8714| 0.9544 | 61.2800
[BIMPM](https://arxiv.org/pdf/1702.03814.pdf) | 0.8359| 0.9375 | 18.8210
[DecomposableAttention](https://arxiv.org/pdf/1606.01933.pdf) | 0.8068| 0.9334 | 3.7170
[DistilBert](https://arxiv.org/pdf/1910.01108.pdf) | 0.8450| 0.9403| 31.1680
[ESIM](https://arxiv.org/pdf/1609.06038.pdf) | 0.8385 | 0.9311 | 2.7410
[RE2](https://www.aclweb.org/anthology/P19-1465.pdf) | 0.8391 | 0.9196 | 5.2200
[Roberta](https://arxiv.org/pdf/1907.11692.pdf) | 0.8726 | 0.9591 | 61.3130
[SiaGRU](https://aaai.org/ocs/index.php/AAAI/AAAI16/paper/view/12195/12023) | 0.8281 | 0.9336 | 3.5500
[XlNet](https://arxiv.org/pdf/1906.08237.pdf) | 0.8694 | 0.9601 | 89.8090
部分模型,借鉴了
https://github.com/alibaba-edu/simple-effective-text-matching-pytorch
https://github.com/pengshuang/Text-Similarity
等项目。
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
【Demo】基于Pytorch的中文语义相似度匹配模型.zip (94个子文件)
TextMatch-master
DistilBert
utils.py 9KB
model.py 1KB
data.py 5KB
models
数据可从网盘下载.txt 0B
train.py 5KB
test.py 1KB
Bert
utils.py 9KB
model.py 2KB
data.py 5KB
models
数据可从网盘下载.txt 0B
train.py 5KB
test.py 1KB
RE2
__init__.py 0B
util.py 9KB
modules
__init__.py 4KB
embedding.py 1KB
fusion.py 2KB
alignment.py 2KB
connection.py 2KB
prediction.py 2KB
encoder.py 2KB
pooling.py 817B
utils
__init__.py 1B
loader.py 2KB
metrics.py 3KB
vocab.py 8KB
registry.py 1KB
logger.py 5KB
params.py 6KB
model.py 3KB
data.py 5KB
models
数据可从网盘下载.txt 0B
train.py 6KB
test.py 2KB
Albert
utils.py 9KB
model.py 2KB
data.py 5KB
models
数据可从网盘下载.txt 0B
train.py 5KB
test.py 1KB
Xlnet
utils.py 9KB
model.py 2KB
data.py 5KB
models
数据可从网盘下载.txt 0B
train.py 5KB
test.py 1KB
data
数据可从网盘下载.txt 0B
utils
gen_corpus.py 2KB
train_w2v.py 2KB
load_data.py 2KB
lcqmc_dataset.py 706B
args.py 246B
data_utils.py 2KB
RoBerta
utils.py 9KB
model.py 2KB
data.py 5KB
models
数据可从网盘下载.txt 0B
train.py 5KB
test.py 1KB
DecomposableAttention
utils.py 9KB
layers.py 993B
model.py 4KB
data.py 5KB
models
数据可从网盘下载.txt 0B
train.py 5KB
test.py 2KB
ESIM
utils.py 10KB
layers.py 5KB
model.py 4KB
data.py 5KB
models
数据可从网盘下载.txt 0B
train.py 6KB
test.py 2KB
.gitignore 2KB
SiaGRU
utils.py 9KB
model.py 2KB
data.py 5KB
models
数据可从网盘下载.txt 0B
train.py 5KB
test.py 2KB
BIMPM
utils.py 9KB
model.py 11KB
data.py 5KB
models
数据可从网盘下载.txt 0B
train.py 5KB
test.py 2KB
README.md 2KB
ABCNN
utils.py 9KB
model.py 4KB
data.py 5KB
models
数据可从网盘下载.txt 0B
train.py 5KB
test.py 2KB
【CSDN:小正太浩二】下载说明.txt 1KB
共 94 条
- 1
资源评论
小正太浩二
- 粉丝: 194
- 资源: 5904
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于python的机械设计实用计算器,可计算电动机,传动装置,V带轮,齿轮,轴,轴承的几何或者力,运动学参数数值+源码+开发文档
- 基于HTML +JavaScript的元旦倒计时代码.docx
- 【Unity资源免费分享】孩子益智小游戏unity 5x系列Baby Doll House Cleaning
- 【资源免费分享】集市游戏(uniyt案例)
- 数据整理结果 2023-12-7 192544 6.dta
- 5.22前端基础(2)
- 糖尿病风险因素分析数据
- matlab项目源码基于matlab的声源定位广义互相关算法的实现.zip
- 基于Go的Dory-Engine应用上云引擎命令行客户端设计源码
- dotnet-core-uninstall-1.7.521001 github上下载下来,从github下载不下来时,可以使用这
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功