# text_matching
文本匹配模型
本项目包含目前大部分文本匹配模型,持续更新中,其中论文解读请点击[文本相似度,文本匹配模型归纳总结](https://blog.csdn.net/u012526436/article/details/90179466)
数据集为QA_corpus,训练数据10w条,验证集和测试集均为1w条
其中对应模型文件夹下的`args.py`文件是超参数
训练:
`python train.py`
测试:
`python test.py`
词向量:
不同的模型输入不一样,有的模型的输入只有简单的字向量,有的模型换成了字向量+词向量,甚至还有静态词向量(训练过程中不进行更新)和
动态词向量(训练过程中更新词向量),所有不同形式的输入均以封装好,调用方法如下
静态词向量,请执行
`python word2vec_gensim.py`,该版本是采用gensim来训练词向量
动态词向量,请执行
`python word2vec.py`,该版本是采用tensorflow来训练词向量,训练完成后会保存embedding矩阵、词典和词向量在二维矩阵的相对位置的图片,
如果非win10环境,由于字体的原因图片可能保存失败
测试集结果对比:
模型 | loss | acc | 输入说明 | 论文地址
:-: | :-: | :-: | :-: | :-: |
DSSM | 0.7613157 | 0.6864 | 字向量 | [DSSM](https://posenhuang.github.io/papers/cikm2013_DSSM_fullversion.pdf) |
ConvNet | 0.6872447 | 0.6977 | 字向量 | [ConvNet](http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.723.6492&rep=rep1&type=pdf) |
ESIM | 0.55444807| 0.736 | 字向量 | [ESIM](https://arxiv.org/pdf/1609.06038.pdf) |
ABCNN | 0.5771452| 0.7503 | 字向量 | [ABCNN](https://arxiv.org/pdf/1512.05193.pdf) |
BiMPM | 0.4852| 0.764 | 字向量+静态词向量 | [BiMPM](https://arxiv.org/pdf/1702.03814.pdf) |
DIIN | 0.48298636| 0.7694 | 字向量+动态词向量 | [DIIN](https://arxiv.org/pdf/1709.04348.pdf) |
DRCN | 0.6549849 | 0.7811 | 字向量+静态词向量+动态词向量+是否有相同词 | [DRCN](https://arxiv.org/pdf/1805.11360.pdf) |
以上测试结果可能不是模型的最优解,超参的选择也不一定是最优的,如果你想用到自己的实际工程中,请自行调整超参
没有合适的资源?快使用搜索试试~ 我知道了~
常用文本匹配模型tf版本,数据集为QA-corpus,持续更新中.zip
共61个文件
py:48个
txt:3个
csv:3个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 88 浏览量
2025-01-03
19:54:21
上传
评论
收藏 12.03MB ZIP 举报
温馨提示
常用文本匹配模型tf版本,数据集为QA_corpus,持续更新中文本匹配文本匹配模型本项目包含目前大部分文本匹配模型,持续更新中,其中论文解读请点击文本相似度,文本匹配模型归纳总结数据集为QA_corpus,训练数据10w条,验证集和测试集均为1w条其中对应模型文件夹下的args.py文件是超参数训练 python train.py测试 python test.py词向量 不同的模型输入不一样,有的模型的输入只有简单的字向量,有的模型换成了字向量+词向量,甚至还有静态词向量(训练过程中不进行更新)和 动态词向量(训练过程中更新词向量),所有不同形式的输入均以封装好,调用方法如下静态词向量,请执行 python word2vec_gensim.py,该版本是采用gensim来训练词向量动态词向量,请执行 python word2vec.py,该版本是采用tensorflow来训练词向量,训练完成后会保存embedding矩阵、词典和词向量在二维矩阵的相对位置的图片, 如果非win10环境,由于字体的原因图片可能保存失败测试集结果对比模型 损失
资源推荐
资源详情
资源评论
收起资源包目录
常用文本匹配模型tf版本,数据集为QA_corpus,持续更新中.zip (61个子文件)
dssm
__init__.py 0B
graph.py 2KB
args.py 152B
train.py 2KB
test.py 752B
convnet
__init__.py 0B
graph.py 3KB
args.py 219B
train.py 2KB
test.py 804B
bimpm
__init__.py 0B
graph.py 8KB
args.py 291B
train.py 3KB
test.py 3KB
esim
__init__.py 0B
graph.py 3KB
args.py 206B
train.py 2KB
test.py 792B
标签.txt 7B
abcnn
__init__.py 0B
graph.py 5KB
args.py 239B
train.py 2KB
test.py 809B
LICENSE 11KB
input
dev.csv 715KB
train.csv 7.02MB
vocab.txt 31KB
test.csv 718KB
diin
__init__.py 0B
graph.py 5KB
args.py 263B
train.py 4KB
test.py 3KB
utils
__init__.py 0B
load_data.py 6KB
data_utils.py 2KB
output
dssm
__init__.py 0B
convnet
__init__.py 0B
bimpm
__init__.py 0B
esim
__init__.py 0B
abcnn
__init__.py 0B
word2vec
__init__.py 0B
word_vocab.tsv 50KB
tsne.png 431KB
word2vec.model 8.74MB
w2v.vec 2.78MB
diin
__init__.py 0B
drcn
__init__.py 0B
资源内容.txt 1KB
.gitignore 1KB
word2vec_dynamic.py 15KB
drcn
__init__.py 0B
graph.py 6KB
args.py 265B
train.py 6KB
test.py 4KB
README.md 2KB
word2vec_static.py 989B
共 61 条
- 1
资源评论
赵闪闪168
- 粉丝: 1726
- 资源: 6943
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 表白网页款式六源码.zip
- 离散数学 部分答案,个人学习整理,仅供参考
- 离散数学--自学考试试题(02324)
- Python实现应用决策树鸢尾花(Iris)数据集的实例程序
- matlab:基于遗传算法的多无人机协同任务分配 - 基于遗传算法的多无人机协同任务分配 - 种群中的每一个个体代表一次完整的任
- 单周期MIPS CPU设计
- 单周期MIPS处理器设计报告模板1
- Linux系统设计-Linux系统下的简单网络嗅探器实现
- 串口调试 VS源代码,个人学习整理,仅供参考
- 串口调试工具源码+注释
- 串口调试源码,个人学习整理,仅供参考
- 微电网 能量优化管理 电力系统 微电网能源管理优化 微电网的能源管理优化模型,考虑了各种可再生能源、能量存储和碳捕集技术,以最小化运行成本,同时满足电力和热能需求 该优化模型有助于做出微电网组件的
- _基于Spark的电商用户行为分析系统的研究 (1).caj
- 串口源码参考版本,仅供参考
- python 新年烟花演示
- python(pygame)新年快乐-烟花
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功