【资源说明】
基于Python实现的文本匹配算法源码(含单塔模型+双塔模型)+数据集+使用说明.zip
本项目对3种常用的文本匹配的方法进行实现:PointWise(单塔)、DSSM(双塔)、Sentence BERT(双塔)。
## 1. 环境安装
本项目基于 `pytorch` + `transformers` 实现,运行前请安装相关依赖包:
```sh
pip install -r ../../requirements.txt
```
## 2. 数据集准备
项目中提供了一部分示例数据,我们使用「商品评论」和「商品类别」来进行文本匹配任务,数据在 `data/comment_classify` 。
若想使用`自定义数据`训练,只需要仿照示例数据构建数据集即可:
```python
衣服:指穿在身上遮体御寒并起美化作用的物品。 为什么是开过的洗发水都流出来了、是用过的吗?是这样子包装的吗? 0
衣服:指穿在身上遮体御寒并起美化作用的物品。 开始买回来大很多 后来换了回来又小了 号码区别太不正规 建议各位谨慎 1
...
```
每一行用 `\t` 分隔符分开,第一部分部分为`商品类型(text1)`,中间部分为`商品评论(text2)`,最后一部分为`商品评论和商品类型是否一致(label)`。
## 3. 模型训练
### 3.1 PointWise(单塔)
#### 3.1.1 模型训练
修改训练脚本 `train_pointwise.sh` 里的对应参数, 开启模型训练:
【备注】
1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!
2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。
3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。
欢迎下载,沟通交流,互相学习,共同进步!