> # ♻️ 资源
> **大小:** 4.36MB
> **文档链接:**[**https://www.yuque.com/sxbn/ks/100013330**](https://www.yuque.com/sxbn/ks/100013330)
> **➡️ 资源下载:**[**https://download.csdn.net/download/s1t16/88506818**](https://download.csdn.net/download/s1t16/88506818)
> **注:更多内容可关注微信公众号【神仙别闹】,如当前文章或代码侵犯了您的权益,请私信作者删除!**
> ![qrcode_for_gh_d52056803b9a_344.jpg](https://cdn.nlark.com/yuque/0/2023/jpeg/2469055/1692147256036-49ec7e0c-5434-4963-b805-47e7295c9cbc.jpeg#averageHue=%23a3a3a3&clientId=u8fb96484-770e-4&from=paste&height=140&id=u237e511a&originHeight=344&originWidth=344&originalType=binary&ratio=1.25&rotation=0&showTitle=false&size=8270&status=done&style=none&taskId=ud96bf5f7-fe85-4848-b9c2-82251181297&title=&width=140.1999969482422)
# 毕业设计:基于CNN和词向量的句子相似性度量
**注意:因为要计算WMD距离所以需要安装依赖库pyemd**
## 开发环境
Anaconda + Pycharm
## 项目说明
> 按照老师要求复现论文(论文提出了一个新概念'相似元',通过相似元来计算两个句子的相似度‘),同时参考WMD以及论文中提到的WJ算法实现三个算法的比较
毕业设计主要针对于句子相似度的计算,尤其是**长句**相似度,**使用GoogleNews预训练的模型**
> GoogleNews-vectors-negative300.bin
## TODO
> 由于项目只实现了GoogleNews预训练模型中有的单词的句子相似度,没有拓展到中文
- [ ] 将相似度的计算拓展到中文
- [ ] 可以进行多个预训练模型的选择,而非GoogleNews
- [ ] 使用FAISS 框架优化相似向量的搜索
## 数据来源
存放于本项目DataSet下
## 项目运行
1. 配置config.json文件:model_path用于存放预训练模型存放的路径;dataset_path用于存放最后作实验评估的数据集存放的路径
2. 从main.py开始运行,首先要点击初始化按钮加载预训练模型
3. 在句子1和句子2处输入要计算相似度的句子
4. 计算结果显示在 相似度,WJ,WMD距离三个地方
5. 可以每次换一个句子,并点击计算
6. 计算完成,点击退出
![项目运行图.png](https://cdn.nlark.com/yuque/0/2023/png/2469055/1699234736161-9983ad1f-3ac9-4556-9073-2ee95d861362.png#averageHue=%23f0efef&clientId=u2fa07250-a4a3-4&from=paste&height=430&id=ubb55c101&originHeight=538&originWidth=836&originalType=binary&ratio=1.25&rotation=0&showTitle=false&size=55638&status=done&style=none&taskId=uc2eb011f-9637-4260-b028-0a6eda06bbd&title=&width=668.8)
## 结论验证
![test.png](https://cdn.nlark.com/yuque/0/2023/png/2469055/1699234758298-6ca88d55-b1b7-4589-9422-c0136b630c33.png#averageHue=%23fcf0ef&clientId=u2fa07250-a4a3-4&from=paste&height=1200&id=u7b7dd13f&originHeight=1500&originWidth=3000&originalType=binary&ratio=1.25&rotation=0&showTitle=false&size=500534&status=done&style=none&taskId=u83e04dc7-2c76-457c-b29c-f77fbdad54c&title=&width=2400)
## 参考资料
1. [WMD算法以及WJ算法参考](https://github.com/jsksxs360/Word2Vec)
2. [Word2Vec中的sentence_similarity方法出处](http://xueshu.baidu.com/usercenter/paper/show?paperid=59d3626fc14491c996a983186cc6d155&site=xueshu_se&hitarticle=1)
3. [理论依据](https://kexue.fm/archives/4677#%E5%8F%A5%E5%AD%90%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6)
4. [From Word Embeddings To Document Distances -- Matt J. Kusner等](http://xueshu.baidu.com/usercenter/paper/show?paperid=80e0aebd3cb631a88e2b8ae3ef61d61d&site=xueshu_se)
## 代码结构
> 毕业设计源代码存放于GraduationDesign下,这里没有提到的代码文件均已过时,请以最新的代码为准
```
.
├── GraduationDesign
│ ├── main.py 项目运行点
│ ├── SSFN_V6_02 第6版:实现功能的垂直分割,同时实现三个算法的实验评估
│ │ ├── Methods
│ │ │ ├── SSFN
│ │ │ │──── └── SSF_V3.py 复现论文中的SSF函数
│ │ │ ├── WJ
│ │ │ │──── └── wj_similarity.py 论文中的比对方法:计算两个句子的余弦相似度
│ │ │ ├── WMD
│ │ │ │──── └── wmd_distance.py 论文中的比对方法2:计算两个句子的WMD距离
│ │ │ ├── Word2Vec.py 加载并使用GoogleNews预训练的模型进行计算
│ │ ├── util
│ │ │ │──── └── util.py 工具模块,实现词语权重计算,模型的加载等
│ │ ├── view
│ │ │ │──── └── view_data.py 使用PyQt5编写界面
│ │ ├── datahelper
│ │ │ │──── └── data_process.py 对实验评估数据集的处理
│ │ ├── experiment_show
│ │ │ │──── └── result_img.py 三种实验方法比对并在本地生成最后的比对结果图
```
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
详情介绍:https://www.yuque.com/sxbn/ks/100013330 毕业设计 基于CNN和词向量的句子相似性度量 NLP Sentence Similarity CNN Word Vector
资源推荐
资源详情
资源评论
收起资源包目录
100013330-基于Python CNN和词向量的句子相似性度量.zip (58个子文件)
sentencesimilarity
LICENSE 1KB
余弦距离.jpg 2KB
DataSet
correlation.pl 2KB
LICENSE.txt 6KB
sts-dev.csv 250KB
readme.txt 6KB
问题.md 636B
GraduationDesign
SSFN_V2
SSF_V1.py 5KB
util.py 3KB
main.py 381B
view_main.py 3KB
view.py 2KB
SSFN_V4
util.py 3KB
main.py 658B
view.py 4KB
SSF_V2.py 6KB
SSFN_V3
SSF_V1.py 5KB
util.py 3KB
view_main.py 3KB
SSFN_V4_02
util.py 3KB
main.py 661B
view.py 4KB
SSF_V2.py 6KB
SSFN_V6
methods_compare.png 122KB
Word2Vec.py 4KB
main.py 166B
view.py 6KB
view_data.py 8KB
SSFN_V1
SSF_V1.py 5KB
util.py 3KB
main.py 381B
config.json 135B
SSFN_V6_02
methods_compare.png 761KB
main.py 175B
datahelper
data_process.py 746B
1559113814.png 564KB
1559113899.png 514KB
test.png 489KB
Methods
SSFN
SSF_V3.py 8KB
WMD
wmd_distance.py 353B
Word2Vec.py 4KB
WJ
wj_similarity.py 351B
experiment_show
result_img.py 3KB
view
view_data.py 5KB
1559113901.png 576KB
精度比较.png 903KB
1559113813.png 471KB
util
util.py 2KB
SSFN_V5
Word2Vec.py 4KB
util.py 3KB
main.py 658B
test2.py 594B
view.py 4KB
SSF_V2.py 6KB
nlp-word_mover_distance.py 1KB
test.py 519B
项目运行图.png 54KB
README.md 5KB
共 58 条
- 1
资源评论
神仙别闹
- 粉丝: 4318
- 资源: 7532
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 考虑条件风险价值的多微网主从-合作博弈动态定价与优化调度模型 摘要:代码主要做的是多微网的能量交互与动态定价问题 代码整体采用主从博弈框架,上层是零商的动态定价模型,同时考虑了条件风险价值,对不确定
- springboot项目毕业就业信息管理系统的设计与实现.zip
- springboot项目安康学院新型冠状病毒肺炎疫情防控专题网站的设计与实现.zip
- springboot项目毕业生实习与就业管理系统的设计与实现.zip
- 基于YOLOv8的课堂学生行为检测系统源码+设计报告.zip
- springboot项目车辆管理系统.zip
- springboot项目大学生科创项目在线管理系统的设计与实现.zip
- springboot项目电影订票及评论网站的设计与实现.zip
- springboot项目高校专业实习管理系统的设计和开发.zip
- springboot项目反欺诈平台的建设.zip
- springboot项目付费问答系统的设计与实现.zip
- springboot项目基于BS的社区物业管理系统.zip
- springboot项目火锅店管理系统.zip
- springboot项目基于BS的老年人体检管理系统.zip
- 自动化顶升剥料贴膜组装流水线sw18可编辑全套技术资料100%好用.zip
- springboot项目基于HTML的问卷调查系统的设计与实现.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功