simCSEsimCSE_simcse代码资源-CSDN文库

共127个文件

sample：11个

txt：6个

pyc：5个

需积分: 41 45 浏览量 2022-07-15 12:52:56 上传评论收藏 28.37MB ZIP 举报

SimCSE，全称为"Similarity through Contextualized Sentence Embeddings"，是自然语言处理（NLP）领域中的一种技术，主要用于学习句子的语义表示。该技术由Gao等人在2020年提出，它利用预训练的语言模型如BERT、GPT等，通过自我监督的方式生成具有高区分度的句子向量，从而实现对句子语义的精确捕捉。在NLP任务中，这些向量可以用于相似度比较、文本分类、问答系统等多种应用。 SimCSE的核心思想是通过随机扰动输入句子来创建“正样本”和“负样本”，然后让模型学习区分它们之间的微小差异。例如，可以对原始句子进行词汇替换、随机删除或插入操作，得到略有不同的句子版本。通过对比学习，模型会学习到如何生成能够反映句子原始含义的向量表示。在提供的压缩包文件"SimCSE-Chinese-Pytorch"中，我们可以推测这是一个针对中文文本的SimCSE实现，采用了PyTorch作为深度学习框架。这通常包括以下组成部分： 1. **预训练模型**：预训练模型是SimCSE的基础，如BERT（Bidirectional Encoder Representations from Transformers）或RoBERTa（Robustly Optimized BERT Pretraining Approach），它们在大规模无标注文本上进行预训练，已经学习到丰富的语言知识。 2. **数据处理**：为了训练SimCSE，需要准备中文语料库，这可能包括新闻、社交媒体、书籍等多种来源的文本。数据会被处理成适合模型输入的形式，并根据SimCSE的要求生成正负样本对。 3. **模型架构**：SimCSE的模型通常是在预训练模型的基础上进行微调，增加一个额外的线性层，用于生成固定长度的向量表示。 4. **训练过程**：训练过程中，模型会尝试最小化正样本对之间的距离，同时最大化负样本对之间的距离。常用的损失函数有InfoNCE（Information Noise-Contrastive Estimation）。 5. **评估与应用**：训练完成后，SimCSE模型可以用来评估句子之间的相似度，通过计算两个向量的余弦相似度或其他距离度量。在实际应用中，它可以用于问答匹配、文本蕴含、情感分析等任务。 6. **代码结构**：压缩包中的代码可能包含数据加载模块、预处理工具、模型定义、训练脚本、评估函数以及示例用法等部分，方便用户理解和复用。 SimCSE是一种强大的工具，它利用预训练模型的力量改进了句子表示的质量，对于理解和处理中文文本有着广泛的应用前景。通过理解并运用SimCSE-Chinese-Pytorch这个项目，开发者可以进一步提升其在NLP领域的技术水平。

资源详情

资源评论

资源推荐

收起资源包目录

simCSE simCSE （127个子文件）

0285f9b88ae1fb4f170a4682fb6d36292da520 89B

036b51c4bae11fd1168413d50f50d0dff815a5 85B

08168829f6eafbea7cd004f60e2c3cabcddebc 85B

085c1f411e67fc85f849020010884481288da7 85B

0f41b9fb5de3feee54a451ebf8b0b4d719d52e 85B

106f33c2a2058f548fc81c86eb9a7d99d74c9a 244B

15e0032ffdcc669bee0386786fd6dc1ffc8a40 153B

17bf78ef2ac5142caae89f4f7657a6f634b2e4 151B

1b462beafc0b527a5d1a152709b5f7dcbe6981 85B

1b7a99e575ea3a098015e2f20dc9807773887f 172B

1c9ce7715142cc1233f2ba7f03bbd5ba91ef26 249B

1e4b2de8b6e057b76ae4047f1818696e10261d 179B

1f96fd215475e95916954ba2e5f9e67f11ed8f 163B

20937a1ddced43f15e499e87989e76b7c3522b 151B

219b12959c186f6f0af393e6683d400d914cd4 224B

21dc2845bdddbe822864290c6b928396fc5ee8 321B

22bdb885a20135ac8da3a5d4b5472a194b1107 522B

23de2cb7db48651aba75b2c08656bc2f5881ac 153B

28eae42aa838d72ea7a62d5dfebb19244ce3d4 85B

2e00634884da9964ea59b3ba6c2b42767a7d01 85B

30021a03f76b24ccae63f95dda26f78d2a89c1 85B

31135c9d47c3c745ed6c130e789e7f95b5888c 1KB

31ce3df82e05d41b664a84d99abfe1a8e4dbfb 163B

3839cebbe7e8553aa32bdf8bdecfb309fc3c4a 151B

3ca4db8f375aaeb89cd3ca31dca07e5f3a92d5 4KB

3ea0cf7ff54b92aaae8370bd6873b60a70c694 224B

4096b6f083a75c3e2112abf38bb7f1747655b3 173B

41111e7fd41f4546554c40837753bd93538be5 85B

448b91458497d16f376166ae2c4d67577f1588 154B

4e0c4397d503259e2fc93949073be5cded1c01 85B

4f9781030019ab9b253c6dcb8c7878b6dc87a5 58KB

516edd73bfcf1583be7023e602e8c861ec04ff 85B

57df9c86200199267fdb3e6671068151f3a060 244B

5ba8c784abffc75a897c995d315aaee637450b 243B

5f4e180a438f8cccd7187c6dc2e6254c257a5d 153B

6987dd8cfbf24021f2b434a046d4f24a828e1e 652B

6c29fefefbf311b2fef78f54a84589b501c08e 2KB

709865f012bc3399d6d9b7edb6709df506b767 85B

7287efffff5c63a10dbea19c50384c64765b43 3KB

73079907fdc71399da3cc13b61e0901ff5c6e7 2KB

73f4c8f8fe9dad5a413316e599fcff85f73f91 294B

75a8c75f649bd054eb85b031eb64d012146da1 2KB

7ab54566e668e2b38d7867b7874b05e1ce0f0f 4KB

7e44b5964ba979f17236559e6dedbf4ce534cd 161B

8552f477c274b1fb4a9b45ab27c9788b62bd9b 85B

8d4730ea1bcd1f09a5467237b04b13c8ed2a3c 262B

91ac0ba2ff9ec6948322932d29cc73e83c7849 2KB

997f1cf0b059c8bcaaae314c161f3e58dfdc0a 154B

9bbcd1ceb633169549387e0648fb9240d53678 2KB

9fcde92e32081f9b4087609d294ae1df9ac9f5 85B

a1521ea6a3a24ac1190bb38315ba0d68974f1c 85B

a3e3d55890e6746a9347375c666eed6e49fdc4 85B

a6b605f11f0ad03577f74eb4e31837b1271875 189B

a924440c792cae399ebd3032a534baa3081d53 830B

a9904e7be72126f21a397bf5c80ef83e403649 151B

adb36fc52dacd186cc9ece139c02ecd826f98b 153B

b15d78ed968da1aa0340ae85a92127a20173d4 152B

c79504614abf98ae2ab187996849195ef80462 373B

c97e5072ab11832b025e9f8c4599539e9257ae 156B

ca1b2ac58df4c850ab1b5543b60c436c30d2a8 295B

cd0920e399c4ae343dcd58841a516ca27e067f 86B

cdf2cec8cea7d2db1916809de4bb4d2b4d12f3 188B

cffaf675f5befed051052120f39c62a3668239 4KB

config 279B

jd_faq.csv 701KB

d27cc79cbc4dbd19698a6050e2d053f2302dae 1KB

d41c76c1538c50d78f88c21d839f39ee97ac24 181B

d5095b89912716e89cacf885033f2f72672450 85B

d89d6a1be77300dc3667554fdc9a87ed6e8aae 154B

dd36f4e5f7ae2e7d77e1a9a9542ca9f187f087 154B

description 73B

dev 674KB

e2e8d8c7074a58bdb8272661028badd1f4735a 156B

e4af2d66b7977f6b4ad2b86deb34a6cf0c01fe 153B

eebb12d3fb3eff6536be10f9a25164c90c57c5 85B

ef5b32f47dea24e0678668deb66584ae76c386 85B

exclude 240B

f17cabb608b413546fd8c1526bbfcf16091963 2KB

.gitignore 520B

HEAD 206B

HEAD 30B

HEAD 21B

index 749B

SimCSE.ipynb 513KB

Nearest_neighbor_search_by_faiss-checkpoint.ipynb 11KB

Nearest_neighbor_search_by_faiss.ipynb 11KB

SimCSE-checkpoint.ipynb 72B

sup_loss.jpg 160KB

unsup_loss.jpg 121KB

cnsd_snli_v1.0.train.jsonl 135.11MB

cnsd_snli_v1.0.dev.jsonl 2.4MB

cnsd_snli_v1.0.test.jsonl 2.37MB

main 206B

main 41B

README.md 3KB

packed-refs 112B

simcse_unsup.py 9KB

simcse_sup.py 9KB

utils.py 5KB

共 127 条

![](https://img.shields.io/badge/license-MIT-blue.svg) ![](https://img.shields.io/badge/Python-3.6.12-blue.svg) ![](https://img.shields.io/badge/torch-1.7.0-brightgreen.svg) ![](https://img.shields.io/badge/transformers-4.4.1-brightgreen.svg) ![](https://img.shields.io/badge/scikitlearn-0.24.0-brightgreen.svg) ![](https://img.shields.io/badge/tqdm-4.49.0-brightgreen.svg) ![](https://img.shields.io/badge/jsonlines-2.0.0-brightgreen.svg) ![](https://img.shields.io/badge/loguru-0.5.3-brightgreen.svg) # SimCSE-Chinese-Pytorch SimCSE在中文上的复现，无监督 + 有监督 ### 1. 背景最近看了SimCSE这篇论文，便对论文做了pytorch版的复现和评测 - 论文：https://arxiv.org/pdf/2104.08821.pdf - 官方：https://github.com/princeton-nlp/SimCSE ### 2. 文件 ```shell > datasets 数据集文件夹 > cnsd-snli > STS-B > pretrained_model 各种预训练模型文件夹 > saved_model 微调之后保存的模型文件夹 data_preprocess.py snli数据集的数据预处理 simcse_sup.py 有监督训练 simcse_unsup.py 无监督训练 ``` ### 3. 使用需要将公开数据集和预训练模型放到指定目录下，并检查在代码中的位置是否对应 ```python # 预训练模型目录 BERT = 'pretrained_model/bert_pytorch' model_path = BERT # 微调后参数存放位置 SAVE_PATH = './saved_model/simcse_unsup.pt' # 数据目录 SNIL_TRAIN = './datasets/cnsd-snli/train.txt' STS_TRAIN = './datasets/STS-B/cnsd-sts-train.txt' STS_DEV = './datasets/STS-B/cnsd-sts-dev.txt' STS_TEST = './datasets/STS-B/cnsd-sts-test.txt' ``` 数据预处理(需要先执行此文件)： ```shell python data_preprocess.py ``` 无监督训练 ```shell python simcse_unsup.py ``` 有监督训练 ```shell python simcse_sup.py ``` ### 4. 下载数据集： - CNSD：https://github.com/pluto-junzeng/CNSD 预训练模型： - [BERT](https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-chinese.tar.gz) - [BERT-wwm](https://drive.google.com/file/d/1AQitrjbvCWc51SYiLN-cJq4e0WiNN4KY/view) - [BERT-wwm-ext](https://drive.google.com/file/d/1iNeYFhCBJWeUsIlnW_2K6SMwXkM4gLb_/view) - [RoBERTa-wwm-ext](https://drive.google.com/file/d/1eHM3l4fMo6DsQYGmey7UZGiTmQquHw25/view) ### 5. 测评测评指标为spearman相关系数无监督：batch_size=64，lr=1e-5，droupout_rate=0.3，pooling=cls，抽样10000样本 | 模型 | STS-B dev | STS-B test | | :-------------- | --------- | ---------- | | BERT | 0.7308 | 0.6725 | | BERT-wwm | 0.7229 | 0.6628 | | BERT-wwm-ext | 0.7271 | 0.6669 | | RoBERTa-wwm-ext | 0.7558 | 0.7141 | 有监督：batch_size=64，lr=1e-5，pooling=cls | 模型 | STS-B dev | STS-B test | 收敛所需样本数 | | :-------------- | --------- | ---------- | -------------- | | BERT | 0.8016 | 0.7624 | 23040 | | BERT-wwm | 0.8022 | 0.7572 | 16640 | | BERT-wwm-ext | 0.8081 | 0.7539 | 33280 | | RoBERTa-wwm-ext | 0.8135 | 0.7763 | 38400 | ### 6. 参考 - https://arxiv.org/pdf/2104.08821.pdf - 苏剑林. (Apr. 26, 2021). 《中文任务还是SOTA吗？我们给SimCSE补充了一些实验》[Blog post]. Retrieved from https://kexue.fm/archives/8348 - https://github.com/zhengyanzhao1997/NLP-model/tree/main/model/model/Torch_model/SimCSE-Chinese