深度学习实战11(进阶版)-BERT模型的微调应用-文本分类案例.zip资源-CSDN文库

共2个文件

py：1个

csv：1个

版权申诉

116 浏览量 2023-08-24 09:49:09 上传评论收藏 1.35MB ZIP 举报

在本资源包中，我们关注的是深度学习领域的一个热门话题：BERT（Bidirectional Encoder Representations from Transformers）模型的微调及其在文本分类任务中的应用。BERT是Google在2018年提出的一种预训练语言模型，它通过Transformer架构实现了对上下文的双向理解，从而在各种自然语言处理任务上取得了显著的性能提升。让我们深入了解BERT模型。BERT的基本思想是通过无监督学习在大规模语料库上预先训练模型，然后针对特定任务进行微调。预训练阶段，BERT采用了两种任务：Masked Language Model（MLM）和Next Sentence Prediction（NSP）。MLM是在输入序列中随机掩蔽一部分词，让模型预测被遮掩的词；NSP则是判断两个句子是否为连续的，用于学习句子间的连贯性。文件"bert_model.py"很可能是实现BERT模型微调的核心代码。在这个文件中，可能包括了以下内容： 1. BERT模型的加载：利用transformers库（如Hugging Face的库）加载预训练的BERT模型。 2. 数据预处理：将原始文本转化为BERT模型可接受的输入格式，如Token IDs、Segment IDs和Attention Masks。 3. 微调配置：设置学习率、优化器、损失函数等参数，定义训练和验证循环。 4. 训练和评估：使用微调后的模型对数据集进行训练，并在验证集上评估模型性能。 5. 模型保存：将训练好的模型权重保存，以便后续使用。数据集部分，虽然未提供具体的数据集文件内容，但可以推测"数据"目录下包含训练集和验证集的文本数据，以及可能的标注信息。在文本分类任务中，数据集通常由多条带有标签的文本组成，每条文本对应一个类别，例如情感分析中的正面、负面或中性。在使用这个实战项目时，你需要： 1. 安装必要的库，如transformers、torch等。 2. 理解并调整"bert_model.py"中的配置，如模型参数、学习率、批次大小等，以适应你的硬件资源和任务需求。 3. 准备或调整数据集，确保其符合代码中预处理的格式要求。 4. 运行代码，进行模型训练和验证。 5. 分析模型的性能，根据结果进行模型调整或进一步的超参数优化。这个实战项目不仅提供了实践经验，还帮助你了解如何将预训练的BERT模型应用于实际问题，以及如何在深度学习框架中实现文本分类任务。对于想要提升深度学习和自然语言处理技能的人来说，这是一个非常有价值的资源。

资源推荐

资源详情

资源评论

收起资源包目录

深度学习实战11(进阶版)-BERT模型的微调应用-文本分类案例.zip （2个子文件）

data

train.csv 2.89MB

bert_model.py 5KB

import torch from datasets import load_dataset import torch.nn.functional as F from transformers import BertTokenizer # 加载字典和分词工具 token = BertTokenizer.from_pretrained('bert-base-chinese') # 定义数据集 class Dataset(torch.utils.data.Dataset): def __init__(self, split): self.dataset = load_dataset(path='data', split=split) def __len__(self): return len(self.dataset) def __getitem__(self, i): text = self.dataset[i]['text'] label = self.dataset[i]['label'] return text, label dataset = Dataset('train') print(len(dataset), dataset[0]) def collate_fn(data): sents = [i[0] for i in data] labels = [i[1] for i in data] # 编码 data = token.batch_encode_plus(batch_text_or_text_pairs=sents, truncation=True, padding='max_length', max_length=500, return_tensors='pt', return_length=True) # input_ids:编码之后的数字 # attention_mask:是补零的位置是0,其他位置是1 input_ids = data['input_ids'] attention_mask = data['attention_mask'] token_type_ids = data['token_type_ids'] labels = torch.LongTensor(labels) # print(data['length'], data['length'].max()) return input_ids, attention_mask, token_type_ids, labels # 数据加载器 loader = torch.utils.data.DataLoader(dataset=dataset, batch_size=10, collate_fn=collate_fn, shuffle=True, drop_last=True) for i, (input_ids, attention_mask, token_type_ids, labels) in enumerate(loader): break print(len(loader)) print(input_ids.shape, attention_mask.shape, token_type_ids.shape, labels) from transformers import BertModel # 加载预训练模型 pretrained = BertModel.from_pretrained('bert-base-chinese') # 不训练,不需要计算梯度 for param in pretrained.parameters(): param.requires_grad_(False) # 模型试算 out = pretrained(input_ids=input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids) print(out.last_hidden_state.shape) # 定义下游任务模型 class Model(torch.nn.Module): def __init__(self): super().__init__() self.fc = torch.nn.Linear(768, 2) # 可加入CNN卷积层，可以自行操作 # self.conv1D = torch.nn.Conv1d(in_channels=500, out_channels=500, kernel_size=1) # self.MaxPool1D = torch.nn.MaxPool1d(4, stride=2) # self.Dropout = torch.nn.Dropout(p=0.5, inplace=False) def forward(self, input_ids, attention_mask, token_type_ids): with torch.no_grad(): out = pretrained(input_ids=input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids) out = self.fc(out.last_hidden_state[:, 0]) out = out.softmax(dim=1) print(out.shape) return out model = Model() print(model) # model.summary() model(input_ids=input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids).shape from transformers import AdamW # 训练 optimizer = AdamW(model.parameters(), lr=5e-4) criterion = torch.nn.CrossEntropyLoss() model.train() epochs = 30 for i, (input_ids, attention_mask, token_type_ids, labels) in enumerate(loader): out = model(input_ids=input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids) loss = criterion(out, labels) loss.backward() optimizer.step() optimizer.zero_grad() if i % 1 == 0: out = out.argmax(dim=1) accuracy = (out == labels).sum().item() / len(labels) print('epochs:', i, 'loss:', loss.item(), 'accuracy:', accuracy) if i == epochs: torch.save(model, 'text_classfiy.model') # model_load = torch.load('model/命名实体识别_中文.model') break # 测试函数 def test(): model.eval() correct = 0 total = 0 loader_test = torch.utils.data.DataLoader(dataset=Dataset('validation'), batch_size=10, collate_fn=collate_fn, shuffle=True, drop_last=True) for i, (input_ids, attention_mask, token_type_ids, labels) in enumerate(loader_test): if i == 5: break with torch.no_grad(): out = model(input_ids=input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids) out = out.argmax(dim=1) correct += (out == labels).sum().item() total += len(labels) print(correct / total)

评论收藏

内容反馈

版权申诉