中文nlp解决方案(大模型、数据、模型、训练、推理).zip资源-CSDN文库

共184个文件

py：59个

png：27个

ipynb：26个

版权申诉

人工智能

173 浏览量 2024-03-14 23:15:46 上传评论收藏 19.5MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

中文nlp解决方案(大模型、数据、模型、训练、推理) .zip （184个子文件）

ChnSentiCorp_htl_all.csv 2.77MB

mixtral_struct.drawio 427KB

llama_struct.drawio 51KB

投机模型.drawio 49KB

trainer_clm.drawio 15KB

.DS_Store 6KB

.gitignore 2KB

infer_encoder_decoder.ipynb 1.37MB

processdta_02.ipynb 65KB

processdta_02.ipynb 54KB

infer.ipynb 37KB

infer.ipynb 34KB

train_model_02.ipynb 32KB

train_encoder_decoder.ipynb 30KB

code02_训练模型全部流程.ipynb 25KB

inferv3.ipynb 21KB

code_01_processdata.ipynb 15KB

processdta_03.ipynb 10KB

code01_扩充词表.ipynb 10KB

train_chinese_gpt2.ipynb 8KB

proceess_data.ipynb 7KB

processdta_01.ipynb 6KB

infer_ft.ipynb 6KB

code_02_trainmodel.ipynb 6KB

infer_ptuning.ipynb 5KB

train_thuglm6b_hf.ipynb 4KB

process_data_01.ipynb 4KB

process_data.ipynb 4KB

infer.ipynb 3KB

infer_lora.ipynb 3KB

code01_gendata.ipynb 2KB

code_03_predict.ipynb 2KB

WechatIMG15931.jpeg 650KB

WechatIMG3534.jpeg 608KB

gpt2_chinese_info.jpeg 562KB

WechatIMG3535.jpeg 479KB

ca8400fa29e7302bde72c9108f74f78f.jpg 677KB

a923de3471e716b2f31f81cf5d594fe8.jpg 471KB

d14a752bce41fe613d6732b83c5861c1.jpg 292KB

38373adaf09c3bc179d7652f3ee9dacb.jpg 266KB

vit_architecture.jpg 173KB

gzh.jpg 27KB

data_0.json 60KB

data_1.json 54KB

launch.json 3KB

launch.json 2KB

default_offload_opt_param.json 1KB

launch.json 1008B

config.json 722B

ds_zero2_no_offload.json 686B

default_offlload_zero2.json 683B

default_offlload_zero2.json 489B

deepspeed.json 489B

tokenizer_config.json 422B

LICENSE 1KB

readme.md 11KB

readme.md 10KB

readme.md 8KB

README.md 7KB

README_en.md 7KB

readme.md 7KB

readme.md 6KB

readme.md 4KB

readme.md 3KB

readme.md 2KB

README.md 2KB

readme.md 2KB

readme.md 1KB

readme.md 556B

readme.md 50B

image001.png 2.89MB

image2.png 2MB

clip004.png 1.19MB

clip003.png 848KB

clip002.png 832KB

image2.png 830KB

截屏2023-03-22 19.06.22.png 695KB

vision-encoder-decoder.png 661KB

chinesegpt2_bot.png 608KB

clip001.png 373KB

chinesegpt2_data.png 367KB

截屏2023-03-22 19.08.54.png 276KB

image.png 190KB

共 184 条

# 📣注意这个文件夹作废，请查看隔壁的📁 `simple_thu_chatglm6b`📣📣 # 训练`thuglm-6b`模型 # `thuglm-6b`模型和`gpt2`模型的差异 ## loss部分 1. 查看了`thuglm-6b`模型源码，他的loss和`gpt2`等自回归模型的loss，基本上是一样的。(这里只是考虑自回归类型的训练) ```python # # 这是thuglm模型的loss if labels is not None: lm_logits = lm_logits.to(torch.float32) # Shift so that tokens < n predict n shift_logits = lm_logits[..., :-1, :].contiguous() shift_labels = labels[..., 1:].contiguous() # Flatten the tokens loss_fct = CrossEntropyLoss() loss = loss_fct(shift_logits.view(-1, shift_logits.size(-1)), shift_labels.view(-1)) lm_logits = lm_logits.to(hidden_states.dtype) loss = loss.to(hidden_states.dtype) ``` ```python # src/transformers/models/gpt2/modeling_gpt2.py 的class GPT2LMHeadModel(GPT2PreTrainedModel): # 这是gpt2的loss loss = None if labels is not None: # Shift so that tokens < n predict n shift_logits = lm_logits[..., :-1, :].contiguous() shift_labels = labels[..., 1:].contiguous() # Flatten the tokens loss_fct = CrossEntropyLoss() loss = loss_fct(shift_logits.view(-1, shift_logits.size(-1)), shift_labels.view(-1)) ``` ## 代码风格 1. `thuglm-6b`源码和`transformers`包的`gpt2`源码，长得非常像，设计模式是一摸一样的。从工程角度来看，你只要看过`gpt2` 的源码，看懂了，那么`thuglm-6b`的代码框架对你来说肯定不难。 2. 数学角度来说，这个我没有看过两个模型的论文，不敢胡说，这部分我就不解释了。 ## 数据角度 1. `thuglm-6b`模型和`transformers`包的`gpt2`源码里面的模型，在`forward`方法里面，需要的参数，基本上是保持一致的，因此。需要的数据样式，也都差不多。 2. 那么虽然现在`thuglm-6b`还没有所谓的`thuglmForSequenceClassification`、`thuglmForTokenClassification` 等方法，但是直接模仿`gpt2`的风格来写，就行了。就是`loss`更改一下，下游层更改一下。 ## 本人对`thuglm-6b`模型的态度 1. `thuglm-6b` 模型，最近太火了，而且在中文语言的表现上，效果非常好[https://github.com/THUDM/ChatGLM-6B](https://github.com/THUDM/ChatGLM-6B) ，使用int8还可以在小显存上进行推理，非常amazing。 2. 目前，很难在在市面上找到非常好的中文`gpt2`模型，可能是数据方面的问题，或者机器方面的问题。 3. 在我眼里，我其实就是把他当成一个在中文领域表现非常好的`gpt2`模型而已。（抛开别的条件不谈）。 # 训练`thuglm-6b`模型 | 序号 | 介绍 | 文件夹 | 是否已完成 | 是否还有bug | |-----|------------------------------------------|------------------------|-------|---------| | 1 | 使用lora算法对`thuglm-6b`微调 | `v1_train_thuglm-lora` | ☑️ | ✅ | | 2 | 使用`transformers`的`Trainer`对`thuglm-6b`微调 | `v2_train_thuglm` | ☑️ | ✅ | ## 1. 使用lora微调`thuglm-6b`模型文件夹为`v1_train_thuglm-lora` <details><summary>序号1</summary> 1.目前，训练一个`thuglm-6b`模型，还是比较费劲的（我还没试过，目前都在传使用lora方法来进行训练）。那也就跟风写一个教程。 2. 文本，将介绍如何使用`peft`[https://github.com/huggingface/peft](https://github.com/huggingface/peft) 包（这个包实现了`lora`算法）、对`thuglm-6b`进行微调。 3. 硬件设备是3090（显存为24G）。 4. 包括数据整理、模型转换、训练加载等详细步骤。 ### 数据部分在前面也说到，`thuglm-6b`的`ChatGLMForConditionalGeneration`loss和`gpt2`的`GPT2LMHeadModel`loss是差不多的，都是自回归模型，就是名字不一样而已。因此，可以看看我的`chinese-gpt2`模型训练的数据要求。 <details><summary>chinese-gpt2模型数据</summary> #### 数据来源 1. 获得数据:数据链接，关注公众号【`统计学人`】，然后回复【`gpt2`】即可获得。 #### 数据格式 1. 数据其实就是一系列文件夹📁，然后每一个文件夹里面有大量的文件，每一个文件都是`.csv`格式的文件。其中有一列数据是`content` 2. 每一行的`content`就代表一句话,截图如下 <img src="https://github.com/yuanzhoulvpi2017/zero_nlp/raw/main/images/chinesegpt2_data.png"/> 3. 虽然数据有15GB那么大，但是处理起来一点也不复杂，使用 `datasets` 包，可以很轻松的处理大数据，而我只需要传递所有的文件路径即可，这个使用 `glob` 包就能完成。 </details> 当然，也可以直接生成一个数据，可以这么写 ```python import numpy as np import pandas as pd import os data_dir = "data" os.makedirs(name=data_dir, exist_ok=True) for i in range(20): data = pd.DataFrame({'sentence': [ 'ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于 [General Language Model (GLM)](https://github.com/THUDM/GLM) 架构，具有 62 亿参数。结合模型量化技术，'] * 100}) data.to_csv(f"{data_dir}/{i}.csv", index=False) ``` #### 数据注意事项 1. 只要注意，你的数据里面是有一列是文本，这个文本不需要任何标签。比如一列为`sentence`，或者叫`content`。这就可以了。 2. 我们数据加载使用的是`huggingface`的`datasets`包，虽然我们这里使用的是`csv`文件，但是，实际上，你使用`json`格式的数据，都是可以的。 3. 训练大模型，需要的数据肯定也是非常大，担心自己不能处理几百G的数据么？其实不用担心，你只要传递所有的数据的路径即可。剩下的，就可以靠`datasets` 来帮你解决。他会自动对数据做处理，并且对数据所在的位置做内存映射，处理大数据简直是轻飘飘。这里展示一下加载数据的细节 ```python from glob import glob from datasets import load_dataset all_data_list = glob("v1_train_thuglm_lora/data/*")[:10] # 如果数据大，把这个列表变长一点就行了。 dataset = load_dataset( "csv", data_files={ "train": all_data_list[:6], "validation": all_data_list[6:], }, ) ``` ### 模型训练 1. `lora`这个算法，已经在`peft`包中实现了。 2. 我看很多人为了使用他，包装了很多代码，实在是看不下去了。这里给一个简单的版本。 3. 这个版本，是模仿`peft`包里面的`examples`的`peft_lora_seq2seq_accelerate_fsdp.py` 文件写的。因此，在处理tokenizer的部分，可能不太对，但是基本上训练流程已经跑通了。 4. 虽然也是跑通了，但是具体细节上，我还是对`thuglm` 模型做了修改，主要是为了解决`RuntimeError: expected scalar type Half but found Float`问题。有些人可能会问，`lora`也没对`thuglm`这类型的模型做支持啊，你这么用，难道不会有问题么？ <details><summary>基本上是不会有问题的</summary> 1. 查看`lora.py`源码,在`target_modules`里面，有列举了`['q', 'v']`。 ```python # src/peft/tuners/lora.py @dataclass class LoraConfig(PeftConfig): """ This is the configuration class to store the configuration of a [`~peft.Lora`]. Args: r (`int`): Lora attention dimension target_modules (`Union[List[str],str]`): The names of the modules to apply Lora to. lora_alpha (`float`): The alpha parameter for Lora scaling. lora_dropout (`float`): The dropout probability for Lora layers. merge_weights (`bool`): Whether to merge the weights of the Lora layers with the base transformer model in `eval` mode. fan_in_fan_out (`bool`): Set this to True if the layer to replace stores weight l

评论收藏

内容反馈

版权申诉