基于夸夸闲聊数据的UniLM模型实战.zip_大模型微调实战营资源-CSDN文库

共19个文件

py：8个

txt：4个

json：3个

版权申诉

86 浏览量 2024-03-23 13:29:40 上传评论收藏 380KB ZIP 举报

《基于夸夸闲聊数据的UniLM模型实战》在当今人工智能领域，生成式AI模型如ChatGPT已经成为研究和应用的热点。本项目聚焦于利用ChatGPT类似技术进行二次开发，通过私有部署的模型，实现更个性化的对话系统。其中，UniLM（Unified Language Model Pre-training）模型扮演了核心角色，它是一种先进的预训练语言模型，旨在理解和生成高质量的自然语言文本。 UniLM，全称为统一语言模型预训练，由微软和斯坦福大学共同研发。该模型的一大创新之处在于其双向训练能力。传统的预训练模型如BERT只能进行单向预测，而UniLM则能在同一序列中执行前向和后向预测，增强了模型的灵活性和泛化能力。这对于处理闲聊、问答等多向性交流任务具有显著优势。在本项目中，我们利用夸夸闲聊数据集对UniLM进行训练。这类数据集包含了大量的日常对话内容，有助于模型理解和生成自然、流畅的人际交流语言。为了确保模型训练的有效性，我们需要首先进行数据预处理，包括清洗、标注和分词，以便模型能更好地学习到语料中的模式和结构。环境搭建是项目实施的关键步骤。开发者需要安装必要的库，例如PyTorch或TensorFlow，这些深度学习框架为训练和部署UniLM模型提供了支持。此外，还需要设置GPU环境，因为大型预训练模型的计算需求较高。在项目中提供的环境搭建教程将引导用户完成这一过程，确保所有依赖项正确安装并配置。源码部分包含了模型训练、微调以及交互式对话系统的实现。在训练阶段，代码会利用预处理后的夸夸闲聊数据调整UniLM参数，优化模型性能。微调阶段，根据特定的应用场景，可以对模型进行定制化调整，以适应更复杂的对话情境。交互式对话系统将训练好的模型与用户接口结合，允许用户输入问题或开启闲聊，模型则基于学习到的知识和语言模式生成回应。这个项目不仅展示了如何基于生成式AI技术构建闲聊对话系统，还提供了一个实践UniLM模型的机会，让开发者能够深入理解预训练模型的工作原理，并且有机会探索个性化对话的实现方式。通过参与这个项目，不仅可以提升AI开发技能，还能体验到前沿技术在日常生活中的应用潜力。对于对自然语言处理感兴趣的开发者和研究人员来说，这是一个极具价值的学习资源。

资源推荐

资源详情

资源评论

收起资源包目录

基于夸夸闲聊数据的UniLM模型实战.zip （19个子文件）

基于夸夸闲聊数据的UniLM模型实战

dirty_recognize.py 1KB

data

sample.json 446B

dirty_words.txt 240KB

trie.py 2KB

pretrain_model

config.json 520B

vocab.txt 107KB

data_helper.py 4KB

modeling_unilm.py 13KB

chatbot.py 5KB

data_set.py 9KB

requirements.txt 88B

configuration_unilm.py 2KB

images

3_3.png 42KB

3_2.png 17KB

3_1.png 86KB

train.py 8KB

README.md 4KB

kuakua_robot_model

config.json 520B

vocab.txt 107KB

本项目为书籍《ChatGPT原理与实战：大型语言模型的算法、技术和私有化》中第3章《预训练语言模型》实战部分代码-基于夸夸闲聊数据的UniLM模型实战。 ## 项目简介针对夸夸闲聊数据集，利用UniLM模型进行模型训练及测试，更深入地了解预训练语言模型的使用方法，完成一个生成式闲聊机器人任务。项目主要结构如下： - data 存放数据的文件夹 - dirty_word.txt 敏感词数据 - douban_kuakua_qa.txt 原始语料 - sample.json 处理后的语料样例 - kuakua_robot_model 已训练好的模型路径 - config.json - pytorch_model.bin - vocab.txt - pretrain_model UniLm预训练文件路径 - config.json - pytorch_model.bin - vocab.txt - chatbot.py 模型推理文件 - configuration_unilm.py UniLm配置文件 - data_helper.py 数据预处理文件 - data_set.py 数据类文件 - modeling_unilm.py UniLm模型文件 - train.py 模型训练文件 - dirty_recognize.py 敏感词检测文件注意：由于GitHub不方便放模型文件，因此data文件中douban_kuakua_qa.txt文件、kuakua_robot_model文件夹和pretrain_model文件夹中的模型bin文件，请从百度云盘中下载。 | 文件名称 | 下载地址 | 提取码 | | --- |--- |---| | pretrain_model | [百度云](https://pan.baidu.com/s/1sA9xf5ikjwDqXj9b7o4G8g) | 7h4a | | kuakua_robot_model |[百度云](https://pan.baidu.com/s/1DFw4P8o1iVBeUgKKVufrFA) |j954| | data |[百度云](https://pan.baidu.com/s/1cSagWQTYRUICq7Wr5NIVIA) |3sz3| 由于敏感词表中包含大量敏感词，导致百度云的data链接会失效，因此将敏感词之间放到项目的data目录下。 ## 环境配置模型训练或推理所需环境，请参考requirements.txt文件。 ## 数据处理数据预处理需要运行data_helper.py文件，会在data文件夹中生成训练集和测试集文件。命令如下： ```shell python3 data_helper.py ``` 注意：如果需要修改数据生成路径或名称，请修改data_helper.py文件147-150行，自行定义。 ## 模型训练模型训练需要运行train.py文件，会自动生成output_dir文件夹，存放每个epoch保存的模型文件。命令如下： ```shell python3 train.py --device 0 \ --data_dir "data/" \ --src_file "train.json" \ --model_name_or_path "pretrain_model/" \ --max_seq_length 256 \ --train_batch_size 16 \ --num_train_epochs 10 ``` 注意：当服务器资源不同或读者更换数据等时，可以在模型训练时修改响应参数，详细参数说明见代码或阅读书3.5.4小节。模型训练示例如下： ![img.png](images/3_1.png) 模型训练阶段损失值变化如下： ![img.png](images/3_2.png) ## 模型推理模型训练需要运行chatbot.py文件，可以采用项目中以提供的模型，也可以采用自己训练后的模型。命令如下： ```shell python3 chatbot.py --device 0 --topk 3 --topp 0.95 --max_len 32 ``` 注意：如果修改模型路径，请修改--model_path参数。模型推理示例如下： ![img.png](images/3_3.png) ```text USER:工作不开心 CHAT-BOT:我也是，不过现在开始努力找工作啦！一起加油鸭～ USER:工作不开心 CHAT-BOT:那就祝福你，能找到喜欢的工作吧。 USER:工作不开心 CHAT-BOT:你也要加油鸭！ USER:工作不开心 CHAT-BOT:我也是，不过总有一天就会好起来的样例2 USER:我分手了 CHAT-BOT:分手快乐，你会遇到更好的。 USER:我分手了 CHAT-BOT:旧的不去新的不来，你会遇见更好的 USER:我分手了 CHAT-BOT:分的好，下一个更乖样例3 USER:好想去吃火锅，但是我在减肥 CHAT-BOT:你好棒！一定会瘦下来的！ USER:好像去吃火锅，但是我在减肥 CHAT-BOT:吃火锅是为了能更好的减肥，你真棒！ ``` ## 总结本项目中的代码包含大量的注释信息，帮助读者更容易的阅读代码、以及了解其原理。读者跑通代码的后，可以根据自己特定的任务，定向修改配置参数或代码，实现自己响应的功能。

评论收藏

内容反馈

版权申诉