【免费】大模型微调，使用intel资源微调chatglm

共182个文件

py：61个

md：22个

sh：15个

需积分: 0 102 浏览量 2024-06-25 15:25:08 上传评论收藏 45.9MB ZIP 举报

在IT行业中，大模型微调是一项关键的技术，它允许我们针对特定任务或领域优化预训练的语言模型，以提高其性能和效率。在这个场景中，我们关注的是如何利用Intel的资源来微调ChatGLM（可能是指ChatGPT-like Language Model）。ChatGLM是一种用于生成对话的大型语言模型，它可以理解自然语言，进行智能应答，为用户提供流畅的对话体验。下面将详细介绍大模型微调以及如何在Intel平台上进行这一过程。大模型微调的核心是基于预训练模型的进一步学习。预训练模型通常在大规模无标注文本上进行训练，掌握了通用的语言模式。然而，这些模型在特定任务或领域上可能表现不佳，因为它们没有针对这些特定需求进行优化。微调就是解决这个问题的方法，通过在小规模的有标注数据集上进行额外的训练，我们可以使模型更好地适应新的应用场景。 ChatGLM作为一款先进的对话生成模型，其微调过程主要包括以下步骤： 1. **数据准备**：需要收集与目标任务相关的数据集，比如对于一个聊天机器人，这可能是真实的用户对话记录。数据集应包含输入语句和相应的正确响应，以便模型学习正确的对话模式。 2. **模型选择**：ChatGLM模型通常很大，包含数十亿甚至数百亿个参数。选择合适的模型版本至关重要，考虑到Intel硬件，可能需要选择支持Intel优化的模型版本，以充分利用其计算能力。 3. **环境配置**：安装必要的深度学习框架，如PyTorch或TensorFlow，并确保它们与Intel的库（如OpenVINO，用于模型推理优化）兼容。这样可以提升训练和推理的效率。 4. **模型加载与微调**：加载预训练的ChatGLM模型，然后定义微调的损失函数和优化器。在有标注的数据集上进行训练，通常采用较小的学习率，以避免破坏预训练的权重。 5. **验证与调整**：在验证集上定期评估模型性能，根据结果调整超参数，如学习率、批次大小等。这有助于防止过拟合，确保模型在未见过的数据上也能表现良好。 6. **推理优化**：完成微调后，使用Intel的工具对模型进行优化，如模型剪枝、量化等，以减少内存占用和提高推理速度，这对于实时对话应用尤其重要。 7. **部署与监控**：将优化后的模型部署到生产环境，并持续监控其性能和用户体验，根据反馈进行迭代和优化。在“魔改机器人”这个文件中，可能包含了实现上述步骤的具体代码、配置文件或者日志记录，供开发者参考和学习。通过研究这些文件，开发者可以了解如何在实际操作中应用Intel的资源来优化ChatGLM模型，从而构建出更加高效且智能的对话系统。总结来说，大模型微调是提升预训练模型在特定任务中表现的关键步骤，而利用Intel的硬件和工具可以进一步加速这一过程，实现更好的性能和效率。对于ChatGLM这样的对话模型，微调不仅能提供更自然、流畅的对话体验，还能帮助模型更好地理解和响应用户的意图，提升人机交互的质量。

资源推荐

资源详情

资源评论

收起资源包目录

大模型微调，使用intel资源微调chatglm （182个子文件）

config 254B

description 73B

.DS_Store 8KB

.DS_Store 6KB

exclude 240B

code_en.gif 8.91MB

code_en-checkpoint.gif 8.91MB

web-demo2.gif 2.63MB

web-demo2-checkpoint.gif 2.63MB

web-demo.gif 2.18MB

web-demo-checkpoint.gif 2.18MB

.gitignore 165B

HEAD 201B

HEAD 30B

HEAD 21B

pack-5932a9b383b398ea9e22efca111c73ba2717a6e2.idx 19KB

index 9KB

finetune_muti_classfication.ipynb 115KB

finetune_muti_classfication-checkpoint.ipynb 115KB

accurate_prompt.ipynb 11KB

accurate_prompt-checkpoint.ipynb 10KB

wechat.jpg 151KB

wechat-checkpoint.jpg 151KB

his-checkpoint.json 2KB

545-checkpoint.json 2KB

deepspeed.json 489B

advertise_gen.jsonl 2KB

advertise_gen-checkpoint.jsonl 2KB

main 201B

main 41B

README_en.md 16KB

README-checkpoint.md 15KB

README.md 15KB

README.md 9KB

PROMPT_en.md 7KB

PROMPT.md 7KB

README_en.md 3KB

README-checkpoint.md 3KB

README.md 3KB

README-checkpoint.md 3KB

README.md 3KB

README-checkpoint.md 3KB

README.md 3KB

README-checkpoint.md 2KB

README.md 2KB

DEPLOYMENT_en.md 2KB

DEPLOYMENT.md 2KB

pr_template.md 2KB

说的-checkpoint.md 2KB

WECHAT.md 223B

WECHAT-checkpoint.md 223B

MODEL_LICENSE 4KB

pack-5932a9b383b398ea9e22efca111c73ba2717a6e2.pack 15.58MB

packed-refs 177B

demo.png 740KB

web-demo2.png 481KB

web-demo2-checkpoint.png 481KB

cli-demo.png 463KB

cli-demo-checkpoint.png 463KB

heart.png 377KB

heart-checkpoint.png 377KB

heart.png 377KB

tool.png 148KB

emojis.png 119KB

tool_en.png 44KB

demo_ci.py 12KB

openai_api.py 8KB

openai_api-checkpoint.py 8KB

utils.py 8KB

utils-checkpoint.py 8KB

client.py 8KB

demo_tool.py 7KB

arguments.py 6KB

finetune.py 6KB

finetune-checkpoint.py 6KB

finetune.py 6KB

preprocess_utils.py 6KB

arguments.py 5KB

arguments-checkpoint.py 5KB

web_demo.py 5KB

web_demo-checkpoint.py 5KB

openai_api_request.py 4KB

openai_api_request-checkpoint.py 4KB

conversation.py 4KB

ChatGLM3.py 4KB

ChatGLM3-checkpoint.py 4KB

tool_register.py 3KB

tool_register-checkpoint.py 3KB

tool_registry.py 3KB

cli_demo_tool.py 3KB

cli_demo_tool-checkpoint.py 3KB

cli_demo_bad_word_ids.py 3KB

cli_demo_bad_word_ids-checkpoint.py 3KB

openai_api_demo.py 3KB

openai_api_demo-checkpoint.py 3KB

web_demo2.py 3KB

web_demo2-checkpoint.py 3KB

共 182 条

# ChatGLM3 🤗 <a href="https://huggingface.co/THUDM/chatglm3-6b" target="_blank">HF Repo</a> • 🤖 <a href="https://modelscope.cn/models/ZhipuAI/chatglm3-6b" target="_blank">ModelScope</a> • 🐦 <a href="https://twitter.com/thukeg" target="_blank">Twitter</a> • 📃 <a href="https://arxiv.org/abs/2103.10360" target="_blank">[GLM@ACL 22]</a> <a href="https://github.com/THUDM/GLM" target="_blank">[GitHub]</a> • 📃 <a href="https://arxiv.org/abs/2210.02414" target="_blank">[GLM-130B@ICLR 23]</a> <a href="https://github.com/THUDM/GLM-130B" target="_blank">[GitHub]</a> 👋 加入我们的 <a href="https://join.slack.com/t/chatglm/shared_invite/zt-25ti5uohv-A_hs~am_D3Q8XPZMpj7wwQ" target="_blank">Slack</a> 和 <a href="resources/WECHAT.md" target="_blank">微信</a> 📍在 <a href="https://www.chatglm.cn">chatglm.cn</a> 体验更大规模的 ChatGLM 模型。 [Read this in English.](./README_en.md) 📔 更为详细的使用信息，可以参考：[ChatGLM3技术文档](https://lslfd0slxc.feishu.cn/wiki/WvQbwIJ9tiPAxGk8ywDck6yfnof?from=from_copylink) ## 介绍 ChatGLM3 是智谱AI和清华大学 KEG 实验室联合发布的新一代对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源模型，在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上，ChatGLM3-6B 引入了如下特性： 1. **更强大的基础模型：** ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示，**ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能**。 2. **更完整的功能支持：** ChatGLM3-6B 采用了全新设计的 [Prompt 格式](PROMPT.md)，除正常的多轮对话外。同时原生支持[工具调用](tool_using/README.md)（Function Call）、代码执行（Code Interpreter）和 Agent 任务等复杂场景。 3. **更全面的开源序列：** 除了对话模型 [ChatGLM3-6B](https://huggingface.co/THUDM/chatglm3-6b) 外，还开源了基础模型 [ChatGLM3-6B-Base](https://huggingface.co/THUDM/chatglm3-6b-base)、长文本对话模型 [ChatGLM3-6B-32K](https://huggingface.co/THUDM/chatglm3-6b-32k)。以上所有权重对学术研究**完全开放**，在填写[问卷](https://open.bigmodel.cn/mla/form)进行登记后**亦允许免费商业使用**。 ----- ChatGLM3 开源模型旨在与开源社区一起推动大模型技术发展，恳请开发者和大家遵守[开源协议](MODEL_LICENSE)，勿将开源模型和代码及基于开源项目产生的衍生物用于任何可能给国家和社会带来危害的用途以及用于任何未经过安全评估和备案的服务。目前，本项目团队未基于 **ChatGLM3 开源模型**开发任何应用，包括网页端、安卓、苹果 iOS 及 Windows App 等应用。尽管模型在训练的各个阶段都尽力确保数据的合规性和准确性，但由于 ChatGLM3-6B 模型规模较小，且模型受概率随机性因素影响，无法保证输出内容的准确。同时模型的输出容易被用户的输入误导。**本项目不承担开源模型和代码导致的数据安全、舆情风险或发生任何模型被误导、滥用、传播、不当利用而产生的风险和责任。** ## 模型列表 | Model | Seq Length | Download | :---: |:---------------------------:|:-----------------------------------------------------------------------------------------------------------------------------------: | ChatGLM3-6B | 8k | [HuggingFace](https://huggingface.co/THUDM/chatglm3-6b) \| [ModelScope](https://modelscope.cn/models/ZhipuAI/chatglm3-6b) | ChatGLM3-6B-Base | 8k | [HuggingFace](https://huggingface.co/THUDM/chatglm3-6b-base) \| [ModelScope](https://modelscope.cn/models/ZhipuAI/chatglm3-6b-base) | ChatGLM3-6B-32K | 32k | [HuggingFace](https://huggingface.co/THUDM/chatglm3-6b-32k) \| [ModelScope](https://modelscope.cn/models/ZhipuAI/chatglm3-6b-32k) ## 友情链接对 ChatGLM3 进行加速的开源项目： * [chatglm.cpp](https://github.com/li-plus/chatglm.cpp): 类似 llama.cpp 的量化加速推理方案，实现笔记本上实时对话 * [ChatGLM3-TPU](https://github.com/sophgo/ChatGLM3-TPU): 采用TPU加速推理方案，在算能端侧芯片BM1684X（16T@FP16，内存16G）上实时运行约7.5 token/s ## 评测结果 ### 典型任务我们选取了 8 个中英文典型数据集，在 ChatGLM3-6B (base) 版本上进行了性能测试。 | Model | GSM8K | MATH | BBH | MMLU | C-Eval | CMMLU | MBPP | AGIEval | |------------------|:-----:|:----:|:----:|:----:|:------:|:-----:|:----:|:-------:| | ChatGLM2-6B-Base | 32.4 | 6.5 | 33.7 | 47.9 | 51.7 | 50.0 | - | - | | Best Baseline | 52.1 | 13.1 | 45.0 | 60.1 | 63.5 | 62.2 | 47.5 | 45.8 | ChatGLM3-6B-Base | 72.3 | 25.7 | 66.1 | 61.4 | 69.0 | 67.5 | 52.4 | 53.7 | > Best Baseline 指的是截止 2023年10月27日、模型参数在 10B 以下、在对应数据集上表现最好的预训练模型，不包括只针对某一项任务训练而未保持通用能力的模型。 > 对 ChatGLM3-6B-Base 的测试中，BBH 采用 3-shot 测试，需要推理的 GSM8K、MATH 采用 0-shot CoT 测试，MBPP 采用 0-shot 生成后运行测例计算 Pass@1 ，其他选择题类型数据集均采用 0-shot 测试。我们在多个长文本应用场景下对 ChatGLM3-6B-32K 进行了人工评估测试。与二代模型相比，其效果平均提升了超过 50%。在论文阅读、文档摘要和财报分析等应用中，这种提升尤为显著。此外，我们还在 LongBench 评测集上对模型进行了测试，具体结果如下表所示 | Model | 平均 | Summary | Single-Doc QA | Multi-Doc QA | Code | Few-shot | Synthetic | |----------------------|:-----:|:----:|:----:|:----:|:------:|:-----:|:-----:| | ChatGLM2-6B-32K | 41.5 | 24.8 | 37.6 | 34.7 | 52.8 | 51.3 | 47.7 | | ChatGLM3-6B-32K | 50.2 | 26.6 | 45.8 | 46.1 | 56.2 | 61.2 | 65 | ## 使用方式 ### 环境安装首先需要下载本仓库： ```shell git clone https://github.com/THUDM/ChatGLM3 cd ChatGLM3 ``` 然后使用 pip 安装依赖： ``` pip install -r requirements.txt ``` + `transformers` 库版本应该 `4.30.2` 以及以上的版本，`torch` 库版本应为 2.0 及以上的版本，以获得最佳的推理性能。 + 为了保证 `torch` 的版本正确，请严格按照 [官方文档](https://pytorch.org/get-started/locally/) 的说明安装。 + `gradio` 库版本应该为 `3.x` 的版本。 ### 综合 Demo 我们提供了一个集成以下三种功能的综合 Demo，运行方法请参考 [综合 Demo](composite_demo/README.md) - Chat: 对话模式，在此模式下可以与模型进行对话。 - Tool: 工具模式，模型除了对话外，还可以通过工具进行其他操作。 <img src="resources/tool.png" width="400"> - Code Interpreter: 代码解释器模式，模型可以在一个 Jupyter 环境中执行代码并获取结果，以完成复杂任务。 <img src="resources/heart.png" width="400"> ### 代码调用可以通过如下代码调用 ChatGLM 模型来生成对话： ```python >>> from transformers import AutoTokenizer, AutoModel >>> tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True) >>> model = AutoModel.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True, device='cuda') >>> model = model.eval() >>> response, history = model.chat(tokenizer, "你好", history=[]) >>> print(response) 你好👋!我是人工智能助手 ChatGLM3-6B,很高兴见到你,欢迎问我任何问题。 >>> respons

评论收藏

内容反馈