【免费】chatglm训练后模型资源-CSDN文库

共114个文件

py：34个

md：19个

json：12个

需积分: 0 57 浏览量 2024-05-29 13:02:48 上传评论收藏 80.2MB ZIP 举报

ChatGLM，全称为“对话逻辑模态”（Chat Logic Modal），是一种用于构建聊天机器人的模型，它结合了自然语言处理（NLP）和逻辑推理的技术，以实现更智能、更贴近人类对话的方式。在训练完成后，ChatGLM模型能够理解和生成与用户交互的自然语言文本，提供个性化的对话体验。在“chatglm训练后模型”中，我们关注的核心知识点包括： 1. **模型训练**：ChatGLM模型的训练过程通常涉及大量的语料库数据，这些数据包含了各种类型的对话记录。通过深度学习算法，如Transformer或BERT等预训练模型，ChatGLM会学习到语言的模式和结构，同时根据对话历史进行上下文理解。 2. **自然语言处理**：ChatGLM模型利用NLP技术来解析用户的输入，识别出意图、实体以及句子的语法结构。这包括词性标注、命名实体识别、句法分析等任务，为后续的对话生成提供基础。 3. **逻辑推理**：不同于传统的基于规则的对话系统，ChatGLM引入了逻辑推理能力，使模型能理解并处理复杂的对话情境，比如条件、因果关系和假设情况。这种推理能力使得聊天机器人能够做出更合理、连贯的回应。 4. **对话管理**：模型需要一个有效的对话管理系统来跟踪对话历史，确保回复与之前的对话上下文一致。这涉及到对话状态的维护，以及如何根据当前状态选择合适的回应策略。 5. **生成式对话**：ChatGLM模型的训练目标是生成与输入相匹配的高质量回复。这一过程涉及到文本生成技术，模型可能使用自注意力机制或者Decoder部分来生成新的句子，力求使生成的对话内容既自然又具有信息量。 6. **评估与优化**：模型训练完成后，会通过多种评估指标，如BLEU、ROUGE、METEOR等，来衡量其生成对话的质量。同时，为了不断改进模型性能，可能还需要进行迭代训练和微调，以适应特定领域的对话场景。 7. **部署与应用**：训练好的ChatGLM模型可以应用于各种场景，如客服聊天机器人、虚拟助手、在线教育平台等，提供24小时不间断的服务，提高用户体验和效率。 8. **数据集**：标签中提到的“数据集”是指用于训练和测试ChatGLM模型的大量对话数据。这些数据通常包括多轮对话记录，涵盖不同的话题和领域，以确保模型具备泛化能力。 “chatglm训练后模型”是一个综合了自然语言处理、逻辑推理和生成式对话等技术的先进模型，旨在提供更智能、更人性化的对话体验。它的成功应用依赖于高质量的训练数据、合理的模型架构以及持续的优化和调整。

资源推荐

资源详情

资源评论

收起资源包目录

chatglm训练后模型（114个子文件）

events.out.tfevents.1716550956.dsw-380497-fb67d649-m486b.398.0 525KB

events.out.tfevents.1716546588.dsw-380497-5d789996bf-9csk9.17022.0 222KB

events.out.tfevents.1716524702.dsw-380497-5d789996bf-9csk9.426.0 222KB

events.out.tfevents.1716549653.dsw-380497-5d789996bf-9csk9.19091.0 72KB

events.out.tfevents.1716392458.dsw-380497-6cd44cb544-xh8f9.1938.0 72KB

events.out.tfevents.1716538585.dsw-380497-5d789996bf-9csk9.5787.0 71KB

events.out.tfevents.1716734521.dsw-380497-f584b8955-vmqtv.441.0 8KB

events.out.tfevents.1716904267.dsw-380497-55c76cf755-zrd4b.2688.0 7KB

events.out.tfevents.1716736847.dsw-380497-846c594697-l5x5x.356.0 7KB

training_args.bin 6KB

code_en.gif 8.91MB

web-demo2.gif 2.63MB

web-demo.gif 2.18MB

lora_finetune.ipynb 72KB

lossͼ.ipynb 59KB

wechat.jpg 151KB

train2.json 3.23MB

dev2.json 3.23MB

dev1.json 1.53MB

train1.json 1.52MB

trainer_state.json 384KB

trainer_state.json 256KB

trainer_state.json 128KB

ds_zero_3.json 771B

ds_zero_2.json 728B

adapter_config.json 636B

LICENSE 11KB

README_en.md 22KB

README.md 21KB

README_en.md 15KB

README.md 14KB

PROMPT_en.md 7KB

README.md 7KB

PROMPT.md 7KB

README.md 5KB

README.md 4KB

README_en.md 3KB

README.md 3KB

DEPLOYMENT_en.md 2KB

DEPLOYMENT.md 2KB

README.md 883B

WECHAT.md 223B

MODEL_LICENSE 4KB

demo.png 740KB

web-demo2.png 481KB

cli-demo.png 463KB

heart.png 377KB

tool.png 148KB

emojis.png 119KB

tool_en.png 44KB

optimizer.pt 14.92MB

scheduler.pt 1KB

rng_state.pth 14KB

finetune_hf.py 20KB

api_server.py 18KB

demo_ci.py 13KB

tensorrt_llm_cli_demo.py 11KB

demo_tool.py 8KB

client.py 8KB

web_demo_gradio.py 6KB

utils.py 6KB

openvino_cli_demo.py 5KB

ChatGLM3.py 5KB

cli_demo_tool.py 4KB

tool_registry.py 4KB

conversation.py 4KB

main.py 4KB

tool_register.py 4KB

cli_demo_bad_word_ids.py 3KB

cli_batch_request_demo.py 3KB

openai_api_demo.py 3KB

chatglm3_web_demo.py 3KB

openai_api_request.py 3KB

demo_chat.py 3KB

web_demo_streamlit.py 3KB

openai_api_request.py 3KB

main.py 3KB

generate.py 3KB

Calculator.py 2KB

cli_demo.py 2KB

DistanceConversion.py 2KB

inference_hf.py 2KB

共 114 条

# ChatGLM3 🤗 <a href="https://huggingface.co/THUDM/chatglm3-6b" target="_blank">HF Repo</a> • 🤖 <a href="https://modelscope.cn/models/ZhipuAI/chatglm3-6b" target="_blank">ModelScope</a> • 🤖 <a href="https://www.wisemodel.cn/models/ZhipuAI/chatglm3-6b" target="_blank">WiseModel</a> • 🧰 <a href="https://openxlab.org.cn/models/hot/THUDM" target="_blank">OpenXLab</a> • 🐦 <a href="https://twitter.com/thukeg" target="_blank">Twitter</a> • 📃 <a href="https://arxiv.org/abs/2103.10360" target="_blank">[GLM@ACL 22]</a> <a href="https://github.com/THUDM/GLM" target="_blank">[GitHub]</a> • 📃 <a href="https://arxiv.org/abs/2210.02414" target="_blank">[GLM-130B@ICLR 23]</a> <a href="https://github.com/THUDM/GLM-130B" target="_blank">[GitHub]</a> 👋 加入我们的 <a href="https://join.slack.com/t/chatglm/shared_invite/zt-25ti5uohv-A_hs~am_D3Q8XPZMpj7wwQ" target="_blank">Slack</a> 和 <a href="resources/WECHAT.md" target="_blank">微信</a> 📍在 <a href="https://www.chatglm.cn">chatglm.cn</a> 体验更大规模的 ChatGLM 模型。 [Read this in English.](./README_en.md) 📔 关于`ChatGLM3-6B` 更为详细的使用信息，可以参考 + [ChatGLM3 开放技术文档](https://lslfd0slxc.feishu.cn/wiki/WvQbwIJ9tiPAxGk8ywDck6yfnof?from=from_copylink) + [Bilibili video](https://www.bilibili.com/video/BV1uC4y1J7yA) + [YouTube video](https://www.youtube.com/watch?v=Pw9PB6R7ORA) ## GLM-4 介绍我们已经发布最新的 **GLM-4** 模型，该模型在多个指标上有了新的突破，您可以在以下两个渠道体验我们的最新模型。 + [智谱清言](https://www.chatglm.cn) 体验最新版 GLM-4，包括 **GLMs，All tools**等功能，下载智谱清言 APP 或者使用 [网页端](https://www.chatglm.cn)。 + [API平台](https://open.bigmodel.cn/) 新一代 API 平台已经上线，您可以直接在 API 平台上体验 `GLM-4`、`GLM-3-Turbo`、`CharacterGLM-3`，`CogView-3` 等新模型。其中`GLM-4`、`GLM-3-Turbo`两个模型支持了 `System Prompt`、`Function Call`、 `Retrieval`、`Web_Search`等新功能，欢迎体验。 + [GLM4 API 开源教程](https://github.com/MetaGLM/glm-cookbook/) GLM-4 API教程和基础应用，欢迎尝试。 API相关问题可以在本开源教程疑问，或者使用[GLM-4 API AI助手](https://open.bigmodel.cn/shareapp/v1/?share_code=sQwt5qyqYVaNh1O_87p8O) 来获得常见问题的帮助。 ----- ## ChatGLM3 介绍 **ChatGLM3** 是智谱AI和清华大学 KEG 实验室联合发布的对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源模型，在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上，ChatGLM3-6B 引入了如下特性： 1. **更强大的基础模型：** ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示，* *ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能**。 2. **更完整的功能支持：** ChatGLM3-6B 采用了全新设计的 [Prompt 格式](PROMPT.md) ，除正常的多轮对话外。同时原生支持[工具调用](tools_using_demo/README.md)（Function Call）、代码执行（Code Interpreter）和 Agent 任务等复杂场景。 3. **更全面的开源序列：** 除了对话模型 [ChatGLM3-6B](https://huggingface.co/THUDM/chatglm3-6b) 外，还开源了基础模型 [ChatGLM3-6B-Base](https://huggingface.co/THUDM/chatglm3-6b-base) 、长文本对话模型 [ChatGLM3-6B-32K](https://huggingface.co/THUDM/chatglm3-6b-32k) 和进一步强化了对于长文本理解能力的 [ChatGLM3-6B-128K](https://huggingface.co/THUDM/chatglm3-6b-128k)。以上所有权重对学术研究**完全开放** ，在填写 [问卷](https://open.bigmodel.cn/mla/form) 进行登记后**亦允许免费商业使用**。 ----- ChatGLM3 开源模型旨在与开源社区一起推动大模型技术发展，恳请开发者和大家遵守 [开源协议](MODEL_LICENSE) ，勿将开源模型和代码及基于开源项目产生的衍生物用于任何可能给国家和社会带来危害的用途以及用于任何未经过安全评估和备案的服务。目前，本项目团队未基于 **ChatGLM3 开源模型**开发任何应用，包括网页端、安卓、苹果 iOS 及 Windows App 等应用。尽管模型在训练的各个阶段都尽力确保数据的合规性和准确性，但由于 ChatGLM3-6B 模型规模较小，且模型受概率随机性因素影响，无法保证输出内容的准确。同时模型的输出容易被用户的输入误导。* *本项目不承担开源模型和代码导致的数据安全、舆情风险或发生任何模型被误导、滥用、传播、不当利用而产生的风险和责任。** ## 模型列表 | Model | Seq Length | Download | |:----------------:|:----------:|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------:| | ChatGLM3-6B | 8k | [HuggingFace](https://huggingface.co/THUDM/chatglm3-6b) \| [ModelScope](https://modelscope.cn/models/ZhipuAI/chatglm3-6b) \| [WiseModel](https://www.wisemodel.cn/models/ZhipuAI/chatglm3-6b) \| [OpenXLab](https://openxlab.org.cn/models/detail/THUDM/chatglm3-6b) | | ChatGLM3-6B-Base | 8k | [HuggingFace](https://huggingface.co/THUDM/chatglm3-6b-base) \| [ModelScope](https://modelscope.cn/models/ZhipuAI/chatglm3-6b-base) \| [WiseModel](https://www.wisemodel.cn/models/ZhipuAI/chatglm3-6b-base) \| [OpenXLabl](https://openxlab.org.cn/models/detail/THUDM/chatglm3-6b-base)| | ChatGLM3-6B-32K | 32k | [HuggingFace](https://huggingface.co/THUDM/chatglm3-6b-32k) \| [ModelScope](https://modelscope.cn/models/ZhipuAI/chatglm3-6b-32k) \| [WiseModel](https://www.wisemodel.cn/models/ZhipuAI/chatglm3-6b-32k) \| [OpenXLab](https://openxlab.org.cn/models/detail/THUDM/chatglm3-6b-32k) | | ChatGLM3-6B-128K | 128k | [HuggingFace](https://huggingface.co/THUDM/chatglm3-6b-128k) ｜ [ModelScope](https://modelscope.cn/models/ZhipuAI/chatglm3-6b-128k)\| [OpenXLab](https://openxlab.org.cn/models/detail/THUDM/chatglm3-6b-128k) | 请注意，所有模型的最新更新都会在 Huggingface 率先发布。 ModelScope 和 WiseModel 由于没有与 Huggingface 同步，需要开发人员手动更新，可能会在 Huggingface 更新后一段时间内同步更新。 ## 友情链接以下优秀开源仓库已经对 ChatGLM3-6B 模型深度支持，欢迎大家扩展学习。推理加速： * [chatglm.cpp](https://github.com/li-plus/chatglm.cpp): 类似 llama.cpp 的量化加速推理方案，实现笔记本上实时对话 * [ChatGLM3-TPU](https://github.com/sophgo/ChatGLM3-TPU): 采用TPU加速推理方案，在算能端侧芯片BM1684X（16T@FP16，内存16G）上实时运行约7.5 token/s * [TensorRT-LLM](https://github.com/NVIDIA/TensorRT-LLM/tree/main): NVIDIA开发的高性能 GPU 加速推理方案，可以参考此 [步骤](./tensorrt_llm_demo/README.md) 部署 ChatGLM3-6B 模型 * [OpenVINO](https://github.com/openvinotoolkit): Intel 开发的高性能 CPU 和 GPU 加速推理方案，可以参考此 [步骤](./Intel_device_demo/openvino_demo/README.md) 部署 ChatGLM3-6B 模型高效微调： * [LLaMA-Factory](https://github.com/hiyouga/LLaMA-Factory): 优秀易上手�

评论收藏

内容反馈