双语对话模型：双语对话语言模型，一个基于大型预训练语言模型GPT的对话生成模型，用GPT-2进行微调，支持中文和英文资源-CSDN文库

共66个文件

png：23个

py：13个

md：9个

版权申诉

语言模型

毕业设计

82 浏览量 2023-11-29 11:18:02 上传评论收藏 6.79MB ZIP 举报

双语对话模型是一种创新的语言处理技术，主要用于生成自然、流畅的多语言对话。该模型的构建基于GPT（Generative Pre-trained Transformer），这是一种由OpenAI开发的预训练语言模型，以其强大的自然语言理解和生成能力而闻名。GPT-2是GPT系列的第二代产品，拥有更大的参数量和更广泛的数据训练基础，因此在处理复杂语言任务时表现出更高的性能。在双语对话模型的案例中，GPT-2被进一步微调以适应双语对话的特定需求。微调是指在预训练模型的基础上，使用特定领域的数据进行二次训练，以优化模型在特定任务上的表现。这种微调过程使得模型能够理解并生成中文和英文两种语言，实现了跨语言的交流能力，这对于全球化沟通、多语言客服、翻译系统等领域具有显著价值。在实际应用中，双语对话模型可以用于多种场景。例如，在智能客服系统中，它能够理解和回应用户的不同语言问题，提供无缝的多语言支持；在教育领域，它可以作为语言学习工具，帮助学生进行语言练习和对话模拟；在跨国企业中，它能助力内部沟通，降低语言障碍。为了实现这样的功能，开发者可能需要处理大量的双语对话数据集，这些数据通常包含丰富的对话实例，覆盖日常生活、商务、学术等多个场景。微调过程中，模型会学习到语言之间的转换规则，理解两种语言的语法结构、词汇差异以及文化背景知识，从而生成既自然又准确的对话响应。在项目实践中，"ChatGLM-6B-main"可能是一个包含了双语对话模型核心代码和资源的文件夹。其中，“6B”可能表示模型的参数量达到了大约60亿，这表明模型具有较高的计算需求，但同时也意味着其具有更强大的处理能力。这个文件夹可能包含模型的权重文件、训练脚本、推理接口等相关代码，供开发者部署和使用模型。总结来说，双语对话模型是利用GPT-2进行微调的预训练模型，具备生成双语对话的能力，适用于跨语言的沟通场景。通过微调和大规模数据训练，模型能够理解和生成两种语言，为全球化交流提供了智能化解决方案。"ChatGLM-6B-main"则是实现这一技术的具体代码库，包含模型的核心组件，为实际应用提供了基础。

资源推荐

资源详情

资源评论

收起资源包目录

ChatGLM-6B-main.zip （66个子文件）

ChatGLM-6B-main

web_demo_old.py 2KB

utils.py 2KB

improve

README.md 4KB

data_sample.jsonl 51KB

.github

ISSUE_TEMPLATE

bug_report.yaml 2KB

feature_request.yml 763B

config.yml 27B

MODEL_LICENSE 4KB

UPDATE.md 6KB

limitations

math_error.png 25KB

self-confusion_tencent.jpg 125KB

self-confusion_google.jpg 152KB

factual_error.png 135KB

self-confusion_openai.jpg 143KB

resources

english-q4-old.png 171KB

wechat.jpg 151KB

web-demo.png 587KB

english-q1-old.png 73KB

WECHAT.md 223B

english-q4-new.png 177KB

english-q3-old.png 104KB

english-q2-new.png 74KB

web-demo.gif 2.18MB

english-q3-new.png 99KB

webglm.jpg 106KB

english-q1-new.png 105KB

cli-demo.png 463KB

visualglm.png 247KB

english-q2-old.png 112KB

LICENSE 11KB

web_demo_vision.py 5KB

examples

blog-outline.png 162KB

comments-writing.png 260KB

email-writing-2.png 224KB

ad-writing-2.png 123KB

email-writing-1.png 230KB

information-extraction.png 131KB

tour-guide.png 331KB

role-play.png 279KB

sport.png 291KB

self-introduction.png 231KB

cli_demo.py 2KB

README_en.md 22KB

web_demo2.py 2KB

web_demo.py 4KB

api.py 2KB

ptuning

evaluate_finetune.sh 562B

web_demo.sh 217B

trainer_seq2seq.py 11KB

main.py 18KB

evaluate.sh 660B

trainer.py 181KB

README_en.md 11KB

ds_train_finetune.sh 766B

web_demo.py 6KB

train_chat.sh 745B

train.sh 753B

arguments.py 8KB

deepspeed.json 509B

README.md 11KB

PROJECT.md 5KB

cli_demo_vision.py 2KB

requirements.txt 96B

.gitignore 2KB

README.md 24KB

FAQ.md 940B

# ChatGLM-6B 🌐 <a href="https://chatglm.cn/blog" target="_blank">Blog</a> • 🤗 <a href="https://huggingface.co/THUDM/chatglm-6b" target="_blank">HF Repo</a> • 🐦 <a href="https://twitter.com/thukeg" target="_blank">Twitter</a> • 📃 <a href="https://arxiv.org/abs/2103.10360" target="_blank">[GLM@ACL 22]</a> <a href="https://github.com/THUDM/GLM" target="_blank">[GitHub]</a> • 📃 <a href="https://arxiv.org/abs/2210.02414" target="_blank">[GLM-130B@ICLR 23]</a> <a href="https://github.com/THUDM/GLM-130B" target="_blank">[GitHub]</a> 👋 加入我们的 <a href="https://join.slack.com/t/chatglm/shared_invite/zt-1y7pqoloy-9b1g6T6JjA8J0KxvUjbwJw" target="_blank">Slack</a> 和 <a href="resources/WECHAT.md" target="_blank">WeChat</a> 📍在 <a href="https://www.chatglm.cn">chatglm.cn</a> 体验更大规模的 ChatGLM 模型。 *Read this in [English](README_en.md).* 新一代开源模型 [ChatGLM3-6B](https://github.com/THUDM/ChatGLM3) 已发布，拥有10B以下最强的基础模型，支持工具调用（Function Call）、代码执行（Code Interpreter）、Agent 任务等功能。 ## 介绍 ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于 [General Language Model (GLM)](https://github.com/THUDM/GLM) 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。 ChatGLM-6B 使用了和 ChatGPT 相似的技术，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答，更多信息请参考我们的[博客](https://chatglm.cn/blog)。欢迎通过 [chatglm.cn](https://chatglm.cn) 体验更大规模的 ChatGLM 模型。为了方便下游开发者针对自己的应用场景定制模型，我们同时实现了基于 [P-Tuning v2](https://github.com/THUDM/P-tuning-v2) 的高效参数微调方法 [(使用指南)](ptuning/README.md) ，INT4 量化级别下最低只需 7GB 显存即可启动微调。 ChatGLM-6B 权重对学术研究**完全开放**，在填写[问卷](https://open.bigmodel.cn/mla/form)进行登记后**亦允许免费商业使用**。 ----- ChatGLM-6B 开源模型旨在与开源社区一起推动大模型技术发展，恳请开发者和大家遵守[开源协议](MODEL_LICENSE)，勿将开源模型和代码及基于开源项目产生的衍生物用于任何可能给国家和社会带来危害的用途以及用于任何未经过安全评估和备案的服务。**目前，本项目团队未基于 ChatGLM-6B 开发任何应用，包括网页端、安卓、苹果 iOS 及 Windows App 等应用。** 尽管模型在训练的各个阶段都尽力确保数据的合规性和准确性，但由于 ChatGLM-6B 模型规模较小，且模型受概率随机性因素影响，无法保证输出内容的准确性，且模型易被误导（详见[局限性](README.md#局限性)）。**本项目不承担开源模型和代码导致的数据安全、舆情风险或发生任何模型被误导、滥用、传播、不当利用而产生的风险和责任。** ## 更新信息 **[2023/07/25]** 发布 [CodeGeeX2](https://github.com/THUDM/CodeGeeX2) ，基于 ChatGLM2-6B 的代码生成模型，代码能力全面提升，更多特性包括： * **更强大的代码能力**：CodeGeeX2-6B 进一步经过了 600B 代码数据预训练，相比 CodeGeeX 一代模型，在代码能力上全面提升，[HumanEval-X](https://huggingface.co/datasets/THUDM/humaneval-x) 评测集的六种编程语言均大幅提升 (Python +57%, C++ +71%, Java +54%, JavaScript +83%, Go +56%, Rust +321\%)，在Python上达到 35.9\% 的 Pass@1 一次通过率，超越规模更大的 StarCoder-15B。 * **更优秀的模型特性**：继承 ChatGLM2-6B 模型特性，CodeGeeX2-6B 更好支持中英文输入，支持最大 8192 序列长度，推理速度较一代大幅提升，量化后仅需6GB显存即可运行，支持轻量级本地化部署。 * **更全面的AI编程助手**：CodeGeeX插件（[VS Code](https://marketplace.visualstudio.com/items?itemName=aminer.codegeex), [Jetbrains](https://plugins.jetbrains.com/plugin/20587-codegeex)）后端升级，支持超过100种编程语言，新增上下文补全、跨文件补全等实用功能。结合 Ask CodeGeeX 交互式AI编程助手，支持中英文对话解决各种编程问题，包括且不限于代码解释、代码翻译、代码纠错、文档生成等，帮助程序员更高效开发。 **[2023/06/25]** 发布 [ChatGLM2-6B](https://github.com/THUDM/ChatGLM2-6B)，ChatGLM-6B 的升级版本，在保留了了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上，ChatGLM**2**-6B 引入了如下新特性： 1. **更强大的性能**：基于 ChatGLM 初代模型的开发经验，我们全面升级了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 [GLM](https://github.com/THUDM/GLM) 的混合目标函数，经过了 1.4T 中英标识符的预训练与人类偏好对齐训练，[评测结果](#评测结果)显示，相比于初代模型，ChatGLM2-6B 在 MMLU（+23%）、CEval（+33%）、GSM8K（+571%）、BBH（+60%）等数据集上的性能取得了大幅度的提升，在同尺寸开源模型中具有较强的竞争力。 2. **更长的上下文**：基于 [FlashAttention](https://github.com/HazyResearch/flash-attention) 技术，我们将基座模型的上下文长度（Context Length）由 ChatGLM-6B 的 2K 扩展到了 32K，并在对话阶段使用 8K 的上下文长度训练，允许更多轮次的对话。但当前版本的 ChatGLM2-6B 对单轮超长文档的理解能力有限，我们会在后续迭代升级中着重进行优化。 3. **更高效的推理**：基于 [Multi-Query Attention](http://arxiv.org/abs/1911.02150) 技术，ChatGLM2-6B 有更高效的推理速度和更低的显存占用：在官方的模型实现下，推理速度相比初代提升了 42%，INT4 量化下，6G 显存支持的对话长度由 1K 提升到了 8K。更多信息参见 [ChatGLM2-6B](https://github.com/THUDM/ChatGLM2-6B)。 **[2023/06/14]** 发布 [WebGLM](https://github.com/THUDM/WebGLM)，一项被接受于KDD 2023的研究工作，支持利用网络信息生成带有准确引用的长回答。 ![](resources/webglm.jpg) **[2023/05/17]** 发布 [VisualGLM-6B](https://github.com/THUDM/VisualGLM-6B)，一个支持图像理解的多模态对话语言模型。 ![](resources/visualglm.png) 可以通过本仓库中的 [cli_demo_vision.py](cli_demo_vision.py) 和 [web_demo_vision.py](web_demo_vision.py) 来运行命令行和网页 Demo。注意 VisualGLM-6B 需要额外安装 [SwissArmyTransformer](https://github.com/THUDM/SwissArmyTransformer/) 和 torchvision。更多信息参见 [VisualGLM-6B](https://github.com/THUDM/VisualGLM-6B)。 **[2023/05/15]** 更新 v1.1 版本 checkpoint，训练数据增加英文指令微调数据以平衡中英文数据比例，解决英文回答中夹杂中文词语的现象。 <details><summary>以下是更新前后的英文问题对比：</summary> * 问题：Describe a time when you had to make a difficult decision. - v1.0: ![](resources/english-q1-old.png) - v1.1: ![](resources/english-q1-new.png) * 问题：Describe the function of a computer motherboard - v1.0: ![](resources/english-q2-old.png) - v1.1: ![](resources/english-q2-new.png) * 问题：Develop a plan to reduce electricity usage in a home. - v1.0: ![](resources/english-q3-old.png) - v1.1: ![](resources/english-q3-new.png) * 问题：未来的NFT，可能真实定义一种现实的资产，它会是一处房产，一辆汽车，一片土地等等，这样的数字凭证可能比真实的东西更有价值，你可以随时交易和使用，在虚�

评论收藏

内容反馈

版权申诉