《AI大模型应用》-Firefly中文LLaMA-2大模型，支持增量预训练Llama2、Falcon、Qwen等.zip

共29个文件

py：15个

png：6个

yaml：4个

版权申诉

人工智能

自然语言处理

19 浏览量 2024-07-10 18:48:37 上传评论收藏 1.75MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

《AI大模型应用》--Firefly中文LLaMA-2大模型，支持增量预训练Baichuan2、Llama2、Llama、Falcon、Qwen、Baichuan、InternLM、Bloom等大模型.zip （29个子文件）

data

firefly-eval.xlsx 37KB

dummy_data.jsonl 155KB

component

utils.py 1KB

loss.py 2KB

trainer.py 3KB

dataset.py 6KB

metric.py 682B

argument.py 1KB

collator.py 2KB

train_args

llama2-13b-ext.yaml 883B

baichuan2-13b.yaml 865B

internlm-20b.yaml 854B

llama2-13b.yaml 858B

requirements.txt 215B

pics

firefly_logo.png 873KB

token-number.png 50KB

finetune-loss.png 29KB

pretrain-data.png 98KB

gongzhonghao.png 325KB

wechat.png 298KB

script

evaluate

eval_cmmlu.py 2KB

gen_firefly_eval.py 5KB

chat

single_chat.py 3KB

multi_chat.py 4KB

merge_lora.py 2KB

http

post.py 996B

start_service.py 3KB

train.py 10KB

README.MD 36KB

# Firefly-LLaMA2-Chinese: 开源中文LLaMA2大模型 <div align="left"> ![GitHub Repo stars](https://img.shields.io/github/stars/yangjianxin1/Firefly-LLaMA2-Chinese?style=social) [![Generic badge](https://img.shields.io/badge/🤗-Huggingface%20Repo-green.svg)](https://huggingface.co/YeungNLP) </div> <img src="pics/firefly_logo.png" width="250"> 欢迎加入Firefly大模型技术交流群，关注我们的公众号，点击加群按钮即可。 <img src="pics/gongzhonghao.png" width="300"> 欢迎关注我们的知乎进行交流讨论：**[红雨瓢泼](https://www.zhihu.com/people/jian-xin-15-96)** ## 目录 + [项目简介](#项目简介) + [模型列表 & 数据列表](#模型与数据) + [模型评测](#模型评测) + [训练细节](#训练细节) + [增量预训练 & 指令微调](#增量预训练和指令微调) + [模型推理](#模型推理) + [生成效果](#生成效果) + [局限性](#局限性) ## 项目简介技术文章：[QLoRA增量预训练与指令微调，及汉化Llama2的实践](https://mp.weixin.qq.com/s/26-Qxma9M2wGoTQgOlKRmQ) 本项目与[Firefly](https://github.com/yangjianxin1/Firefly)一脉相承，专注于**低资源增量预训练**，既支持对Baichuan2、Qwen、InternLM等原生中文模型进行增量预训练，也可对LLaMA2、Falcon等英文模型进行中文词表扩充，然后进行增量预训练。我们开源了Firefly-LLaMA2-Chinese模型，这是中英双语系列模型。我们以LLaMA2🦙为基座模型，对LLaMA2进行中文词表扩充，使用22GB中英文预训练语料对其进行增量预训练。最后使用大规模中英文多轮对话指令对模型进行训练。我们对模型进行了榜单评测和人工评测，与现有的开源工作相比，具有不错的竞争力。在Open LLM Leaderboard和CMMLU上，我们的模型超越了Linly、Yayi、FlagAlpha等模型；在Open LLM Leaderboard上超越Ziya，在CMMLU上比Ziya略低0.43分。在人工测评中，我们的模型以**33.08%获胜**、60.77%平局、6.15%失败的成绩，超越Linly。我们还开源了firelfy-baichuan2-13b模型，在OpenCompass的CMMLU榜单上以56.83的分数，**位列第8**，比百川官方模型略低1.57分。 **更重要的是，在整个增量预训练和指令微调阶段，我们最多仅使用了4\*V100的GPU，训练更加低资源高效。相较于Ziya的160\*A100，Linly的32\*A100，Chinese-LLaMA-Alpaca的48\*A40，我们所使用的训练资源少得多。** 授人以鱼🐟，不如授人以渔🎣，我们不仅开源了模型权重，也开源了项目全流程的训练代码、训练数据，以及训练细节。主要工作： - 📗 对LLaMA2进行中文词表扩充，提高编解码效率。与原始LLaMA2相对，中文序列长度减少约54.11%，变相提升了模型在中文域的最大长度。 - 📗 使用大规模中英文语料进行增量预训练，然后进行多轮指令微调。开源7B和13B的Base和Chat的模型权重。 - 📗 收集、整理并开源训练数据，包括22GB中英文预训练语料，以及多轮指令数据。 - 📗 开源增量预训练、指令微调等全流程代码。支持在主流的开源模型上进行增量预训练和指令微调，如Baichuan2、Baichuan、Qwen、InternLM、LLaMA2、LLaMA、Falcon等。 - 📗 对模型进行开源榜单评测和人工评测。构建人工评测集，包含13种评测任务，对模型进行人工评测。近期我们将会产出技术报告，敬请期待，欢迎持续关注我们的工作。 ## 模型列表 & 数据列表我们开源了7B和13B的Base与Chat模型。Base模型是基于LLaMA2扩充中文词表后增量预训练得到的模型，Chat模型是在Base模型的基础上进行多轮对话指令微调。为了探究基座模型对指令微调的影响，我们也微调了baichuan2-base模型，获得firefly-baichuan2-13b，具有不错的效果。更多中文微调，可查看[Firefly项目](https://github.com/yangjianxin1/Firefly)。 | 模型 | 类型 | 训练任务 | 训练长度 | |-----------------------------------------------------------------------------------------------|------|--------|------| | 🤗[Firefly-LLaMA2-7B-Base](https://huggingface.co/YeungNLP/firefly-llama2-7b-base) | 基座模型 | CLM | 1024 | | 🤗[Firefly-LLaMA2-13B-Base](https://huggingface.co/YeungNLP/firefly-llama2-13b-base) | 基座模型 | CLM | 1024 | | 🤗[Firefly-LLaMA2-7B-Chat](https://huggingface.co/YeungNLP/firefly-llama2-7b-chat) | 指令模型 | 多轮指令微调 | 1024 | | 🤗[Firefly-LLaMA2-13B-Chat](https://huggingface.co/YeungNLP/firefly-llama2-13b-chat) | 指令模型 | 多轮指令微调 | 1024 | | 🤗[Firefly-Baichuan2-13B](https://huggingface.co/YeungNLP/firefly-baichuan2-13b) | 指令模型 | 多轮指令微调 | 1024 | | 🤗[Firefly-LLaMA2-7B-Chat-QLoRA](https://huggingface.co/YeungNLP/firefly-llama2-7b-chat-qlora) | 指令模型 | 多轮指令微调 | 1024 | | 🤗[Firefly-LLaMA2-13B-Chat-QLoRA](https://huggingface.co/YeungNLP/firefly-llama2-13b-chat-qlora) | 指令模型 | 多轮指令微调 | 1024 | 本项目使用的数据如下表，其中firefly-pretrain-dataset是我们增量预训练阶段所使用的数据： | 数据集 | 介绍 | |----------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------| | [firefly-pretrain-dataset](https://huggingface.co/datasets/YeungNLP/firefly-pretrain-dataset) | Firefly项目整理和使用的22GB预训练数据，主要包含CLUE、ThucNews、CNews、COIG、维基百科等开源数据集，以及我们收集的古诗词、散文、文言文等。 | | [moss-003-sft-data](https://huggingface.co/datasets/YeungNLP/moss-003-sft-data) | 由复旦大学MOSS团队开源的中英文多轮对话数据，包含100万+数据 | | [ultrachat](https://huggingface.co/datasets/YeungNLP/ultrachat) | 由清华大学开源的英文多轮对话数据，包含140万+数据 | | [school_math_0.25M](https://huggingface.co/datasets/YeungNLP/school_math_0.25M) | 由BELLE项目组开源的数学运算指令数据，包含25万条数据。 | ## 模型评测我们在CMMLU和Open LLM Leaderboard上分别对模型的中文和英文能力进行了客观评测，并且在我们构建的人工评测集上进行了人工评测。 **Open LLM Leaderboard和CMMLU榜单倾向于评测大模型的做题能力，不够全面，所以我们进一步进行了人工评测。** ### Open LLM Leaderboard | 模型 | Average | ARC | HellaSwag | MMLU | TruthfulQA | |-----------------------------|-----------|-------|-----------|-------|------------| | chinese-alpaca-2-13b | 60.94 | 58.7 | 79.74 | 55.1 | 50.22 | | openbuddy-llama2-13b-v8.1 | 60.47 | 55.97 | 79.79 | 54.95 | 51.16 | | flagalpha-llama2-13b-chat | 60.41 | 55.97 | 82.05 | 54.74 | 48.9 | | llama-2-13b-chat | 59.93 | 59.04 | 81.94 | 54.64 | 44.12 | | vicuna-13b-v1.1 | 59.22 | 52.73 | 80.13 | 51.94 | 52.08 | | guanaco-13b | 59.18 | 57.85 | 83.84 | 48.28 | 46.73 | | **firefly-llama2-13b-chat** | **59.05** | 57.51 | 77.94 | 52.56 | 48.18 | | llama-2-7b-chat | 56.34 | 52.9 | 78.55 | 48.32 | 45.57 | | flagalpha-llama2-7b-chat | 56.13 | 52.39 | 77.52 | 47.72

评论收藏

内容反馈

版权申诉