# Firefly-LLaMA2-Chinese: 开源中文LLaMA2大模型
<div align="left">
![GitHub Repo stars](https://img.shields.io/github/stars/yangjianxin1/Firefly-LLaMA2-Chinese?style=social)
[![Generic badge](https://img.shields.io/badge/🤗-Huggingface%20Repo-green.svg)](https://huggingface.co/YeungNLP)
</div>
<img src="pics/firefly_logo.png" width="250">
欢迎加入Firefly大模型技术交流群,关注我们的公众号,点击加群按钮即可。
<img src="pics/gongzhonghao.png" width="300">
欢迎关注我们的知乎进行交流讨论:**[红雨瓢泼](https://www.zhihu.com/people/jian-xin-15-96)**
## 目录
+ [项目简介](#项目简介)
+ [模型列表 & 数据列表](#模型与数据)
+ [模型评测](#模型评测)
+ [训练细节](#训练细节)
+ [增量预训练 & 指令微调](#增量预训练和指令微调)
+ [模型推理](#模型推理)
+ [生成效果](#生成效果)
+ [局限性](#局限性)
## 项目简介
技术文章:[QLoRA增量预训练与指令微调,及汉化Llama2的实践](https://mp.weixin.qq.com/s/26-Qxma9M2wGoTQgOlKRmQ)
本项目与[Firefly](https://github.com/yangjianxin1/Firefly)一脉相承,专注于**低资源增量预训练**,既支持对Baichuan2、Qwen、InternLM等原生中文模型进行增量预训练,也可对LLaMA2、Falcon等英文模型进行中文词表扩充,然后进行增量预训练。
我们开源了Firefly-LLaMA2-Chinese模型,这是中英双语系列模型。我们以LLaMA2🦙为基座模型,对LLaMA2进行中文词表扩充,使用22GB中英文预训练语料对其进行增量预训练。
最后使用大规模中英文多轮对话指令对模型进行训练。我们对模型进行了榜单评测和人工评测,与现有的开源工作相比,具有不错的竞争力。
在Open LLM Leaderboard和CMMLU上,我们的模型超越了Linly、Yayi、FlagAlpha等模型;
在Open LLM Leaderboard上超越Ziya,在CMMLU上比Ziya略低0.43分。在人工测评中,我们的模型以**33.08%获胜**、60.77%平局、6.15%失败的成绩,超越Linly。
我们还开源了firelfy-baichuan2-13b模型,在OpenCompass的CMMLU榜单上以56.83的分数,**位列第8**,比百川官方模型略低1.57分。
**更重要的是,在整个增量预训练和指令微调阶段,我们最多仅使用了4\*V100的GPU,训练更加低资源高效。相较于Ziya的160\*A100,Linly的32\*A100,Chinese-LLaMA-Alpaca的48\*A40,我们所使用的训练资源少得多。**
授人以鱼🐟,不如授人以渔🎣,我们不仅开源了模型权重,也开源了项目全流程的训练代码、训练数据,以及训练细节。
主要工作:
- 📗 对LLaMA2进行中文词表扩充,提高编解码效率。与原始LLaMA2相对,中文序列长度减少约54.11%,变相提升了模型在中文域的最大长度。
- 📗 使用大规模中英文语料进行增量预训练,然后进行多轮指令微调。开源7B和13B的Base和Chat的模型权重。
- 📗 收集、整理并开源训练数据,包括22GB中英文预训练语料,以及多轮指令数据。
- 📗 开源增量预训练、指令微调等全流程代码。支持在主流的开源模型上进行增量预训练和指令微调,如Baichuan2、Baichuan、Qwen、InternLM、LLaMA2、LLaMA、Falcon等。
- 📗 对模型进行开源榜单评测和人工评测。构建人工评测集,包含13种评测任务,对模型进行人工评测。
近期我们将会产出技术报告,敬请期待,欢迎持续关注我们的工作。
## 模型列表 & 数据列表
我们开源了7B和13B的Base与Chat模型。Base模型是基于LLaMA2扩充中文词表后增量预训练得到的模型,Chat模型是在Base模型的基础上进行多轮对话指令微调。
为了探究基座模型对指令微调的影响,我们也微调了baichuan2-base模型,获得firefly-baichuan2-13b,具有不错的效果。更多中文微调,可查看[Firefly项目](https://github.com/yangjianxin1/Firefly)。
| 模型 | 类型 | 训练任务 | 训练长度 |
|-----------------------------------------------------------------------------------------------|------|--------|------|
| 🤗[Firefly-LLaMA2-7B-Base](https://huggingface.co/YeungNLP/firefly-llama2-7b-base) | 基座模型 | CLM | 1024 |
| 🤗[Firefly-LLaMA2-13B-Base](https://huggingface.co/YeungNLP/firefly-llama2-13b-base) | 基座模型 | CLM | 1024 |
| 🤗[Firefly-LLaMA2-7B-Chat](https://huggingface.co/YeungNLP/firefly-llama2-7b-chat) | 指令模型 | 多轮指令微调 | 1024 |
| 🤗[Firefly-LLaMA2-13B-Chat](https://huggingface.co/YeungNLP/firefly-llama2-13b-chat) | 指令模型 | 多轮指令微调 | 1024 |
| 🤗[Firefly-Baichuan2-13B](https://huggingface.co/YeungNLP/firefly-baichuan2-13b) | 指令模型 | 多轮指令微调 | 1024 |
| 🤗[Firefly-LLaMA2-7B-Chat-QLoRA](https://huggingface.co/YeungNLP/firefly-llama2-7b-chat-qlora) | 指令模型 | 多轮指令微调 | 1024 |
| 🤗[Firefly-LLaMA2-13B-Chat-QLoRA](https://huggingface.co/YeungNLP/firefly-llama2-13b-chat-qlora) | 指令模型 | 多轮指令微调 | 1024 |
本项目使用的数据如下表,其中firefly-pretrain-dataset是我们增量预训练阶段所使用的数据:
| 数据集 | 介绍 |
|----------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------|
| [firefly-pretrain-dataset](https://huggingface.co/datasets/YeungNLP/firefly-pretrain-dataset) | Firefly项目整理和使用的22GB预训练数据,主要包含CLUE、ThucNews、CNews、COIG、维基百科等开源数据集,以及我们收集的古诗词、散文、文言文等。 |
| [moss-003-sft-data](https://huggingface.co/datasets/YeungNLP/moss-003-sft-data) | 由复旦大学MOSS团队开源的中英文多轮对话数据,包含100万+数据 |
| [ultrachat](https://huggingface.co/datasets/YeungNLP/ultrachat) | 由清华大学开源的英文多轮对话数据,包含140万+数据 |
| [school_math_0.25M](https://huggingface.co/datasets/YeungNLP/school_math_0.25M) | 由BELLE项目组开源的数学运算指令数据,包含25万条数据。 |
## 模型评测
我们在CMMLU和Open LLM Leaderboard上分别对模型的中文和英文能力进行了客观评测,并且在我们构建的人工评测集上进行了人工评测。
**Open LLM Leaderboard和CMMLU榜单倾向于评测大模型的做题能力,不够全面,所以我们进一步进行了人工评测。**
### Open LLM Leaderboard
| 模型 | Average | ARC | HellaSwag | MMLU | TruthfulQA |
|-----------------------------|-----------|-------|-----------|-------|------------|
| chinese-alpaca-2-13b | 60.94 | 58.7 | 79.74 | 55.1 | 50.22 |
| openbuddy-llama2-13b-v8.1 | 60.47 | 55.97 | 79.79 | 54.95 | 51.16 |
| flagalpha-llama2-13b-chat | 60.41 | 55.97 | 82.05 | 54.74 | 48.9 |
| llama-2-13b-chat | 59.93 | 59.04 | 81.94 | 54.64 | 44.12 |
| vicuna-13b-v1.1 | 59.22 | 52.73 | 80.13 | 51.94 | 52.08 |
| guanaco-13b | 59.18 | 57.85 | 83.84 | 48.28 | 46.73 |
| **firefly-llama2-13b-chat** | **59.05** | 57.51 | 77.94 | 52.56 | 48.18 |
| llama-2-7b-chat | 56.34 | 52.9 | 78.55 | 48.32 | 45.57 |
| flagalpha-llama2-7b-chat | 56.13 | 52.39 | 77.52 | 47.72
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
Firefly中文LLaMA-2大模型,支持增量预训练Baichuan2、Llama2、Llama、Falcon、Qwen、Baichuan、InternLM、Bloom等大模型 个人深耕AI大模型应用领域积累的成果,希望对您有所帮助。有大模型账号、环境问题、AI大模型技术应用落地方案等相关问题,欢迎详聊,能为您解决问题是我的荣幸! 个人深耕AI大模型应用领域积累的成果,希望对您有所帮助。有大模型账号、环境问题、AI大模型技术应用落地方案等相关问题,欢迎详聊,能为您解决问题是我的荣幸! 个人深耕AI大模型应用领域积累的成果,希望对您有所帮助。有大模型账号、环境问题、AI大模型技术应用落地方案等相关问题,欢迎详聊,能为您解决问题是我的荣幸! 个人深耕AI大模型应用领域积累的成果,希望对您有所帮助。有大模型账号、环境问题、AI大模型技术应用落地方案等相关问题,欢迎详聊,能为您解决问题是我的荣幸!
资源推荐
资源详情
资源评论
收起资源包目录
《AI大模型应用》--Firefly中文LLaMA-2大模型,支持增量预训练Baichuan2、Llama2、Llama、Falcon、Qwen、Baichuan、InternLM、Bloom等大模型.zip (29个子文件)
data
firefly-eval.xlsx 37KB
dummy_data.jsonl 155KB
component
utils.py 1KB
loss.py 2KB
trainer.py 3KB
dataset.py 6KB
metric.py 682B
argument.py 1KB
collator.py 2KB
train_args
llama2-13b-ext.yaml 883B
baichuan2-13b.yaml 865B
internlm-20b.yaml 854B
llama2-13b.yaml 858B
requirements.txt 215B
pics
firefly_logo.png 873KB
token-number.png 50KB
finetune-loss.png 29KB
pretrain-data.png 98KB
gongzhonghao.png 325KB
wechat.png 298KB
script
evaluate
eval_cmmlu.py 2KB
gen_firefly_eval.py 5KB
chat
single_chat.py 3KB
multi_chat.py 4KB
merge_lora.py 2KB
http
post.py 996B
start_service.py 3KB
train.py 10KB
README.MD 36KB
共 29 条
- 1
资源评论
季风泯灭的季节
- 粉丝: 1898
- 资源: 3370
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- LCD1602电子时钟程序
- 西北太平洋热带气旋【灾害风险统计】及【登陆我国次数评估】数据集-1980-2023
- 全球干旱数据集【自校准帕尔默干旱程度指数scPDSI】-190101-202312-0.5x0.5
- 基于Python实现的VAE(变分自编码器)训练算法源代码+使用说明
- 全球干旱数据集【标准化降水蒸发指数SPEI-12】-190101-202312-0.5x0.5
- C语言小游戏-五子棋-详细代码可运行
- 全球干旱数据集【标准化降水蒸发指数SPEI-03】-190101-202312-0.5x0.5
- spring boot aop记录修改前后的值demo
- 全球干旱数据集【标准化降水蒸发指数SPEI-01】-190101-202312-0.5x0.5
- ActiveReports
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功