<div align="center">
# CPM-Bee
**百亿参数的开源中英文双语基座大模型**
<p align="center">
<a href="#模型">模型</a> •
<a href="#预训练">OpenBMB体系</a> •
<a href="#零样本评测">性能表现</a> •
<a href="#模型协议">开源协议</a>
</p>
</div>
## ✨ 模型介绍
**CPM-Bee**是一个完全开源、允许商用的百亿参数中英文基座模型,也是[**CPM-Live**](https://live.openbmb.org/)训练的第二个里程碑。它采用Transformer自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。
- **👐 开源可商用**:OpenBMB始终秉承“让大模型飞入千家万户”的开源精神,CPM-Bee基座模型将完全开源并且可商用,以推动大模型领域的发展。我们鼓励全球范围内的科研机构、企业和个人开发者在遵守[开源许可协议](#模型协议)的前提下,自由地在CPM-Bee基座模型上进行创新。
- **💫 中英双语性能优异**:CPM-Bee基座模型在预训练语料上进行了严格的筛选和配比,同时在中英双语上具有亮眼表现,具体可参见[评测任务和结果](#零样本评测)。
- **📖 超大规模高质量语料**:CPM-Bee基座模型在超万亿语料进行训练,是开源社区内经过语料最多的模型之一。同时,我们对预训练语料进行了严格的筛选、清洗和后处理以确保质量。
- **<img src="https://i.imgloc.com/2023/05/21/V4nLS3.png" width="20px"> OpenBMB大模型系统生态支持**:OpenBMB大模型系统围绕高性能预训练、适配、压缩、推理开发了一系列工具,CPM-Bee基座模型将配套所有的工具脚本,高效支持开发者进行进阶使用。
- **🔨 对话和工具使用能力**: 结合OpenBMB在指令微调和工具学习的探索,我们在CPM-Bee基座模型的基础上进行微调,训练出了具有强大对话和工具使用能力的实例模型,API和内测将于近期开放。
*Read this in [English](https://github.com/OpenBMB/CPM-Bee/blob/main/README_en.md).*
说明:CPM-Bee是一个**基座**模型,即从零开始通过**预训练**得来。我们鼓励用户在自己的场景和数据上**适配/微调/对齐**后再进行使用。例如,[WebCPM](https://github.com/thunlp/WebCPM) 以CPM-Bee为基座,在人类网络检索的序列化数据上进行适配,获得了复杂问答和上网检索的能力。后续我们将会发布更多在CPM-Bee基座模型基础上适配的模型。
<div align="center">
<img src="https://i.imgloc.com/2023/06/07/VwgLLN.png" width="660px">
<div align="center">
本仓库主要提供 CPM-Bee 基座模型
</div>
</div>
## 📰 更新信息
- **[2023/06/30]** 基于CPM-Bee的多模态系列模型[VisCPM](https://github.com/OpenBMB/VisCPM)发布,支持多模态对话和文生图!
- **[2023/06/16]** CPM-Bee现已支持🤗[Transformers](https://huggingface.co/openbmb/cpm-bee-10b)。
- **[2023/06/08]** 更新了使用CPM-Bee进行基础任务微调的[教程](https://github.com/OpenBMB/CPM-Bee/tree/main/tutorials/basic_task_finetune)。
- **[2023/05/27]** 百亿参数,允许商用的中英双语基座模型CPM-Bee开源了,它是[**CPM-Live**](https://live.openbmb.org/)的第二个里程碑。
## 🍯 CPM-Bee系列模型
| 模型 | 描述 |
| :---: | :---: |
|[VisCPM](https://github.com/OpenBMB/VisCPM)| 支持多模态对话和图文双向生成的开源中英双语多模态大模型|
|[WebCPM](https://github.com/thunlp/WebCPM)| 支持复杂问答和上网检索的开源中文大模型|
## 🚀 安装和使用
您需要克隆该仓库:
```bash
$ git clone -b main --single-branch https://github.com/OpenBMB/CPM-Bee.git
```
并确保您的环境符合要求:
```bash
- python>=3.7
- torch>=1.10,<2.0.0
```
我们建议使用Anaconda管理环境并从PyPI安装其他依赖项:
```bash
$ cd src
$ pip install -r requirements.txt
```
注意**torch版本需与CUDA版本对应,不然会引起安装错误**,尤其是torch也是通过pip install -r requirements.txt进行安装时,较为容易出现自动拉取安装的torch版本与本地CUDA版本不对应,导致BMTrain无法安装。
### 模型
- [**10B模型下载链接**](https://openbmb.oss-cn-hongkong.aliyuncs.com/model_center/cpm-bee-10b/cpm-bee-10b.zip)(如果要使用🤗Transformers运行模型,请参考[这里](https://huggingface.co/openbmb/cpm-bee-10b))。
### 数据格式
- 不同于已有基座模型采用非结构化的自由文本形式组织数据,CPM-Bee采用结构化的json格式来组织数据。对于结构化数据,CPM-Bee的基座模型可以准确地进行语义理解,高效完成各类基础任务,包括:填空、文本生成、翻译、问答、评分预测、文本选择题等等,下面给出一些代表性任务的模板:
```json
"填空":{
"input": "心理学领域的研究人员发现,做出重要决定的最好方法之一,比如选择一所大学或<mask_0>,都涉及到使用决策工作表。研究优化的心理学家将<mask_1>与理论理想决策进行比较,看看它们有多相似。工作表程序的支持者认为它会产生最优的,也就是说,最好的决策。虽然有<mask_2>可以接受,但它们在本质上都是相似的。",
"<ans>":{
"<mask_0>":"",
"<mask_1>":"",
"<mask_2>":""
}
}
"文本生成": {
"input": "今天天气很好,我和妈妈一起去公园,",
"prompt": "往后写约100字",
"<ans>": ""
}
"翻译": {
"input": "北京是中国的首都",
"prompt": "中翻英",
"<ans>": ""
}
"问答": {
"input": "NGC 6231是一个位于天蝎座的疏散星团,天球座标为赤经16时54分,赤纬-41度48分,视觉观测大小约45角分,亮度约2.6视星等,距地球5900光年。NGC 6231年龄约为三百二十万年,是一个非常年轻的星团,星团内的最亮星是5等的天蝎座 ζ1星。用双筒望远镜或小型望远镜就能看到个别的行星。NGC 6231在1654年被意大利天文学家乔瓦尼·巴蒂斯特·霍迪尔纳(Giovanni Battista Hodierna)以Luminosae的名字首次纪录在星表中,但是未见记载于夏尔·梅西耶的天体列表和威廉·赫歇尔的深空天体目录。这个天体在1678年被爱德蒙·哈雷(I.7)、1745年被夏西亚科斯(Jean-Phillippe Loys de Cheseaux)(9)、1751年被尼可拉·路易·拉卡伊(II.13)分别再次独立发现。",
"question": "NGC 6231的经纬度是多少?",
"<ans>": ""
}
"评分预测": {
"input":"之前多次聚餐都选择这里,有各种大小的包房同时能容纳很多人,环境好有特色还有表演,整体聚餐氛围一下被带动起来。现在由于炭火改成了电烤羊,口感真的不如从前,不过其他菜品都还是不错,烤羊剩下的拆骨肉最后还能再加工一下椒盐的也很好吃。",
"question":"评分是多少?(1-5)",
"<ans>":""
}
"选择题": {
"input": "父母都希望自己的孩子诚实、勇敢、有礼貌。要想让孩子成为这样的人,父母首先得从自己做起,要是连自己都做不到,又怎能要求孩子做到呢?",
"options": {
"<option_0>": "少提要求",
"<option_1>": "降低标准",
"<option_2>": "自己先做好",
"<option_3>": "让孩子拿主意"
},
"question": "教育孩子时,父母应该:",
"<ans>": ""
}
```
- **注意**在模型推理时可采用上述模板,在模型训练时需在<ans>中""处填上标准答案,如:
```json
{
"input": "北京是中国的首都",
"prompt": "中翻英",
"<ans>": "Beijing is the capital of China"
}
{
"input": "父母都希望自己的孩子诚实、勇敢
没有合适的资源?快使用搜索试试~ 我知道了~
百亿参数的中英文双语基座大模型.zip
共80个文件
py:57个
jsonl:4个
json:3个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 182 浏览量
2024-03-14
22:57:42
上传
评论
收藏 6.23MB ZIP 举报
温馨提示
垂直领域大模型,多模态,人工智能,易于部署,学习交流使用
资源推荐
资源详情
资源评论
收起资源包目录
百亿参数的中英文双语基座大模型.zip (80个子文件)
open_wei——damoxing
src
.flake8 148B
finetune_cpm_bee.py 17KB
setup.py 473B
datasets.json 477B
build_dataset.py 3KB
text_generation_hf.py 3KB
text_generation.py 2KB
cpm_live
vocabs
bee.txt 615KB
ant.txt 199KB
__init__.py 0B
layers
__init__.py 341B
embedding.py 4KB
position_embedding.py 9KB
blocks.py 9KB
linear.py 2KB
transformer.py 5KB
layernorm.py 1KB
attention.py 5KB
feedforward.py 4KB
training_tasks
__init__.py 36B
ant
__init__.py 44B
pretrain.py 4KB
bee
__init__.py 73B
finetune.py 2KB
pretrain.py 38KB
utils
__init__.py 169B
export.py 2KB
gradient_shrink.py 382B
log.py 3KB
data_utils.py 2KB
config.py 3KB
object.py 994B
native_layers
__init__.py 341B
embedding.py 4KB
position_embedding.py 9KB
blocks.py 9KB
linear.py 2KB
transformer.py 5KB
layernorm.py 1KB
attention.py 4KB
feedforward.py 4KB
dataset
utils.py 7KB
__init__.py 163B
distributed_dataset.py 25KB
serializer.py 2KB
generation
__init__.py 74B
bee.py 26KB
generation_utils.py 4KB
ant.py 14KB
tokenizers
__init__.py 66B
bee.py 7KB
ant.py 4KB
models
__init__.py 146B
bee_torch.py 10KB
ant_torch.py 6KB
bee.py 11KB
ant.py 8KB
arguments.py 6KB
pyproject.toml 147B
requirements.txt 87B
pretrain_cpm_bee.py 15KB
config
cpm-bee-10b.json 325B
cpm-bee-3b.json 323B
preprocess_dataset.py 1KB
scripts
finetune_cpm_bee.sh 932B
preprocess_dataset.sh 141B
pretrain_cpm_bee.sh 1KB
README_en.md 20KB
README.md 35KB
tutorials
basic_task_finetune
raw_data
train.jsonl 3.87MB
eval.jsonl 496KB
bin_data
train
meta.bin 136B
ccpm_data 16MB
eval
meta.bin 134B
ccpm_data 16MB
data_reformat.py 1KB
bee_data
train.jsonl 6.36MB
eval.jsonl 815KB
README.md 7KB
decoder_tuning
decoder_tuning.ipynb 31KB
共 80 条
- 1
资源评论
极致人生-010
- 粉丝: 3313
- 资源: 3077
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Screenshot_2024-05-28-11-40-58-177_com.tencent.mm.jpg
- 基于Dart的Flutter小提琴调音器APP设计源码 - violinhelper
- 基于JavaScript和CSS的随寻订购网页设计源码 - web-order
- 基于MATLAB的声纹识别系统设计源码 - VoiceprintRecognition
- 基于Java的微服务插件集合设计源码 - wsy-plugins
- 基于Vue和微信小程序的监理日志系统设计源码 - supervisionLog
- 基于Java和LCN分布式事务框架的设计源码 - tx-lcn
- 基于Java和JavaScript的茶叶评级管理系统设计源码 - tea
- IMG_5680.JPG
- IMG_0437.jpg
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功