<div align="center">
# DeepSpeed Chat: ChatGPTライクなモデルを簡単・高速・低コストに、あらゆるスケールで学習
</div>
<div align="center">
<img src="../../assets/images/hero-figure-black-ja.png" width="1000px" alt="DeepSpeed-Chat!"/>
</div>
DeepSpeed Chat を引用するには、こちらの[arxiv report](https://arxiv.org/abs/2308.01320)を引用してください:
```
@article{yao2023dschat,
title={{DeepSpeed-Chat: Easy, Fast and Affordable RLHF Training of ChatGPT-like Models at All Scales}},
author={Zhewei Yao and Reza Yazdani Aminabadi and Olatunji Ruwase and Samyam Rajbhandari and Xiaoxia Wu and Ammar Ahmad Awan and Jeff Rasley and Minjia Zhang and Conglong Li and Connor Holmes and Zhongzhu Zhou and Michael Wyatt and Molly Smith and Lev Kurilenko and Heyang Qin and Masahiro Tanaka and Shuai Che and Shuaiwen Leon Song and Yuxiong He},
journal={arXiv preprint arXiv:2308.01320},
year={2023}
}
```
# 1. 概要
ChatGPT(チャットGPT)やその類似モデルは、AIの世界に旋風を巻き起こし、デジタル業界に革命的な影響を与えています。これらのモデルは非常に汎用性が高く、要約、コーディング、翻訳などの多様なタスクを、人間の専門家と同等か、それ以上の結果で実施できます。その圧倒的な性能を受けて、AI関連のオープンソースコミュニティでは、ChatGPTスタイルのモデルをより利用しやすくするための複数の取り組みが始まっています(ChatLLaMa、Alpaca、Vicuna、Databricks-Dollyなど)。
しかし、様々なプロジェクトで多大な努力が投じられたにも関わらず、ChatGPTライクなモデルの訓練で必要となるRLHF(Reinforcement Learning from Human Feedback)を、十分に簡単かつ高い効率で実行できるend-to-endなパイプラインは、これまで存在していませんでした。例えば、6.7BのChatGPTライクなモデルを訓練するには、高価なGPUが多数必要になり、多くのデータサイエンティストにとっては実施が困難でした。また仮にそうした計算資源があったとしても、従来のソフトウェアでは、ハードウェアの5%未満の性能しか引き出せませんでした([概要](#実効スループットとスケーラビリティ))。さらには、従来のソフトウェアを用いて、簡単かつ高速に、かつ低コストで、数千億のパラメータを持つ最先端のChatGPTライクなモデルの訓練する方法はありませんでした。
ChatGPTの訓練に用いられるInstructGPTにおいて提案されたRLHFでは、これまでの標準的な事前学習やファインチューニングと全く異なり、はるかに複雑なパイプラインが必要となります。従来のソフトウェアでは、そうしたパイプラインが効果的にサポートする仕組みがありませんでした。そこで、RLHFの訓練を広くAIコミュニティで利用可能とし、ChatGPTのようなモデルを誰もが作成できるにするため、以下の機能を備えたDeepSpeed-Chatをリリースすることになりました。
(i) ***容易に実施可能なChatGPTライクなモデルの訓練と推論***: Hugging Faceレポジトリで提供されている学習済みモデルから開始して、InstructGPT学習の全3ステップを実行し、独自のChatGPTライクなモデルを生成できるスクリプトを提供します。また、学習後の会話形式のインタラクションをテストするための推論APIを提供します。
(ii) ***DeepSpeed-RLHF パイプライン***: DeepSpeed-RLHFパイプラインは、InstructGPTの学習パイプラインの3つのステップ a) 教師付きファインチューニング (Supervised fine-tuning, SFT), b) 報酬モデルのファインチューニング, c) RLHF (Reinforcement Learning with Human Feedback) を、包括的に、かつ1対1の対応を保って再現するものです。また、複数のデータソースからの同時学習を可能にするために、学習データの抽象化・ブレンド機能を提供します。
(iii) ***DeepSpeed-RLHF システム***: DeepSpeedの学習・推論機能を統合した、RLHF用のハイブリッドエンジン DeepSpeed-HE を提供します。DeepSpeed-HE は、RLHFのパイプライン内で推論モードと訓練モードをシームレスに切り替えでき、テンソル並列や高性能なTransformerカーネルなど、DeepSpeed-Inferenceのさまざまな最適化技術を推論に活用できる一方、強化学習の訓練では、ZeROやLoRAベースの多数のメモリ最適化技術を利用します。また、DeepSpeed-HEはRLHFパイプラインに完全に適合した設計となっており、RLHFのさまざまなフェーズでメモリ管理やデータ移動の面で最適な技術を適用できます。
DeepSpeed-RLHFシステムは、大規模モデルの学習において類を見ない効率性を実現し、AIコミュニティが、複雑なRLHFの訓練を高速かつ安価に、そして容易に利用できるようにします:
***実行効率とコスト***: 実行効率において、[DeepSpeed-HEは既存システムよりも15倍以上速く](#実効スループットとスケーラビリティ)、RLHFの訓練を高速かつ低コストに行うことができます。例えば、DeepSpeed-HEは、Azure Cloud上でOPT-13Bモデルをわずか9時間で、OPT-30Bを18時間で訓練でき、それぞれのコストは300ドル以下、600ドル以下です。
<div align="center">
| GPUs | OPT-6.7B | OPT-13B | OPT-30B | OPT-66B |
| ------- | :----------------------------------------------------------: | :------------------------------: | :-----: | :-----: |
| 8x A100-40GB | 5.7 時間 | 10.8 時間 | 1.85 日 | NA |
| 8x A100-80GB | 4.1 時間 ($132) | 9 時間 ($290) | 18 時間 ($580) | 2.1 日($1620) |
*表1. ノード1台(8x A100)を用いた場合の訓練時間とAzureでの概算実行コスト*
</div>
***高スケーラビリティ***: DeepSpeed-HEは、数千億のパラメータを持つモデルをサポートし、複数ノード・複数GPUのシステムで、優れたスケーラビリティを実現することができます。その結果、13Bのモデルであれば1.25時間で学習でき、175Bの巨大モデルでも、1日以内に学習できます。
<div align="center">
| GPUs | OPT-13B | OPT-30B | OPT-66B | OPT-like-175B |
| ------------ | :-------------------------------: | :---------------------------------: | :-----: | :-----------: |
| 64x A100-80G | 1.25 時間 ($320) | 4 時間 ($1024) | 7.5 時間 ($1920) | 20 時間 ($5120) | | |
*表2. 複数ノード(64x A100-80GB)を用いた場合の訓練時間とAzureでの概算実行コスト*
</div>
> ***注意事項***: 上記の2つの表の数値は、訓練のステージ3のものです。DeepSpeed-RLHFが用いるデータセットと訓練の設定において、合計1.35億トークンを1エポックで訓練した際のスループットの実測値に基づいています。合計6750万のクエリートークン(配列長256の13万件のクエリー)と6750万の生成トークン(配列長256の13万件の回答)があり、ステップごとの最大グローバルバッチサイズは 50万 トークン(クエリーと回答それぞれ1024件)です。DeepSpeedRLHFを用いた場合のコストおよび実行時間の比較にあたっては、これらの詳細をよくご確認ください。さらに詳�
没有合适的资源?快使用搜索试试~ 我知道了~
深度学习库:DeepSpeed
共1544个文件
py:745个
png:222个
md:144个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 26 浏览量
2024-04-07
09:41:54
上传
评论
收藏 181.44MB ZIP 举报
温馨提示
喂!想要在深度学习的世界里飞速前进吗?那就来试试 DeepSpeed 这个超能力项目!它是微软推出的一款强大的深度学习库,可以让你在训练模型时提速数倍,节省时间和资源。更厉害的是,它还支持分布式训练,让你可以轻松处理大规模数据集和复杂模型。
资源推荐
资源详情
资源评论
收起资源包目录
深度学习库:DeepSpeed (1544个子文件)
accelerator 15B
build_win.bat 337B
setup.cfg 111B
.clang-format 4KB
CNAME 17B
CODEOWNERS 2KB
.coveragerc 93B
pt_binding.cpp 86KB
ds_transformer_cuda.cpp 46KB
shm.cpp 25KB
deepspeed_aio_common.cpp 13KB
pt_binding.cpp 12KB
ccl.cpp 12KB
cpu_adam_impl.cpp 10KB
deepspeed_py_aio_handle.cpp 10KB
pt_binding.cpp 9KB
cpu_lion_impl.cpp 9KB
cpu_adagrad.cpp 9KB
cuda_linear_kernels.cpp 9KB
cpu_adam_impl.cpp 8KB
blocked_kv_rotary.cpp 8KB
cpu_adagrad.cpp 7KB
multi_tensor_adam.dp.cpp 6KB
rms_norm.cpp 6KB
embed.cpp 5KB
utils.cpp 4KB
deepspeed_py_copy.cpp 4KB
deepspeed_aio_utils.cpp 4KB
deepspeed_py_aio.cpp 4KB
layer_norm.cpp 4KB
fused_lamb_cuda.cpp 4KB
blocked_flash.cpp 4KB
pt_binding.cpp 4KB
quantize.cpp 4KB
custom_cuda_kernel.dp.cpp 3KB
gated_activation_kernels.cpp 3KB
deepspeed_aio_thread.cpp 3KB
bias_activation.cpp 3KB
moe_scatter.cpp 3KB
ragged_ops.cpp 3KB
top_k_gating.cpp 2KB
moe_gather.cpp 2KB
attention.cpp 2KB
atom_builder.cpp 2KB
deepspeed_aio_types.cpp 2KB
py_ds_aio.cpp 2KB
logits_gather.cpp 2KB
core_ops.cpp 1KB
ragged_ops.cpp 1KB
fused_adam.cpp 1KB
deepspeed_pin_tensor.cpp 1KB
fused_lion.cpp 1KB
ragged_kernel_helpers.cpp 1KB
fused_adam_frontend.cpp 880B
fused_adam_frontend.cpp 880B
flatten_unflatten.cpp 788B
fused_lion_frontend.cpp 732B
cpu_lion.cpp 535B
cpu_adam.cpp 535B
cpu_adam.cpp 535B
cutlass_ops.cpp 483B
csrc 10B
normalize_kernels.cu 73KB
fake_quantizer.cu 37KB
transform.cu 31KB
dropout_kernels.cu 29KB
gelu.cu 28KB
softmax.cu 27KB
softmax_kernels.cu 26KB
transform_kernels.cu 22KB
layer_norm.cu 20KB
quantize.cu 20KB
layer_norm_cuda.cu 19KB
blocked_kv_rotary_cuda.cu 19KB
cublas_wrappers.cu 17KB
fused_lamb_cuda_kernel.cu 15KB
general_kernels.cu 14KB
fp6_linear.cu 14KB
gelu_kernels.cu 12KB
quant_reduce.cu 11KB
rms_norm.cu 10KB
rms_norm_cuda.cu 10KB
attention_back.cu 10KB
moe_gemm.cu 8KB
apply_rotary_pos_emb.cu 8KB
quantize_intX.cu 8KB
swizzled_quantize.cu 8KB
gather_scatter.cu 8KB
moe_scatter_cuda.cu 8KB
attention_cu.cu 7KB
token_sort.cu 7KB
quantize.cu 7KB
moe_gather_cuda.cu 7KB
multi_tensor_adam.cu 6KB
opt_bias_add.cu 6KB
gated_activation_kernels_cuda.cu 6KB
embed_cuda.cu 6KB
top_k_gating_cuda.cu 5KB
slice_attn_masks.cu 5KB
dequantize.cu 5KB
共 1544 条
- 1
- 2
- 3
- 4
- 5
- 6
- 16
资源评论
UnknownToKnown
- 粉丝: 1w+
- 资源: 773
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功