深度学习库:DeepSpeed_deepspeed资源-CSDN文库

共1544个文件

py：745个

png：222个

md：144个

版权申诉

深度学习

19 浏览量 2024-04-07 09:41:54 上传评论收藏 181.44MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

深度学习库:DeepSpeed （1544个子文件）

accelerator 15B

build_win.bat 337B

setup.cfg 111B

.clang-format 4KB

CNAME 17B

CODEOWNERS 2KB

.coveragerc 93B

pt_binding.cpp 86KB

ds_transformer_cuda.cpp 46KB

shm.cpp 25KB

deepspeed_aio_common.cpp 13KB

pt_binding.cpp 12KB

ccl.cpp 12KB

cpu_adam_impl.cpp 10KB

deepspeed_py_aio_handle.cpp 10KB

pt_binding.cpp 9KB

cpu_lion_impl.cpp 9KB

cpu_adagrad.cpp 9KB

cuda_linear_kernels.cpp 9KB

cpu_adam_impl.cpp 8KB

blocked_kv_rotary.cpp 8KB

cpu_adagrad.cpp 7KB

multi_tensor_adam.dp.cpp 6KB

rms_norm.cpp 6KB

embed.cpp 5KB

utils.cpp 4KB

deepspeed_py_copy.cpp 4KB

deepspeed_aio_utils.cpp 4KB

deepspeed_py_aio.cpp 4KB

layer_norm.cpp 4KB

fused_lamb_cuda.cpp 4KB

blocked_flash.cpp 4KB

pt_binding.cpp 4KB

quantize.cpp 4KB

custom_cuda_kernel.dp.cpp 3KB

gated_activation_kernels.cpp 3KB

deepspeed_aio_thread.cpp 3KB

bias_activation.cpp 3KB

moe_scatter.cpp 3KB

ragged_ops.cpp 3KB

top_k_gating.cpp 2KB

moe_gather.cpp 2KB

attention.cpp 2KB

atom_builder.cpp 2KB

deepspeed_aio_types.cpp 2KB

py_ds_aio.cpp 2KB

logits_gather.cpp 2KB

core_ops.cpp 1KB

ragged_ops.cpp 1KB

fused_adam.cpp 1KB

deepspeed_pin_tensor.cpp 1KB

fused_lion.cpp 1KB

ragged_kernel_helpers.cpp 1KB

fused_adam_frontend.cpp 880B

flatten_unflatten.cpp 788B

fused_lion_frontend.cpp 732B

cpu_lion.cpp 535B

cpu_adam.cpp 535B

cutlass_ops.cpp 483B

csrc 10B

normalize_kernels.cu 73KB

fake_quantizer.cu 37KB

transform.cu 31KB

dropout_kernels.cu 29KB

gelu.cu 28KB

softmax.cu 27KB

softmax_kernels.cu 26KB

transform_kernels.cu 22KB

layer_norm.cu 20KB

quantize.cu 20KB

layer_norm_cuda.cu 19KB

blocked_kv_rotary_cuda.cu 19KB

cublas_wrappers.cu 17KB

fused_lamb_cuda_kernel.cu 15KB

general_kernels.cu 14KB

fp6_linear.cu 14KB

gelu_kernels.cu 12KB

quant_reduce.cu 11KB

rms_norm.cu 10KB

rms_norm_cuda.cu 10KB

attention_back.cu 10KB

moe_gemm.cu 8KB

apply_rotary_pos_emb.cu 8KB

quantize_intX.cu 8KB

swizzled_quantize.cu 8KB

gather_scatter.cu 8KB

moe_scatter_cuda.cu 8KB

attention_cu.cu 7KB

token_sort.cu 7KB

quantize.cu 7KB

moe_gather_cuda.cu 7KB

multi_tensor_adam.cu 6KB

opt_bias_add.cu 6KB

gated_activation_kernels_cuda.cu 6KB

embed_cuda.cu 6KB

top_k_gating_cuda.cu 5KB

slice_attn_masks.cu 5KB

dequantize.cu 5KB

共 1544 条

<div align="center"> # DeepSpeed Chat: ChatGPTライクなモデルを簡単・高速・低コストに、あらゆるスケールで学習 </div> <div align="center"> <img src="../../assets/images/hero-figure-black-ja.png" width="1000px" alt="DeepSpeed-Chat!"/> </div> DeepSpeed Chat を引用するには、こちらの[arxiv report](https://arxiv.org/abs/2308.01320)を引用してください: ``` @article{yao2023dschat, title={{DeepSpeed-Chat: Easy, Fast and Affordable RLHF Training of ChatGPT-like Models at All Scales}}, author={Zhewei Yao and Reza Yazdani Aminabadi and Olatunji Ruwase and Samyam Rajbhandari and Xiaoxia Wu and Ammar Ahmad Awan and Jeff Rasley and Minjia Zhang and Conglong Li and Connor Holmes and Zhongzhu Zhou and Michael Wyatt and Molly Smith and Lev Kurilenko and Heyang Qin and Masahiro Tanaka and Shuai Che and Shuaiwen Leon Song and Yuxiong He}, journal={arXiv preprint arXiv:2308.01320}, year={2023} } ``` # 1. 概要 ChatGPT（チャットGPT）やその類似モデルは、AIの世界に旋風を巻き起こし、デジタル業界に革命的な影響を与えています。これらのモデルは非常に汎用性が高く、要約、コーディング、翻訳などの多様なタスクを、人間の専門家と同等か、それ以上の結果で実施できます。その圧倒的な性能を受けて、AI関連のオープンソースコミュニティでは、ChatGPTスタイルのモデルをより利用しやすくするための複数の取り組みが始まっています（ChatLLaMa、Alpaca、Vicuna、Databricks-Dollyなど）。しかし、様々なプロジェクトで多大な努力が投じられたにも関わらず、ChatGPTライクなモデルの訓練で必要となるRLHF（Reinforcement Learning from Human Feedback）を、十分に簡単かつ高い効率で実行できるend-to-endなパイプラインは、これまで存在していませんでした。例えば、6.7BのChatGPTライクなモデルを訓練するには、高価なGPUが多数必要になり、多くのデータサイエンティストにとっては実施が困難でした。また仮にそうした計算資源があったとしても、従来のソフトウェアでは、ハードウェアの5%未満の性能しか引き出せませんでした（[概要](#実効スループットとスケーラビリティ)）。さらには、従来のソフトウェアを用いて、簡単かつ高速に、かつ低コストで、数千億のパラメータを持つ最先端のChatGPTライクなモデルの訓練する方法はありませんでした。 ChatGPTの訓練に用いられるInstructGPTにおいて提案されたRLHFでは、これまでの標準的な事前学習やファインチューニングと全く異なり、はるかに複雑なパイプラインが必要となります。従来のソフトウェアでは、そうしたパイプラインが効果的にサポートする仕組みがありませんでした。そこで、RLHFの訓練を広くAIコミュニティで利用可能とし、ChatGPTのようなモデルを誰もが作成できるにするため、以下の機能を備えたDeepSpeed-Chatをリリースすることになりました。 (i) ***容易に実施可能なChatGPTライクなモデルの訓練と推論***: Hugging Faceレポジトリで提供されている学習済みモデルから開始して、InstructGPT学習の全3ステップを実行し、独自のChatGPTライクなモデルを生成できるスクリプトを提供します。また、学習後の会話形式のインタラクションをテストするための推論APIを提供します。 (ii) ***DeepSpeed-RLHF パイプライン***: DeepSpeed-RLHFパイプラインは、InstructGPTの学習パイプラインの3つのステップ a) 教師付きファインチューニング (Supervised fine-tuning, SFT), b) 報酬モデルのファインチューニング, c) RLHF (Reinforcement Learning with Human Feedback) を、包括的に、かつ1対1の対応を保って再現するものです。また、複数のデータソースからの同時学習を可能にするために、学習データの抽象化・ブレンド機能を提供します。 (iii) ***DeepSpeed-RLHF システム***: DeepSpeedの学習・推論機能を統合した、RLHF用のハイブリッドエンジン DeepSpeed-HE を提供します。DeepSpeed-HE は、RLHFのパイプライン内で推論モードと訓練モードをシームレスに切り替えでき、テンソル並列や高性能なTransformerカーネルなど、DeepSpeed-Inferenceのさまざまな最適化技術を推論に活用できる一方、強化学習の訓練では、ZeROやLoRAベースの多数のメモリ最適化技術を利用します。また、DeepSpeed-HEはRLHFパイプラインに完全に適合した設計となっており、RLHFのさまざまなフェーズでメモリ管理やデータ移動の面で最適な技術を適用できます。 DeepSpeed-RLHFシステムは、大規模モデルの学習において類を見ない効率性を実現し、AIコミュニティが、複雑なRLHFの訓練を高速かつ安価に、そして容易に利用できるようにします： ***実行効率とコスト***: 実行効率において、[DeepSpeed-HEは既存システムよりも15倍以上速く](#実効スループットとスケーラビリティ)、RLHFの訓練を高速かつ低コストに行うことができます。例えば、DeepSpeed-HEは、Azure Cloud上でOPT-13Bモデルをわずか9時間で、OPT-30Bを18時間で訓練でき、それぞれのコストは300ドル以下、600ドル以下です。 <div align="center"> | GPUs | OPT-6.7B | OPT-13B | OPT-30B | OPT-66B | | ------- | :----------------------------------------------------------: | :------------------------------: | :-----: | :-----: | | 8x A100-40GB | 5.7 時間 | 10.8 時間 | 1.85 日 | NA | | 8x A100-80GB | 4.1 時間 ($132) 　 | 9 時間 ($290) | 18 時間 ($580) | 2.1 日（$1620） | *表1. ノード1台（8x A100）を用いた場合の訓練時間とAzureでの概算実行コスト* </div> ***高スケーラビリティ***: DeepSpeed-HEは、数千億のパラメータを持つモデルをサポートし、複数ノード・複数GPUのシステムで、優れたスケーラビリティを実現することができます。その結果、13Bのモデルであれば1.25時間で学習でき、175Bの巨大モデルでも、1日以内に学習できます。 <div align="center"> | GPUs | OPT-13B | OPT-30B | OPT-66B | OPT-like-175B | | ------------ | :-------------------------------: | :---------------------------------: | :-----: | :-----------: | | 64x A100-80G | 1.25 時間 ($320) | 4 時間 ($1024) | 7.5 時間 ($1920) | 20 時間 ($5120) | | | *表2. 複数ノード（64x A100-80GB）を用いた場合の訓練時間とAzureでの概算実行コスト* </div> > ***注意事項***: 上記の2つの表の数値は、訓練のステージ3のものです。DeepSpeed-RLHFが用いるデータセットと訓練の設定において、合計1.35億トークンを1エポックで訓練した際のスループットの実測値に基づいています。合計6750万のクエリートークン（配列長256の13万件のクエリー）と6750万の生成トークン（配列長256の13万件の回答）があり、ステップごとの最大グローバルバッチサイズは 50万トークン（クエリーと回答それぞれ1024件）です。DeepSpeedRLHFを用いた場合のコストおよび実行時間の比較にあたっては、これらの詳細をよくご確認ください。さらに詳�

评论收藏

内容反馈

版权申诉