2023/6/28 17:19
微软:我已把显存优化做到了极致,还有谁?
https://mp.weixin.qq.com/s/VOgNPEcDhmhMuDdy_HL0BA
1/12
微软:我已把显存优化做到了极致,还有谁?
收录于合集
#卖萌屋@深度学习与炼丹技巧
30个
文 | 王 思 若
大家好,我是王思若。
17年6月Google提出了Transformer架构,这篇目前Citation 4.3万的文章开启了大规模预训练
模型时代。
或者,更精确的从18年OpenAI和Google分别基于其中的Decoder和Encoder发布的大规模预训
练模型GPT1和BERT开始,各色千亿,万亿模型就在这方舞台上你方唱罢我登场。
20年千亿参数GPT-3, 21年万亿参数Switch Transformer...
巨量参数的大模型不断刷榜各项榜单。
那时候我问实验室小伙伴,你的梦想是什么?他们说训练预训练大模型是每个男孩心中的梦。
确实, 这 是 一 个有“ 一 丢 丢 ” 昂贵的 梦 想 , Google用2048块TPU 训 练 了 Switch Transformer,
NVIDIA用4480块A100训练了Megatron(威震天),巨大的计算资源的消耗让这些巨头都有些承
担不起。
如何加快模型训练,为万亿级参数的大模型预训练寻找最优解成为了一个热点问题。
王思若 2022-06-20 12:05 发表于北京
原创
夕小瑶科技说