# MindSpore+Ascend大模型FAQ
## 介绍
欢迎使用MindSpore+Ascend大模型FAQ手册。本手册以FAQ的形式解答M+A大模型开发过程中常见的问题,包括模型迁移,模型训练,模型精度性能调优等多方面,希望能够帮助您顺利完成模型的开发和迁移任务。
与官方文档和其他指导手册不同,本FAQ侧重于解答实际业务中常遇到的问题,提供经验总结,以帮助快速解决模型开发迁移过程中的共性问题,因此对知识体系的总结无法面面俱到。在此提供M+A业务中常用到的[文档链接](#友情链接),在无法从本FAQ中获取帮助时请参考这些文档/手册。
此外,`cases`文件夹下收录了部分问题案例与相应的解决方法,可以查找相似的问题以参考解决思路
## 文档内容
本FAQ手册主要包括以下几个阶段的内容,请根据您当前遇到问题的所处阶段,在对应的FAQ文档中查询是否有能够帮助解决问题的内容
### 1 模型开发FAQ
[MindSpore编码相关FAQ](FAQ.md#1-mindspore编码faq)
主要内容:在使用MindSpore进行模型开发/迁移时,编码过程中常见的问题,如
**Q**:MindSpore是否支持XX算子?与Pytorch算子有何区别?
**A**:[Q1.1链接](FAQ.md#q11-mindspore是否支持xx算子与pytorch算子有何区别)
**Q**:MindSpore有哪些语法上的限制?
**A**:[Q1.2链接](FAQ.md#q12-mindspore有哪些语法上的限制)
**Q**:MindSpore提供的高阶训练接口不能满足训练流程需求,如何编写自定义训练流程?
**A**:[Q1.3链接](FAQ.md#q13-mindspore提供的高阶训练接口不能满足训练流程需求如何编写自定义训练流程)
...
### 2 模型训练FAQ
[模型训练FAQ](FAQ.md#2-模型训练faq)
主要内容:在完成模型编码过程后,在模型训练过程中常见的问题,如
**Q**:为什么我的模型代码在静态图模式下执行会报错?
**A**:[Q2.1链接](FAQ.md#q21-动态图模式下运行正常的代码在静态图模式下执行报错)
**Q**:如何判断迁移后模型训练流程是否正确?
**A**:[Q2.2链接](FAQ.md#q22-如何判断迁移后模型训练流程是否正确)
**Q**:为什么我训练的模型loss会跑飞?
**Q**:为什么训练进行一段时间后报OOM/其他错误断掉了?
...
### 3 分布式训练FAQ
[分布式训练FAQ](FAQ.md#3-分布式训练faq)
主要内容:在打通基本训练流程后,需求多卡分布式训练,或者云上集群训练时,常见的适配性问题,如
**Q**: 分布式训练与单卡训练有何区别,有哪些可参考的教程文档?
**A**: [Q3.1链接](FAQ.md#q31-分布式训练与单卡训练有何区别有哪些可参考的教程文档)
**Q**:单机多卡的分布式训练应该如何配置环境变量?
**A**: [Q3.2链接](FAQ.md#q32-单机多卡的分布式训练应该如何配置环境变量)
**Q**:云上集群训练和物理机的单机多卡有何区别?应该做什么适配工作?
**Q**:数据并行,模型并行等并行模式有何区别?应该如何使用?
...
### 4 模型精度调优FAQ
[模型精度调优FAQ](FAQ.md#4-模型精度调优faq)
主要内容:训练得到的模型精度没有达到预期,需要定位精度问题时,常见的导致精度问题的原因和精度问题的定位方法,如
**Q**:模型训练结果的精度不理想,应该如何定位精度问题?
**Q**:模型训练过程中存在大量的溢出现象,是什么原因?该怎么定位?
**Q**:定位到某个算子存在精度问题,应该如何解决?
...
### 5 模型性能调优FAQ
[训练性能FAQ](FAQ.md#5-训练性能faq)
主要内容:训练过程的效率没有达到预期,或者存在明显的性能问题时,常见的导致训练性能问题的原因和训练性能问题的定位方法,如
**Q**:模型训练效率明显低于预期,前反向耗时过长,是什么原因?
**A**:[Q5.1链接](FAQ.md#q51-模型训练效率明显低于预期前反向耗时过长是什么原因)
**Q**:如何分析模型训练性能?
**A**:[Q5.2链接](FAQ.md#q52-如何分析模型训练性能)
**Q**:发现数据处理过慢,应该如何解决?
...
## 贡献
您可以通过以下方式对本FAQ进行贡献:
1. 提交issue
如果本FAQ还没有包含您常遇到的问题,请向本仓库提交issue,说明您遇到的问题,我们将会进行解答,并视情况将您的问题加入FAQ手册中
> 注意:提交issue是参与贡献的一种方式,我们将会对常见问题进行解答,但请不要将其作为解决特定复杂问题的手段
2. 提交pull request
如果您已经积累了一些FAQ与对应的解决方式,您可以通过fork本仓库,进行文档编写,并以提交PR的方式参与贡献
## 友情链接
1. [MindSpore官方文档](https://www.mindspore.cn/docs/zh-CN/r1.9/index.html)
- 快速查询使用MindSpore API,了解MindSpore整体架构与特性
2. [MindSpore官方教程](https://www.mindspore.cn/tutorials/zh-CN/r1.9/index.html)
- 分为`初学入门`,`应用实践`,`深度开发`三篇,其中`深度开发`篇介绍了较多MindSpore关键特性,建议阅读
3. [MindSpore官方B站账号](https://space.bilibili.com/526894060)
- MindSpore官方账号,收录有MindSpore入门教程,特性介绍,模型迁移实例等系列视频
4. [MindInsight文档](https://mindspore.cn/vision/docs/zh-CN/r0.1/index.html)
- 训练流程、结果的可视化工具,帮助分析模型训练流程,定位问题
5. [ModelArts官方文档](https://support.huaweicloud.com/modelarts/index.html)
- 云上训练环境ModelArts的官方文档
6. [昇思模型开发者实战全流程手册](https://gitee.com/xiaobai-666/MS-GameTutorial)
- 昇思开发者实战全流程手册,较为全面的知识索引
7. [MindSpore报错地图](https://zhuanlan.zhihu.com/p/552878142)
- 由社区用户收录的常见报错问题与相关的解决方式
8. [aicc项目FAQ](https://gitee.com/Lin-Bert/aicc-project-guide/)
- 记录了在之前aicc项目中所遇到的问题以及解决方案,对modelarts的使用相关有着详细的指导流程
没有合适的资源?快使用搜索试试~ 我知道了~
用于存放整体大模型业务所有的共享材料.rar
共9个文件
md:6个
txt:1个
py:1个
需积分: 5 0 下载量 176 浏览量
2023-09-02
23:08:21
上传
评论
收藏 157KB RAR 举报
温馨提示
“大模型时代,数据决定AI智能的高度。作为数据的载体,数据存储成为AI大模型的关键基础设施。”7月14日,华为数据存储产品线总裁周跃峰在发布会上说道。 当天,华为发布大模型时代AI存储新品,为基础模型训练、行业模型训练,细分场景模型训练推理提供存储最优解,释放AI新动能。 周跃峰告诉观察者网等媒体,现在AI大模型非常热门,但企业实施AI大模型的过程是一个复杂的系统过程,会面临很多挑战。具体来讲,企业在开发及实施大模型应用过程中,面临四大挑战: 首先,数据准备时间长,数据来源分散,归集慢,预处理百TB数据需10天左右;其次,多模态大模型以海量文本、图片为训练集,当前海量小文件的加载速度不足100MB/s,训练集加载效率低;第三,大模型参数频繁调优,训练平台不稳定,平均约2天出现一次训练中断,需要Checkpoint机制恢复训练,故障恢复耗时超过一天;最后,大模型实施门槛高,系统搭建繁杂,资源调度难,GPU资源利用率通常不到40%。
资源推荐
资源详情
资源评论
收起资源包目录
用于存放整体大模型业务所有的共享材料.rar (9个子文件)
用于存放整体大模型业务所有的共享材料
新建文本文档.txt 2KB
bigmodel-docs-master
docs
计算中心平台使用指南.md 10KB
ModelArts Ascend自定义镜像制作教程.md 8KB
大模型云上训练教程.md 9KB
FAQ
tools
hccl_tools.py 6KB
cases
tensorlayerx的srgan在mindspore和pytorch行为不一致原因分析.pdf 352KB
README.md 6KB
FAQ.md 22KB
README.md 3KB
共 9 条
- 1
资源评论
野生的狒狒
- 粉丝: 2511
- 资源: 2146
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功