用于存放整体大模型业务所有的共享材料.rar资源-CSDN文库

共9个文件

md：6个

txt：1个

py：1个

人工智能

需积分: 5 176 浏览量 2023-09-02 23:08:21 上传评论收藏 157KB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

用于存放整体大模型业务所有的共享材料.rar （9个子文件）

用于存放整体大模型业务所有的共享材料

新建文本文档.txt 2KB

bigmodel-docs-master

docs

计算中心平台使用指南.md 10KB

ModelArts Ascend自定义镜像制作教程.md 8KB

大模型云上训练教程.md 9KB

FAQ

tools

hccl_tools.py 6KB

cases

tensorlayerx的srgan在mindspore和pytorch行为不一致原因分析.pdf 352KB

README.md 6KB

FAQ.md 22KB

README.md 3KB

# MindSpore+Ascend大模型FAQ ## 介绍欢迎使用MindSpore+Ascend大模型FAQ手册。本手册以FAQ的形式解答M+A大模型开发过程中常见的问题，包括模型迁移，模型训练，模型精度性能调优等多方面，希望能够帮助您顺利完成模型的开发和迁移任务。与官方文档和其他指导手册不同，本FAQ侧重于解答实际业务中常遇到的问题，提供经验总结，以帮助快速解决模型开发迁移过程中的共性问题，因此对知识体系的总结无法面面俱到。在此提供M+A业务中常用到的[文档链接](#友情链接)，在无法从本FAQ中获取帮助时请参考这些文档/手册。此外，`cases`文件夹下收录了部分问题案例与相应的解决方法，可以查找相似的问题以参考解决思路 ## 文档内容本FAQ手册主要包括以下几个阶段的内容，请根据您当前遇到问题的所处阶段，在对应的FAQ文档中查询是否有能够帮助解决问题的内容 ### 1 模型开发FAQ [MindSpore编码相关FAQ](FAQ.md#1-mindspore编码faq) 主要内容：在使用MindSpore进行模型开发/迁移时，编码过程中常见的问题，如 **Q**：MindSpore是否支持XX算子？与Pytorch算子有何区别？ **A**：[Q1.1链接](FAQ.md#q11-mindspore是否支持xx算子与pytorch算子有何区别) **Q**：MindSpore有哪些语法上的限制？ **A**：[Q1.2链接](FAQ.md#q12-mindspore有哪些语法上的限制) **Q**：MindSpore提供的高阶训练接口不能满足训练流程需求，如何编写自定义训练流程？ **A**：[Q1.3链接](FAQ.md#q13-mindspore提供的高阶训练接口不能满足训练流程需求如何编写自定义训练流程) ... ### 2 模型训练FAQ [模型训练FAQ](FAQ.md#2-模型训练faq) 主要内容：在完成模型编码过程后，在模型训练过程中常见的问题，如 **Q**：为什么我的模型代码在静态图模式下执行会报错？ **A**：[Q2.1链接](FAQ.md#q21-动态图模式下运行正常的代码在静态图模式下执行报错) **Q**：如何判断迁移后模型训练流程是否正确？ **A**：[Q2.2链接](FAQ.md#q22-如何判断迁移后模型训练流程是否正确) **Q**：为什么我训练的模型loss会跑飞？ **Q**：为什么训练进行一段时间后报OOM/其他错误断掉了？ ... ### 3 分布式训练FAQ [分布式训练FAQ](FAQ.md#3-分布式训练faq) 主要内容：在打通基本训练流程后，需求多卡分布式训练，或者云上集群训练时，常见的适配性问题，如 **Q**: 分布式训练与单卡训练有何区别，有哪些可参考的教程文档？ **A**: [Q3.1链接](FAQ.md#q31-分布式训练与单卡训练有何区别有哪些可参考的教程文档) **Q**：单机多卡的分布式训练应该如何配置环境变量？ **A**: [Q3.2链接](FAQ.md#q32-单机多卡的分布式训练应该如何配置环境变量) **Q**：云上集群训练和物理机的单机多卡有何区别？应该做什么适配工作？ **Q**：数据并行，模型并行等并行模式有何区别？应该如何使用？ ... ### 4 模型精度调优FAQ [模型精度调优FAQ](FAQ.md#4-模型精度调优faq) 主要内容：训练得到的模型精度没有达到预期，需要定位精度问题时，常见的导致精度问题的原因和精度问题的定位方法，如 **Q**：模型训练结果的精度不理想，应该如何定位精度问题？ **Q**：模型训练过程中存在大量的溢出现象，是什么原因？该怎么定位？ **Q**：定位到某个算子存在精度问题，应该如何解决？ ... ### 5 模型性能调优FAQ [训练性能FAQ](FAQ.md#5-训练性能faq) 主要内容：训练过程的效率没有达到预期，或者存在明显的性能问题时，常见的导致训练性能问题的原因和训练性能问题的定位方法，如 **Q**：模型训练效率明显低于预期，前反向耗时过长，是什么原因？ **A**：[Q5.1链接](FAQ.md#q51-模型训练效率明显低于预期前反向耗时过长是什么原因) **Q**：如何分析模型训练性能？ **A**：[Q5.2链接](FAQ.md#q52-如何分析模型训练性能) **Q**：发现数据处理过慢，应该如何解决？ ... ## 贡献您可以通过以下方式对本FAQ进行贡献： 1. 提交issue 如果本FAQ还没有包含您常遇到的问题，请向本仓库提交issue，说明您遇到的问题，我们将会进行解答，并视情况将您的问题加入FAQ手册中 > 注意：提交issue是参与贡献的一种方式，我们将会对常见问题进行解答，但请不要将其作为解决特定复杂问题的手段 2. 提交pull request 如果您已经积累了一些FAQ与对应的解决方式，您可以通过fork本仓库，进行文档编写，并以提交PR的方式参与贡献 ## 友情链接 1. [MindSpore官方文档](https://www.mindspore.cn/docs/zh-CN/r1.9/index.html) - 快速查询使用MindSpore API，了解MindSpore整体架构与特性 2. [MindSpore官方教程](https://www.mindspore.cn/tutorials/zh-CN/r1.9/index.html) - 分为`初学入门`，`应用实践`，`深度开发`三篇，其中`深度开发`篇介绍了较多MindSpore关键特性，建议阅读 3. [MindSpore官方B站账号](https://space.bilibili.com/526894060) - MindSpore官方账号，收录有MindSpore入门教程，特性介绍，模型迁移实例等系列视频 4. [MindInsight文档](https://mindspore.cn/vision/docs/zh-CN/r0.1/index.html) - 训练流程、结果的可视化工具，帮助分析模型训练流程，定位问题 5. [ModelArts官方文档](https://support.huaweicloud.com/modelarts/index.html) - 云上训练环境ModelArts的官方文档 6. [昇思模型开发者实战全流程手册](https://gitee.com/xiaobai-666/MS-GameTutorial) - 昇思开发者实战全流程手册，较为全面的知识索引 7. [MindSpore报错地图](https://zhuanlan.zhihu.com/p/552878142) - 由社区用户收录的常见报错问题与相关的解决方式 8. [aicc项目FAQ](https://gitee.com/Lin-Bert/aicc-project-guide/) - 记录了在之前aicc项目中所遇到的问题以及解决方案，对modelarts的使用相关有着详细的指导流程

评论收藏

内容反馈