人工智能训练平台.pdf
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
⼈⼯智能训练平台 ⼈⼯智能训练平台 1、平台定位 为深度学习提供⼀个深度定制和优化的⼈⼯智能集群管理平台,让⼈⼯智能堆栈变得简单、快速、可扩展。 为深度学习量⾝定做,可扩展⽀撑更多AI和⼤数据框架 通过创新的AI平台运⾏环境⽀持,⼏乎所有深度学习框架如CNTK、TensorFlow、PyTorch等⽆需修改即可运⾏;其基于Docker的架构则 让⽤户可以⽅便地扩展更多AI与⼤数据框架。 容器与微服务化,让AI流⽔线实现DevOps AI平台 100%基于微服务架构,让AI平台以及开发便于实现DevOps的开发运维模式。 ⽀持GPU多租,可统筹集群资源调度与服务管理能⼒ 在深度学习负载下,GPU逐渐成为资源调度的⼀等公民,AI平台提供了针对GPU优化的调度算法,丰富的端⼝管理,⽀持Virtual Cluster 多租机制,可通过Launcher Server为服务作业的运⾏保驾护航。 提供丰富的运营、监控、调试功能,降低运维复杂度 PAI为运营⼈员提供了硬件、服务、作业的多级监控,同时开发者还可以通过⽇志、SSH等⽅便调试作业。 2、系统架构 AI平台的架构如下图所⽰,⽤户通过Web Portal调⽤REST Server的API提交作业(Job)和监控集群,其它第三⽅⼯具也可通过该API进 ⾏任务管理。随后Web Portal与Launcher交互,以执⾏各种作业,再由Launcher Server处理作业请求并将其提交⾄Hadoop YARN进 ⾏资源分配与调度。可以看到,AI平台给YARN添加了GPU⽀持,使其能将GPU作为可计算资源调度,助⼒深度学习。其中,YARN负责作 业的管理,其它静态资源(下图蓝⾊⽅框所⽰)则由Kubernetes进⾏管理。 提交作业:Web Portal 交互中间件:Launcher 作业、资源管理:Hadoop YARN 静态资源管理:Kubernetes AI平台完全基于微服务架构,所有的AI平台服务和AI Job均在容器中运⾏,这样的设计让AI平台的部署更加简单,⽆论是在Ubuntu裸机集 群还是在云服务器上,仅需运⾏⼏个脚本即可完成部署。这同时也使其能够⽀持多种不同类型的AI任务,如CNTK、TensorFlow、 PyTorch等不同的深度学习框架。此外,⽤户通过⾃定义Job容器即可⽀持新的深度学习框架和其他机器学习、⼤数据等AI任务,具有很强 的扩展性。 在运维⽅⾯,AI平台提供了AI任务在线调试、错误报警、⽇志管理、性能检测等功能,显著降低了AI平台的⽇常运维难度。同时,它还⽀持 MPI、RDMA⽹络,可满⾜企业对⼤规模深度学习任务的性能要求。 不仅如此,AI平台还实现了与Visual Studio的集成。Visual Studio Tools for AI是微软Visual Studio 2017 IDE的扩展,⽤户在Visual Studio中就可以开发、调试和部署深度学习和AI解决⽅案。集成后,⽤户在Visual Studio中调试好的模型可便捷地部署到AI平台集群中。 AI平台提供了友好的⽤户界⾯,操作简单,便于⽤户进⾏集群监控、任务提交等。例如,主界⾯上显⽰了集群的GPU利⽤率、节点总数、 CPU利⽤率、⽹络状况等。当某项数据异常时,AI平台将启动报警机制通知⽤户,并在UI上以颜⾊改变的形式进⾏提醒(如变成红⾊等)。 AI平台主界⾯ 集群Job概览,点击Job名称可以查看详细信息及⽇志信息 Job运⾏状态页显⽰容器的IP地址、端⼝和GPU位置,该页⾯还提供远程SSH登录容器的信息 集群中机器运⾏状况概览,不同颜⾊展现了不同的忙闲程度 集群中每台机器上的Service运⾏状况
- zl475990532023-12-15怎么能有这么好的资源!只能用感激涕零来形容TAT...
- 粉丝: 168
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 上市公司-股票性质数据-工具变量(民企、国企、央企)2003-2022年.dta
- 上市公司-股票性质数据-工具变量(民企、国企、央企)2003-2022年.xlsx
- Reeds+Shepp曲线算法讲解和实现.pdf
- 毕业设计基于SpringBoot+MyBatisPlus+MySQL+Vue的外卖配送信息系统源代码+数据库
- 词向量(Word Embeddings)是自然语言处理(NLP)领域的一种重要技术.txt
- Surfer,线性函数
- MyBatis 的动态 SQL 是其核心特性之一.txt
- 时代的sdddsddsddsd
- 基于哈希链表的简单人员信息管理系统
- 其他类别JdonFramework开源框架 v5.1 Build20071025-jdonframework-5.1.rar