基于基于Kubernetes的的AI训练实践训练实践
七牛云的 AI 部门属于容器云部门的客户,针对于 AI 训练这样一个特殊的训练场景,具体落实到 k8s 的实践上具体实施工作怎
样做的,带给七牛怎样的好处,以及从中碰到一些什么样的问题陆龙文对此做了分享。
1、AI 训练的业务情况
七牛本身有一个深度学习的平台,这是一个端到端的深度学习平台,包括从对原始富媒体数据的打标,到制成一个可以被训练
任务读取的样本集,到训练任务的触发以及训练成果的存储,包括对于最后训练出来模型的评估,评估完成以后最后将这个模
型打包成你的线上业务,通过 API 形式对外提供服务一整套流程的平台。
AI 训练是这个平台中的一个部分。AI训练迭代是怎样的一个事情?
AI 训练迭代分两个阶段:
第一,样本集的生成,任务输入是两个:一是来自于七牛对象存储的原始数据,主要是一些图片、音视频流富媒体数据;二是
ava 平台本身有一个打标系统,可以对原始数据进行标签,通过样本生成器生成样本集,存储到容器云平台的存储当中,这是
一个分布式的网络存储。
第二,一旦你的样本集生成完成以后会自动触发或者人工触发一个训练任务进行一个训练,读取整个平台由算法工程师事前准
备的算法模型、训练参数到你的训练任务当中进行 。
训练,最后将你的训练任务输出到存储,最后上传到对象存储当中去的整个过程。
2、Kubernetes 的优势
我们这边遇到的痛点是什么?
第一,使用 Kubernetes 做平台之前,训练流程上需要算法工程师通过脚本、控制训练任务的触发以及训练任务要存储到什么
评论0
最新资源