使用DVC构建可维护的机器学习管道
本指南以为起点,并带您了解如何使用DVC构建可维护的机器学习管道。
如果您有时间,可以在查看完整的文章(比本自述文件更深入的解释 :winking_face: )
原则是:
为每个管道步骤编写一个python脚本
将每个脚本使用的参数保存在yaml文件中
指定每个脚本所依赖的文件
指定每个脚本生成的文件
在本教程中,我们将建立一个模型来对20newsgroups数据集进行分类。
环境:装有Python 3 , pip和Git的Linux
第一:将DVC安装为Python库
$ mkdir dvc_tutorial
$ cd dvc_tutorial
$ python3 -m