![](https://csdnimg.cn/release/download_crawler_static/87656575/bg1.jpg)
CDA 数据分析师(CDA.cn)——真本事,心舒适
加快 Python 算法的四个方法(四)Dask
相信大家在做一些算法经常会被庞大的数据量所造成的超多计算量需要的时间而折磨的痛苦不
已,接下来我们围绕四个方法来帮助大家加快一下 Python 的计算时间,减少大家在算法上的
等待时间。今天给大家讲述最后一方面的内容,关于 Dask 的方法运用。
1.简介
随着对机器学习算法并行化的需求不断增加,由于数据大小甚至模型大小呈指数级增长,如果
我们拥有一个工具,可以帮助我们并行化处理
Pandas
的 DataFrame,可以并行化处理
Numpy 的计算,甚至并行化我们的机器学习算法(可能是来自 sklearn 和 Tensorflow 的算法)
也没有太多的麻烦,那它对我们会非常有帮助。
好消息是确实存在这样的库,其名称为
Dask
。
Dask
是一个并行计算库,它不仅有助于并行化
现有的机器学习工具(
Pandas
和
Numpy
)(即使用高级集合),而且还有助于并行化低级任
务/功能,并且可以通过制作任务图来处理这些功能之间的复杂交互。[ 即使用低级调度程序 ]
这类似于 Python 的线程或多处理模块。