归一化压缩距离
这个 python 脚本计算作为参数传递的所有文件之间的。 NCD 可用作层次聚类中的距离度量。 由于 NCD 变慢速度很快,我至少已经对可用内核的计算进行了并行化。 如果需要更快的速度,有一些出版物讨论了字典的方法。
内件
NCD 对压缩器的选择非常敏感。 特别是对于较大的数据,gzip 是一个非常糟糕的选择。 ( NCD(a,a) > 0.1 )。 选择 LZMA2 是因为它可以处理大窗口并允许微调配置。
计算 NCD 后,请始终分析对角线,如果值太高,则压缩器可能不适合您的数据。
用法
进度报告在stdout上的stderr结果上。
如果你通过:
1 个文件:返回Z(a)
2 个文件:返回NCD(a,b) ,没有周围的表。
2个文件:返回一个距离矩阵,只填充矩阵的下半部分。
./ncd.py data/*.csv > results/calculated-
评论0
最新资源