合并
按日期分层组织的固定大小文件是在 HDFS 中存储日志的常用方法。
在处理这些数据时,它们被分割成的文件数量起着重要的作用。 递归遍历 HDFS 中的目录并访问单个文件会使 Spark 和 MapReduce 作业比拆分到更少但更大的文件的相同数据慢得多。
Coalesce 是一个简单的维护工具,用于将目录合并为文件。
/q/2014/01/14/130528/1923
/q/2014/01/14/130528/1924
/q/2014/01/14/130528/1925
/q/2014/01/14/130528/1926
/q/2014/01/14/742290/48 /q/2014/01/14/130528
/q/2014/01/14/742290/49 =====> /q/2014/01/14/742290
/q/2014/01
评论0
最新资源