Hadoop 的 WARC 输入和输出格式
warc-hadoop 是一个 Java 库,用于在 Hadoop 中处理文件。 它提供了用于在 MapReduce 作业中读取 WARC 文件的 InputFormats 和用于写入 WARC 文件的 OutputFormats(支持“旧” org.apache.hadoop.mapred和“新” org.apache.hadoop.mapreduce API)。
WARC 文件用于记录网络爬虫的活动。 它们包括发送到服务器的 HTTP 请求和收到的 HTTP 响应(包括标头)。 WARC 是一个,被和使用(除其他外)。
这个 warc-hadoop 库是为了探索数据而编写的,这是一个公开可用的数十亿网页转储。 这些数据作为 AWS 上的免费提供。 如果你想处理它,你只需要支付在AWS上处理它的计算能力,或者下载它的网络带宽。
使用 war
评论0
最新资源