【免费】3、Druid的loaddata示例（实时kafka数据和离线-本地或hdfs数据）

需积分: 0 7 浏览量更新于2023-05-24 收藏 271KB PDF 举报

3、Druid的load data 示例（实时kafka数据和离线-本地或hdfs数据）网页地址：https://blog.csdn.net/chenwewi520feng/article/details/130801752 本文介绍了Druid摄取离线与实时数据的过程，离线数据包括本地文件和hdfs数据，实时数据以kafka为示例进行说明。 Apache Druid 是一个高性能的列式数据存储系统，常用于实时分析和大数据处理。在本篇文章中，我们将深入探讨如何使用 Druid 进行数据加载，特别是针对实时 Kafka 数据和离线本地或 HDFS 数据的摄取过程。我们来看离线数据的摄取。批量数据加载通常用于处理历史数据或者定期更新的数据。Druid 提供了两种方法来摄入离线数据，即从本地文件和 HDFS 文件中加载。 1. **本地文件摄取**：在上一篇文章中已经提到了本地文件的摄入步骤。通常，你可以通过编写 JSON 格式的索引任务配置文件来指定数据源、解析器等信息，然后使用 Druid 的 indexing service 来执行这个任务。数据解析器如“hadoopyString”可以处理文本数据，并将其转换为 Druid 可以理解的格式。 2. **HDFS 文件摄取**：要从 HDFS 加载数据，首先确保你的 Hadoop 集群正常运行。你需要将数据上传到 HDFS，并创建一个 JSON 配置文件（如 `index_test.json`），其中包含数据源、解析器和时间戳等信息。例如，配置文件可能指定了 HDFS 上数据文件的位置（如 `hdfs://HadoopHAcluster/druid/test.json`）以及数据解析的格式（如 JSON）。在 Druid 中，你可以设置 `type` 为 `index_hadoop` 来启动 Hadoop 批量加载任务。接下来，我们转向实时数据的摄取，这里以 Kafka 为例。Kafka 是一个分布式流处理平台，常用于实时数据管道和消息系统。Druid 可以直接从 Kafka 主题消费数据，进行实时分析。实时数据摄取使用的是 Druid 的 `KafkaIndexTask`。你需要在 Druid 的配置文件中定义 Kafka 源，包括 Kafka 服务器地址、主题名称、消费者配置等。同时，你需要指定数据解析器，以便 Druid 能够理解 Kafka 中的消息内容。例如，如果你的消息是 JSON 格式，可以使用 `firehose:inputFormat:json`。在创建好配置后，通过 Druid 的 REST API 或者使用命令行工具提交这个任务，Druid 就会开始实时地从 Kafka 中读取并处理数据。总结一下，Druid 的数据加载能力覆盖了离线和实时场景，使得它能够灵活应对各种数据源。对于离线数据，无论是本地文件还是 HDFS 文件，都可以通过 JSON 配置文件来定义数据加载任务。而对于实时数据，Druid 支持直接从 Kafka 等流数据平台获取数据，实现了快速响应的实时分析需求。这种强大的数据摄取机制是 Druid 成为实时分析领域的重要工具之一。



Apache Druid 系列文章

1、Druid（Imply-3.0.4）介绍及部署（centos6.10）、验证

2、Druid的入门示例（使用三种不同的方式摄入数据和提交任务）

3、Druid的load data 示例（实时kafka数据和离线-本地或hdfs数据）

4、java操作druid api

5、Druid配置文件详细介绍以及示例

6、Druid的Roll up详细介绍及示例

@TOC

本文介绍了Druid摄取离线与实时数据的过程，离线数据包括本地文件和hdfs数据，实时数据以kafka为

示例进行说明。

本文依赖hadoop环境、kafka环境以及druid环境可正常使用。

本文分为2个部分，即离线数据和实时数据的摄取。

一、批量（离线）数据摄取

批量数据可以通过两种方式来摄入，即摄入本地文件和hdfs文件。

1、摄取本地文件

具体示例参考2、Druid的入门示例（使用三种不同的方式摄入数据和提交任务）

2、摄取HDFS文件

前提：hdfs、yarn集群运行正常，测试环境hadop集群是高可用环境

1）、将需要测试的数据上传至hadoop集群中

2）、编写 index_test.json 文件中配置

[alanchan@server1 ~]$ hadoop fs -ls hdfs://HadoopHAcluster/druid

Found 1 items

-rw-r--r--  3 alanchan supergroup    2582 2022-12-29 09:51

hdfs://HadoopHAcluster/druid/test.json

# 文件位置

hdfs://HadoopHAcluster/druid/test.json

# index_test.json

{

 "type": "index_hadoop",

 "spec": {

   "dataSchema": {

     "dataSource": "test",

     "parser": {

       "type": "hadoopyString",

       "parseSpec": {

         "format": "json",

         "dimensionsSpec": {

           "dimensions": [

             "channel",

             "cityName",

             "comment",

             "countryIsoCode",

             "countryName",

             "isAnonymous",

             "isMinor",

             "isNew",

             "isRobot",

             "isUnpatrolled",

             "metroCode",

             "namespace",

             "page",

             "regionIsoCode",

             "regionName",

             "user"

           ]

         },

         "timestampSpec": {

           "format": "auto",

           "column": "time"

         }

       }

     },

     "metricsSpec": [

       {

         "name": "count",

         "type": "count"

       },

       {

         "name": "added",

         "type": "longSum",

         "fieldName": "added"

       },

       {

         "name": "deleted",

         "type": "longSum",

         "fieldName": "deleted"

       },

       {

         "name": "delta",

         "type": "longSum",

         "fieldName": "delta"

       }

     ],

     "granularitySpec": {

       "type": "uniform",

       "segmentGranularity": "day",

       "queryGranularity": "none",

       "intervals": [

剩余6页未读，继续阅读

资源推荐

资源评论

一瓢一瓢的饮alanchanchn

粉丝: 8091
资源: 69

3、Druid的load data 示例（实时kafka数据和离线-本地或hdfs数据）

2、Druid的入门示例（使用三种不同的方式摄入数据和提交任务）

6、Druid的Roll up详细介绍及示例

1、Druid（Imply-3.0.4）介绍及部署（centos6.10）、验证

5、Druid配置文件详细介绍以及示例

4、java操作druid api

Spring-Mybatis-Druid-Kafka示例集成Example

druid-spring-boot-starter-1.2.8-API文档-中文版.zip

druid-spring-boot-starter-1.1.9-API文档-中英对照版.zip

druid-0.10.0-bin.tar.gz

SpringBoot+druid+多数据源示例

druid-spring-boot-starter-1.1.9-API文档-中文版.zip

滴滴大数据离线和实时平台架构和实践.pdf

参照阿里druid整理druid-spring-boot-starter的demo

druid-spring-boot-starter-1.1.10-API文档-中文版.zip

Python库 | druid_data-0.1.20.tar.gz

Druid源码（apache-druid-0.22.1-src.tar.gz）

SpringBoot整合JDBC&Druid;数据源示例

Druid实时大数据分析原理与实践__欧阳辰

大数据 欧阳辰-实时大数据分析之利器Druid

Druid+Spring示例

druid数据分析原理与实践

druid-spring-boot-starter-1.2.8.jar

druid-0.2.19 阿里数据源

SpringBoot + mybatis-plus + druid 实现mySql与Orcl双数据源

Spring+Mybatis+Druid+POI示例整合demo

druid-spring-boot-starter-1.1.24.jar

spring-boot集成mybtis+druid实现hive/mysql多数据源切换

Druid之旅-大数据实时分析数据存储框架 共42页.pdf

druid-1.0.14-API文档-中文版.zip

最新资源

大数据欧阳辰-实时大数据分析之利器Druid

Druid之旅-大数据实时分析数据存储框架共42页.pdf