apache_drill_tutorial.pdf资源-CSDN文库

需积分: 10 86 浏览量 2020-08-04 19:07:15 上传评论收藏 1.37MB PDF 举报

https://www.tutorialspoint.com/apache_drill/apache_drill_pdf_version.htm https://www.tutorialspoint.com/apache_drill/apache_drill_pdf_version.htm https://www.tutorialspoint.com/apache_drill/apache_drill_tutorial.pdf https://www.tutorialspoint.com/apache_drill/apache_drill_tutorial.pdf https://www.tutorialspoint.com/apache_drill/apache_drill_tutorial.pdf https://www.tutorialspoint.com/apache_drill/apache_drill_tutorial.pdf Apache Drill 是一个开源的无模式SQL查询引擎，它在大数据分析领域扮演着重要的角色。与传统的Hive不同，Drill不依赖MapReduce作业，并且它并不完全基于Hadoop生态系统。实际上，Drill的设计灵感来源于Google的Dremel概念，这是一种用于大规模数据查询的高效工具，后来演变为Apache软件基金会的一个项目。本教程旨在为希望在大数据分析领域发展的人们提供Apache Drill的基础知识。通过学习，你将了解Drill的工作原理，如何在你的系统上安装它，以及如何执行各种查询操作，特别是针对JSON数据的查询。此外，教程还会介绍如何利用Drill与大数据技术（如HDFS和HBase）一起处理数据，并展示一些实际的应用场景。 Apache Drill的核心特性包括： 1. **无模式查询**：Drill支持对未定义模式的数据进行查询，这意味着你可以在无需预先定义表结构的情况下处理数据，提高了数据探索的灵活性。 2. **高性能**：Drill采用了列式存储和分布式查询优化技术，能快速处理大规模数据集，提供亚秒级的查询响应时间。 3. **广泛的数据源支持**：除了HDFS，Drill还支持多种数据源，包括S3、Cassandra、MongoDB等，以及本地文件系统中的JSON、CSV等非结构化和半结构化数据。 4. **SQL兼容性**：Drill实现了标准的SQL语法，使得数据分析师可以使用熟悉的查询语言来操作数据。 5. **动态数据类型**：Drill自动识别和处理数据的类型，无需用户预定义。在开始学习Apache Drill之前，你需要具备以下基础知识： - **Java**：Drill是用Java编写的，因此对Java编程的理解有助于更好地理解和调试Drill的相关问题。 - **JSON**：由于Drill广泛支持JSON格式的数据，所以理解JSON的数据结构和语法是必要的。 - **Linux操作系统**：尽管Drill可在多种平台上运行，但教程可能以Linux环境为例，因此熟悉Linux命令行操作是有帮助的。在本教程中，你将逐步学习： 1. **安装和配置Drill**：包括下载、构建、配置Drill的单节点或分布式集群。 2. **基本查询操作**：学习如何编写和执行SQL查询，包括SELECT、WHERE、JOIN等语句。 3. **处理JSON数据**：了解如何查询和解析嵌套及复杂结构的JSON文档。 4. **集成HDFS和HBase**：演示如何通过Drill查询HDFS上的文件以及HBase数据库中的数据。 5. **性能优化**：探讨如何调整Drill的设置以提升查询性能。 6. **实时应用示例**：通过具体的案例展示Drill在大数据分析和报告生成等实际场景中的应用。请注意，尽管本教程尽力提供准确和最新的信息，但技术发展迅速，可能会存在误差或过时的内容。如果你发现任何问题，欢迎发送邮件至`contact@tutorialspoint.com`通知我们，以便及时更新和完善教程内容。

资源推荐

资源详情

资源评论

Apache Drill

Table of Contents

About the Tutorial .................................................................................................................................... 1

Audience................................................................................................................................................... 1

Prerequisites ............................................................................................................................................ 1

Copyright & Disclaimer ........................................................................................................................... 1

Table of Contents .................................................................................................................................... 2

1. APACHE DRILL – INTRODUCTION ............................................................................ 5

Overview of Google Dremel/BigQuery .................................................................................................. 5

What is Drill? ............................................................................................................................................ 5

Need for Drill ............................................................................................................................................ 6

Drill Integration ........................................................................................................................................ 7

2. APACHE DRILL – FUNDAMENTALS .......................................................................... 8

Drill Nested Data Model .......................................................................................................................... 8

JSON ......................................................................................................................................................... 8

Apache Avro ............................................................................................................................................ 9

Nested Query Language ....................................................................................................................... 10

Drill File Format ..................................................................................................................................... 10

Scalable Data Sources .......................................................................................................................... 13

Drill Clients ............................................................................................................................................. 13

3. APACHE DRILL – ARCHITECTURE ......................................................................... 14

Query Execution Diagram..................................................................................................................... 15

4. APACHE DRILL – INSTALLATION ........................................................................... 16

Embedded Mode Installation ................................................................................................................ 16

Distributed Mode Installation ............................................................................................................... 17

Apache Drill

5. APACHE DRILL – SQL OPERATIONS ..................................................................... 20

Primitive Data Types ............................................................................................................................. 20

Date, Time and Timestamp ................................................................................................................... 21

Interval .................................................................................................................................................... 21

Operators................................................................................................................................................ 22

Drill Scalar Functions ............................................................................................................................ 23

Trig Functions ........................................................................................................................................ 28

Data Type Conversion ........................................................................................................................... 31

Date - Time Functions ........................................................................................................................... 32

String Manipulation Function ............................................................................................................... 36

Null Handling Function ......................................................................................................................... 43

6. APACHE DRILL – QUERY USING JSON .................................................................. 45

Querying JSON File ............................................................................................................................... 45

Storage Plugin Configuration .............................................................................................................. 46

Create JSON file .................................................................................................................................... 47

SQL Operators ....................................................................................................................................... 51

Aggregate Functions ............................................................................................................................. 53

7. APACHE DRILL – WINDOW FUNCTIONS USING JSON ......................................... 57

Aggregate Window Functions .............................................................................................................. 57

Ranking Window Functions ................................................................................................................. 60

8. APACHE DRILL – QUERYING COMPLEX DATA ..................................................... 65

FLATTEN ................................................................................................................................................ 65

KVGEN .................................................................................................................................................... 66

REPEATED_COUNT .............................................................................................................................. 67

REPEATED CONTAINS ......................................................................................................................... 67

Apache Drill

9. APACHE DRILL – DATA DEFINITION STATEMENTS ............................................. 68

Create Statement ................................................................................................................................... 68

Alter Statement ...................................................................................................................................... 71

Create View Statement .......................................................................................................................... 72

Drop Table .............................................................................................................................................. 74

10. APACHE DRILL – QUERYING DATA ....................................................................... 75

CSV File .................................................................................................................................................. 75

TSV File................................................................................................................................................... 78

PSV (Pipe Separated Value) File .......................................................................................................... 80

11. APACHE DRILL – QUERYING DATA USING HBASE .............................................. 81

How to Start Hadoop and HBase? ....................................................................................................... 81

Creating a Table Using HBase Shell .................................................................................................... 82

12. APACHE DRILL – QUERYING DATA USING HIVE .................................................. 85

How to Query Hive Data in Apache Drill? ........................................................................................... 85

13. APACHE DRILL – QUERYING PARQUET FILES ..................................................... 87

Create a Table ........................................................................................................................................ 87

14. APACHE DRILL – JDBC INTERFACE ...................................................................... 89

Java Application .................................................................................................................................... 89

15. APACHE DRILL – CUSTOM FUNCTION .................................................................. 92

IsPass Custom Function ....................................................................................................................... 92

16. APACHE DRILL – CONTRIBUTORS ......................................................................... 97