要把关系型数据库应用迁移到Hadoop上,你该何去何从?本书介绍了Apache Hive,它是基于Hadoop的数据仓库架构。通过本书,读者可以很快学会如何使用Hive的SQL方言——HiveQL来汇总、查询和分析存储在Hadoop分布式文件系统上的大型数据集。
本书以实际案例为主线,详细介绍如何在用户环境下安装和配置Hive,并对Hadoop和MapReduce的各项技术进行概要介绍,同时演示Hive在Hadoop生态系统中是如何工作的。在本书中,读者还可以看到众多的实际使用场景,包括企业如何使用Hive解决了涉及PB级数据的问题。
· 使用Hive创建、修改和删除数据库、表、视图、函数和索引。
· 从文件到外部数据库,自定义数据存储格式和存储选项。
· 将数据载入表中以及从表中抽取数据,并使用查询、分组、过滤、连接和其他常规查询方法。
· 获得创建用户自定义函数(UDF)的最佳方法。
· 了解应该使用的Hive模式以及应该避免的反模式。
· 将Hive和其他数据处理程序进行整合。
· 对于NoSQL数据库和其他数据存储使用存储控制器。
· 学习在亚马逊弹性MapReduce上执行Hive的正反两方面信息。