Sqoop中文文档 Sqoop是一款功能强大且广泛应用于大数据领域的数据导入工具,该工具可以将关系数据库中的数据导入到Hadoop生态系统中,如Hive、HBase等。本文档旨在为读者提供一个全面的Sqoop中文手册,涵盖了Sqoop的使用、codegen、create-hive-table、eval等多个方面的内容。 1. 概述 Sqoop的主要功能是将关系数据库中的数据导入到Hadoop生态系统中,为用户提供了一个便捷的数据迁移方式。Sqoop的使用主要分为四个方面:codegen、create-hive-table、eval和 import。 2. codegen codegen是Sqoop中的一个重要功能,该功能可以将关系数据库中的表映射为一个Java文件、Java class类以及相关的jar包。codegen的作用主要有两个方面:一是将数据库表映射为一个Java文件,在该Java文件中对应有表的各个字段;二是生成的Jar和class文件在metastore功能使用时会用到。 Sqoop codegen的基本语句为:sqoop codegen –connect jdbc:mysql://localhost:3306/hive –username root –password 123456 –table TBLS。 Sqoop codegen的参数说明: * –bindir <dir>:指定生成的java文件、编译成的class文件及将生成文件打包为JAR的JAR包文件输出路径。 * –class-name <name>:设定生成的Java文件指定的名称。 * –outdir <dir>:生成的java文件存放路径。 * –package-name <name>:包名,如cn.cnnic,则会生成cn和cnnic两级目录,生成的文件(如java文件)就存放在cnnic目录里。 * –input-null-non-string <null-str>:在生成的java文件中,可以将null字符串设为想要设定的值(比如空字符串’’)。 * –input-null-string <null-str>:同上,设定时,最好与上面的属性一起设置,且设置同样的值(比如空字符串等等)。 * –map-column-java <arg>:数据库字段在生成的java文件中会映射为各种属性,且默认的数据类型与数据库类型保持对应。 * –null-non-string <null-str>:在生成的java文件中,可以将null字符串设为想要设定的值(比如空字符串’’)。 * –null-string <null-str>:同上,使用的时候最好与上面的属性一起用,且设置为相同的值。 * –table <table-name>:对应关系数据库的表名,生成的java文件中的各属性与该表的各字段一一对应。 3. create-hive-table create-hive-table是Sqoop中的一个功能,可以生成与关系数据库表结构对应的Hive表。Sqoop create-hive-table的基本语句为:sqoop create-hive-table –connect jdbc:mysql://localhost:3306/hive -username root -password 123456 –table TBLS –hive-table h_tbls2。 Sqoop create-hive-table的参数说明: * –hive-home <dir>:Hive的安装目录,可以通过该参数覆盖掉默认的hive目录。 * –hive-overwrite:覆盖掉在hive表中已经存在的数据。 * –create-hive-table:默认是false,如果目标表已经存在了,那么创建任务会失败。 * –hive-table:后面接要创建的hive表。 * –table:指定关系数据库表名。 4. eval eval是Sqoop中的一个功能,可以快速地使用SQL语句对关系数据库进行操作。Sqoop eval的基本语句为:sqoop eval –connect jdbc:mysql://localhost:3306/hive -username root -password 123456 -query “SELECT * FROM tbls LIMIT 10”。 Sqoop eval可以用于快速地了解相关的SQL语句是否正确,并能将结果显示在控制台上。同时,eval也可以用于数据插入,例如:sqoop eval –connect jdbc:mysql://localhost:3306/hive -username root -password 123456 -query “INSERT INTO tbls VALUES (‘001’, ‘test’)”。 Sqoop是一个功能强大且广泛应用于大数据领域的数据导入工具,通过codegen、create-hive-table、eval等功能,可以将关系数据库中的数据导入到Hadoop生态系统中,为用户提供了一个便捷的数据迁移方式。
剩余18页未读,继续阅读
- 粉丝: 6241
- 资源: 189
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助