(完整word版)大数据面试题资料.doc资源-CSDN文库

17 浏览量 2022-11-13 01:07:40 上传评论收藏 1.78MB DOC 举报

大数据面试题资料.doc 本文档是关于大数据面试题的资料，涵盖了 Hive 中内部表与外部表的区别、创建内部表和外部表的方法、Hive 的 schema on read 模式的特点、load data 的优势等内容。 Hive 内部表与外部表的区别 Hive 中的内部表和外部表的主要区别在于数据的存储和管理方式。内部表是在 Hive 中创建的表，Hive 会将数据移动到数据仓库指向的路径，而外部表仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。创建内部表创建内部表可以使用以下语句： ```sql create table test(userid string); LOAD DATA INPATH '/tmp/result/20121213' INTO TABLE test partition(ptDate='20121213'); ``` 这种方式会将数据移动到数据仓库指向的路径。创建外部表创建外部表可以使用以下语句： ```sql create EXTERNAL table IF NOT EXISTS test (userid string) partitioned by (ptDate string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; ``` 外部表的数据源路径可以使用 LOCATION 语句指定，例如： ```sql alter table test add partition (ptDate='20121214') location '/tmp/result/20121214'; ``` Hive 的 schema on read 模式 Hive 遵循 schema on read 模式，即在读取数据的时候才检查和解析数据字段和 schema，而不是在写入数据的时候。这使得 load data 变得非常迅速，因为它不需要读取数据进行解析，仅仅进行文件的复制或者移动。 schema on read 模式的优点是可以快速加载数据，但是在查询数据的时候需要花费更多的时间来解析和检查数据字段和 schema。与传统数据库的对比传统数据库通常使用 schema on write 模式，即在写入数据的时候就检查和解析数据字段和 schema。这使得查询数据的时候变得非常快速，因为已经预先解析和检查了数据字段和 schema。但是，这也使得加载数据变得非常缓慢，因为需要读取数据进行解析和检查。 Hive 的 schema on read 模式和传统数据库的 schema on write 模式都有其优点和缺点，需要根据实际情况选择合适的模式。

资源推荐

资源详情

资源评论

1、Hive 内部表与外部表的区别？

先来说下 Hive 中内部表与外部表的区别：

Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所

在的路径，

不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，

而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵

活，方便共享源数据。

需要注意的是传统数据库对表数据验证是 schema on write（写时模式），而 Hive 在 load

时是不检查数据是否

符合 schema 的，hive 遵循的是 schema on read（读时模式），只有在读的时候 hive 才检查、

解析具体的

数据字段、schema。

读时模式的优势是 load data 非常迅速，因为它不需要读取数据进行解析，仅仅进行文件的

复制或者移动。

写时模式的优势是提升了查询性能，因为预先解析之后可以对列建立索引，并压缩，但这样

也会花费要多的加载时间。

下面来看下 Hive 如何创建内部表：

create table test(userid string);

LOAD DATA

INPATH '/tmp/result/20121213' INTO TABLE test

partition(ptDate='20121213');

这个很简单，不多说了，下面看下外部表：

hadoop fs -ls

/tmp/result/20121214

Found 2 items

-rw-r--r-- 3 june

supergroup 1240 2012-12-26

17:15

/tmp/result/20121214/part-00000

-rw-r--r-- 1 june

supergroup 1240 2012-12-26

17:58

/tmp/result/20121214/part-00001

建表

create EXTERNAL table IF NOT EXISTS

test (userid string) partitioned by (ptDate

string) ROW FORMAT DELIMITED

FIELDS TERMINATED BY ' ';

建立分区表，利用分区表的特性加载多个目录下的文件，并且分区字段可以作为

where

条件，更

为重要的是

这种加载数据的方式是不会移动数据文件的，这点和

load data

不同，后者会移动数据文件至数

HBase 是一个分布式的、面向列的数据库，它和一般关系型数据库的最大区别是：HBase

很适合于存储非结构化的数据，还有就是它基于列的而不是基于行的模式。

既然 HBase 是采用 KeyValue 的列存储，那 Rowkey 就是 KeyValue 的 Key 了，表示唯一一

行。Rowkey 也是一段二进制码流，最大长度为 64KB，内容可以由使用的用户自定义。数

据加载时，一般也是根据 Rowkey 的二进制序由小到大进行的。

HBase 是根据 Rowkey 来进行检索的，系统通过找到某个 Rowkey (或者某个 Rowkey 范围)

所在的 Region，然后将查询数据的请求路由到该 Region 获取数据。HBase 的检索支持 3 种

方式：

（1）通过单个 Rowkey 访问，即按照某个 Rowkey 键值进行 get 操作，这样获取唯一一条

记录；

（2）通过 Rowkey 的 range 进行 scan，即通过设置 startRowKey 和 endRowKey，在这个范

围内进行扫描。这样可以按指定的条件获取一批记录；

（3）全表扫描，即直接扫描整张表中所有行记录。

HBASE 按单个 Rowkey 检索的效率是很高的，耗时在 1 毫秒以下，每秒钟可获取 1000~2000

条记录，不过非 key 列的查询很慢。

2 HBase 的 RowKey 设计

2.1 设计原则

2.1.1 Rowkey 长度原则

Rowkey 是一个二进制码流，Rowkey 的长度被很多开发者建议说设计在 10~100 个字节，不

过建议是越短越好，不要超过 16 个字节。

原因如下：

（1）数据的持久化文件 HFile 中是按照 KeyValue 存储的，如果 Rowkey 过长比如 100 个字

节，1000 万列数据光 Rowkey 就要占用 100*1000 万=10 亿个字节，将近 1G 数据，这会极

大影响 HFile 的存储效率；

（2）MemStore 将缓存部分数据到内存，如果 Rowkey 字段过长内存的有效利用率会降低，

系统将无法缓存更多的数据，这会降低检索效率。因此 Rowkey 的字节长度越短越好。

（3）目前操作系统是都是 64 位系统，内存 8 字节对齐。控制在 16 个字节，8 字节的整数

倍利用操作系统的最佳特性。

2.1.2 Rowkey 散列原则

如果 Rowkey 是按时间戳的方式递增，不要将时间放在二进制码的前面，建议将 Rowkey 的

高位作为散列字段，由程序循环生成，低位放时间字段，这样将提高数据均衡分布在每个

Regionserver 实现负载均衡的几率。如果没有散列字段，首字段直接是时间信息将产生所有

新数据都在一个 RegionServer 上堆积的热点现象，这样在做数据检索的时候负载将会集中

在个别 RegionServer，降低查询效率。

2.1.3 Rowkey 唯一原则

必须在设计上保证其唯一性。

2.2 应用场景

基于 Rowkey 的上述 3 个原则，应对不同应用场景有不同的 Rowkey 设计建议。

2.2.1 针对事务数据 Rowkey 设计

事务数据是带时间属性的，建议将时间信息存入到 Rowkey 中，这有助于提示查询检索速度。

对于事务数据建议缺省就按天为数据建表，这样设计的好处是多方面的。按天分表后，时间

信息就可以去掉日期部分只保留小时分钟毫秒，这样 4 个字节即可搞定。加上散列字段 2 个

字节一共 6 个字节即可组成唯一 Rowkey。如下图所示：

事务数据 Rowkey 设计

第 0 字节

第 1 字节

第 2 字节

第 3 字节

第 4 字节

第 5 字节

…

散列字段

时间字段(毫秒)

扩展字段

0~65535(0x0000~0xFFFF)

0~86399999(0x00000000~0x05265BFF)

这样的设计从操作系统内存管理层面无法节省开销，因为 64 位操作系统是必须 8 字节对齐。

但是对于持久化存储中 Rowkey 部分可以节省 25%的开销。也许有人要问为什么不将时间字

段以主机字节序保存，这样它也可以作为散列字段了。这是因为时间范围内的数据还是尽量

保证连续，相同时间范围内的数据查找的概率很大，对查询检索有好的效果，因此使用独立

的散列字段效果更好，对于某些应用，我们可以考虑利用散列字段全部或者部分来存储某些

数据的字段信息，只要保证相同散列值在同一时间（毫秒）唯一。

2.2.2 针对统计数据的 Rowkey 设计

统计数据也是带时间属性的，统计数据最小单位只会到分钟（到秒预统计就没意义了）。同

时对于统计数据我们也缺省采用按天数据分表，这样设计的好处无需多说。按天分表后，时

间信息只需要保留小时分钟，那么 0~1400 只需占用两个字节即可保存时间信息。由于统计

数据某些维度数量非常庞大，因此需要 4 个字节作为序列字段，因此将散列字段同时作为序

列字段使用也是 6 个字节组成唯一 Rowkey。如下图所示：

统计数据 Rowkey 设计

第 0 字节

第 1 字节

第 2 字节

第 3 字节

第 4 字节

第 5 字节

…

散列字段(序列字段）

时间字段(分钟)

扩展字段

0x00000000~0xFFFFFFFF)

0~1439(0x0000~0x059F)

同样这样的设计从操作系统内存管理层面无法节省开销，因为 64 位操作系统是必须 8 字节

对齐。但是对于持久化存储中 Rowkey 部分可以节省 25%的开销。预统计数据可能涉及到多

次反复的重计算要求，需确保作废的数据能有效删除，同时不能影响散列的均衡效果，因此

要特殊处理。

2.2.3 针对通用数据的 Rowkey 设计

通用数据采用自增序列作为唯一主键，用户可以选择按天建分表也可以选择单表模式。这种

模式需要确保同时多个入库加载模块运行时散列字段（序列字段）的唯一性。可以考虑给不

同的加载模块赋予唯一因子区别。设计结构如下图所示。

通用数据 Rowkey 设计

第 0 字节

第 1 字节

第 2 字节

第 3 字节

…

散列字段(序列字段）

扩展字段（控制在 12 字节内）

0x00000000~0xFFFFFFFF)

可由多个用户字段组成

2.2.4 支持多条件查询的 RowKey 设计

HBase 按指定的条件获取一批记录时，使用的就是 scan 方法。 scan 方法有以下特点：

（1）scan 可以通过 setCaching 与 setBatch 方法提高速度（以空间换时间）；

（2）scan 可以通过 setStartRow 与 setEndRow 来限定范围。范围越小，性能越高。

通过巧妙的 RowKey 设计使我们批量获取记录集合中的元素挨在一起（应该在同一个

Region 下），可以在遍历结果时获得很好的性能。

（3）scan 可以通过 setFilter 方法添加过滤器，这也是分页、多条件查询的基础。

在满足长度、三列、唯一原则后，我们需要考虑如何通过巧妙设计 RowKey 以利用 scan 方

法的范围功能，使得获取一批记录的查询速度能提高。下例就描述如何将多个列组合成一个

RowKey，使用 scan 的 range 来达到较快查询速度。

例子：

我们在表中存储的是文件信息，每个文件有 5 个属性：文件 id（long，全局唯一）、创建时

间（long）、文件名（String）、分类名（String）、所有者（User）。

我们可以输入的查询条件：文件创建时间区间（比如从 20120901 到 20120914 期间创建的文

件），文件名（“中国好声音”），分类（“综艺”），所有者（“浙江卫视”）。

假设当前我们一共有如下文件：

剩余83页未读，继续阅读

评论收藏

内容反馈

zzzzl333

粉丝: 802
资源: 7万+

(完整word版)大数据面试题资料.doc

大数据面试题.docx

大数据考试题含答案.docx

史上最全的大数据面试题,大数据开发者必看.docx

JAVA 面试宝典-珍藏面经.rar

大数据面试题(1).doc

大数据面试题目.docx

数据库面试题daan.doc

09_尚硅谷大数据技术之Kafka.doc

12_尚硅谷大数据技术之Oozie.doc

大数据试题与答案--最全.docx

大数据面试笔试资料-56家互联网大公司面试笔试题资料整理汇总.zip

ETL数据仓库技术面试题.doc

大数据面试题.doc

大数据技术面试之100家企业真题V2.0.10.doc

大数据系列2020-大数据基础资料汇总（精选）.zip

大数据练习题.doc

大数据面试题目

大数据面试资料

大数据面试题

Python大数据大厂面试题及答案解析.doc

尚硅谷大数据技术之企业SQL面试题_大数据_sql_尚硅谷sql_doc_

大数据技术之面试题.doc

SpringBoot+SpringCloud面试题.doc

MySql面试题.doc

数据处理面试题.pdf

最新资源