南京大学大数据期末题库pdf_分布式系统考试题目资源-CSDN文库

需积分: 5 41 浏览量 2023-06-13 22:05:10 上传评论 3 收藏 6.09MB PDF 举报

南京大学大数据期末题库涉及到多个知识点，主要涵盖了Hadoop HDFS(Hadoop Distributed File System)的基础概念、高可用性实现机制，以及MapReduce和Spark的工作原理。以下是对这些知识点的详细解释： 1. HDFS的数据冗余与安全性： - HDFS采用副本策略保证数据可靠性，每个数据块默认有3个副本，分别存放在不同节点上，以提高容错性。如果一个节点有3块硬盘损坏，由于副本分布在其他节点，因此不会丢失数据。但如果3个节点故障，若这3个节点恰好存储了同一数据块的所有副本，那么该数据块会丢失。 2. HDFS写入文件过程： - 客户端向NameNode请求创建文件。 - NameNode检查权限，如果允许，会在EditLog中记录，并返回一个输出流对象。 - 客户端将数据写入输出流，DataNode形成一个管道，数据按顺序写入，每个DataNode写完一块后返回确认信息。 - 关闭输出流，客户端通知NameNode文件写入完成。 3. HDFS数据平衡： - 旧版HDFS不支持在已有数据情况下新增硬盘的数据平衡。新版可以通过`hdfs balancer`命令实现，但手动重写所有数据或先集中数据再平衡可能更有效。 4. HDFS高可用性： - 支持NameNode HA，active和standby NameNode协同工作，JournalNodes用于日志同步，保证standby节点能及时获取更新。 - 使用Paxos一致性算法，确保命名空间的修改同步。 - ZooKeeper集群用于NameNode故障检测和选举，ZKFailoverController监控NameNode健康状态。 5. YARN调度策略： - YARN支持多种调度策略，如FIFO(先进先出)，Capacity Scheduler，Fair Scheduler等。FIFO简单但可能导致资源浪费，Capacity Scheduler和Fair Scheduler更智能，考虑资源利用率和公平性。 6. MapReduce与Spark： - WordCount示例中，Map阶段将输入文本分割为单词，Reduce阶段对每个单词计数。 - Spark相比MapReduce，有更短的延迟和更高的吞吐量，因为它在内存中处理数据，减少了磁盘I/O，支持迭代计算，且更容易编程。 7. Inceptor存储格式/引擎： - TEXT表：适用于导入原始数据，但统计和查询性能低，不支持事务。 - ORC表：列式存储，高效压缩，适用于大数据分析，支持插入操作。ORC事务表支持事务处理，常用于数仓。 - 事务表：支持INSERT, UPDATE, DELETE, MERGE等操作，适用于需要事务处理的场景。 - HoloDesk和Hyperbase表没有详细描述，通常它们是针对特定需求优化的存储格式，如实时查询或复杂分析。 8. Bulkload（批量加载）： - 作用：快速大量地将数据加载到数据存储系统，如Hadoop或NoSQL数据库，减少I/O操作，提高效率。 - 操作步骤：预处理数据，创建表结构，设置表为Bulkload模式，加载数据，验证数据完整性，然后关闭Bulkload模式。以上内容详尽解析了南京大学大数据期末试题涉及的关键知识点，包括Hadoop HDFS的基本操作、高可用性、数据管理和MapReduce与Spark的比较。这些知识点对于理解和实践大数据处理至关重要。

资源推荐

资源详情

资源评论