南京大学 大数据 期末题库 pdf
南京大学大数据期末题库涉及到多个知识点,主要涵盖了Hadoop HDFS(Hadoop Distributed File System)的基础概念、高可用性实现机制,以及MapReduce和Spark的工作原理。以下是对这些知识点的详细解释: 1. HDFS的数据冗余与安全性: - HDFS采用副本策略保证数据可靠性,每个数据块默认有3个副本,分别存放在不同节点上,以提高容错性。如果一个节点有3块硬盘损坏,由于副本分布在其他节点,因此不会丢失数据。但如果3个节点故障,若这3个节点恰好存储了同一数据块的所有副本,那么该数据块会丢失。 2. HDFS写入文件过程: - 客户端向NameNode请求创建文件。 - NameNode检查权限,如果允许,会在EditLog中记录,并返回一个输出流对象。 - 客户端将数据写入输出流,DataNode形成一个管道,数据按顺序写入,每个DataNode写完一块后返回确认信息。 - 关闭输出流,客户端通知NameNode文件写入完成。 3. HDFS数据平衡: - 旧版HDFS不支持在已有数据情况下新增硬盘的数据平衡。新版可以通过`hdfs balancer`命令实现,但手动重写所有数据或先集中数据再平衡可能更有效。 4. HDFS高可用性: - 支持NameNode HA,active和standby NameNode协同工作,JournalNodes用于日志同步,保证standby节点能及时获取更新。 - 使用Paxos一致性算法,确保命名空间的修改同步。 - ZooKeeper集群用于NameNode故障检测和选举,ZKFailoverController监控NameNode健康状态。 5. YARN调度策略: - YARN支持多种调度策略,如FIFO(先进先出),Capacity Scheduler,Fair Scheduler等。FIFO简单但可能导致资源浪费,Capacity Scheduler和Fair Scheduler更智能,考虑资源利用率和公平性。 6. MapReduce与Spark: - WordCount示例中,Map阶段将输入文本分割为单词,Reduce阶段对每个单词计数。 - Spark相比MapReduce,有更短的延迟和更高的吞吐量,因为它在内存中处理数据,减少了磁盘I/O,支持迭代计算,且更容易编程。 7. Inceptor存储格式/引擎: - TEXT表:适用于导入原始数据,但统计和查询性能低,不支持事务。 - ORC表:列式存储,高效压缩,适用于大数据分析,支持插入操作。ORC事务表支持事务处理,常用于数仓。 - 事务表:支持INSERT, UPDATE, DELETE, MERGE等操作,适用于需要事务处理的场景。 - HoloDesk和Hyperbase表没有详细描述,通常它们是针对特定需求优化的存储格式,如实时查询或复杂分析。 8. Bulkload(批量加载): - 作用:快速大量地将数据加载到数据存储系统,如Hadoop或NoSQL数据库,减少I/O操作,提高效率。 - 操作步骤:预处理数据,创建表结构,设置表为Bulkload模式,加载数据,验证数据完整性,然后关闭Bulkload模式。 以上内容详尽解析了南京大学大数据期末试题涉及的关键知识点,包括Hadoop HDFS的基本操作、高可用性、数据管理和MapReduce与Spark的比较。这些知识点对于理解和实践大数据处理至关重要。
剩余68页未读,继续阅读
- 粉丝: 20
- 资源: 4
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 微信小程序跃动小子保卫主公自动通关之执行计划
- 朋友圈防折叠系统源码,简单使用的小工具,众多营销老板都需要
- STM32L4R/S系列中文参考手册
- 一个由商业级项目升级优化而来的微服务架构,采用Spring Boot 3.2 、Spring Cloud 2023等核心技术构建
- GAIIC2024无人机视角下的双光目标检测(Rank6 解决方案)+文档说明(高分项目)
- Unity3D机械臂动画示例
- 非常好的语音识别源代码100%好用.zip
- 0积分【尊重互联网共享原则】tauri2.0所需插件nsis-tauri-utils.dll
- 基于CNN+LSTM实现的网络流量检测系统python源码(高分课设)+文档说明
- PHP中把动态页面生成静态页面的示例