【大数据基础】 大数据是指那些在传统数据处理技术下难以有效管理和分析的海量、高增长速度、多样化的信息资源。这些数据可能来自各种源头,包括社交媒体、传感器、交易记录等。大数据的价值在于通过分析和挖掘其中的模式和关联,为企业决策、市场预测、产品研发等提供依据。 【Hadoop】 Hadoop是由Apache基金会开发的分布式系统基础架构,旨在处理和存储大量数据。Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce。Hadoop的作者是Doug Cutting,他最初为搜索引擎项目Nutch开发了这一框架。Hadoop起始于2004年,当时Nutch的开发者开始开发NDFS,后来演变为Hadoop。 【HDFS】 HDFS是Hadoop的分布式文件系统,用于存储大数据。NameNode是HDFS的元数据管理节点,负责管理文件系统的命名空间和块信息。DataNode则是实际存储数据的节点,它们根据NameNode的指令存储和检索数据块。HDFS的Block Size在Hadoop 1.0中默认为64MB,在Hadoop 2.x中升级为128MB。每个文件会被分割成多个Block,并在集群中的多个DataNode上复制,通常默认副本数量为3,以提供容错能力。DataNode之间可以互相通信,协同工作。 【MapReduce】 MapReduce是Hadoop用于处理和生成大数据集的编程模型。它将复杂计算任务拆分成两个主要阶段:Map阶段和Reduce阶段。Map阶段将输入数据分割,然后在各个节点上并行处理;Reduce阶段则聚合Map阶段的结果。JobTracker(在Hadoop 1.x中)或YARN(在Hadoop 2.x中)负责作业调度和资源管理。 【其他知识点】 - 在CentOS7中,可以使用`hostname`命令查看本机主机名。 - 大数据的价值密度通常较低,因为大量的数据中蕴含的价值信息相对较少。 - Hadoop的安装模式包括单机模式、伪分布模式和完全分布式模式,不包括“两分布式模式”。 - 非结构化数据如视频监控数据、日志数据等,无法用固定模式表示,与ERP数据、财务系统数据等结构化数据不同。 - SecondaryNameNode协助NameNode合并编辑日志,减少NameNode的负担,但不是NameNode的热备份,且需要一定的内存资源。 - 当gzip文件大小超过Block大小时,会占用多个Block。在MapReduce任务中,input split通常是按照Block来划分的,但对于LZO等压缩格式,可能需要考虑索引信息,影响split大小。 HDFS适用于一次写入多次读取的场景,如日志分析、批量数据处理等。由于其流式访问特性,不适合频繁的文件修改和低延迟的读取需求。此外,Hadoop通过副本机制提供了高容错性,如果某个DataNode故障,其他副本可以继续提供服务,确保服务不间断。
剩余6页未读,继续阅读
- 粉丝: 119
- 资源: 3
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- (源码)基于Java和MySQL的学生信息管理系统.zip
- (源码)基于ASP.NET Core的零售供应链管理系统.zip
- (源码)基于PythonSpleeter的戏曲音频处理系统.zip
- (源码)基于Spring Boot的监控与日志管理系统.zip
- (源码)基于C++的Unix V6++二级文件系统.zip
- (源码)基于Spring Boot和JPA的皮皮虾图片收集系统.zip
- (源码)基于Arduino和Python的实时歌曲信息液晶显示屏展示系统.zip
- (源码)基于C++和C混合模式的操作系统开发项目.zip
- (源码)基于Arduino的全球天气监控系统.zip
- OpenCVForUnity2.6.0.unitypackage
评论1