⼤数据基础整合 ⼤数据基础整合 第⼀章 第⼀章 信息科技需要处理的三⼤核⼼问题 信息科技需要处理的三⼤核⼼问题 信息存储、信息传输、信息处理 数据产⽣⽅式的变⾰ 数据产⽣⽅式的变⾰ 运营式系统阶段 数据库的出现使数据管理的复杂度⼤⼤降低,数据往往伴随着⼀定的运营活动⽽产⽣并记录在数据库中,数据的产⽣⽅式是被动的 ⽤户原创内容阶段 数据爆发产⽣于Web2.0时代,⽽Web2.0的最重要的标志就是⽤户原创内容 智能⼿机等移动设备加速内容产⽣ 数据产⽣⽅式是主动的 感知式系统阶段 感知式系统的⼴泛使⽤ ⼈类社会数据量第三次⼤的飞跃最终导致的⼤数据的产⽣ ⼤数据 ⼤数据4V概念(能简要概括) 概念(能简要概括) 数据量⼤、数据类型繁多、处理速度快、价值密度低 ⼤数据对思维⽅式的影响 ⼤数据对思维⽅式的影响 全样⽽⾮抽样、效率⽽⾮准确、相关⽽⾮因果 ⼤数据技术的不同层⾯及其功能 ⼤数据技术的不同层⾯及其功能 ⼤数据计算模式 ⼤数据计算模式 云计算关键技术 云计算关键技术 虚拟化、分布式存储、分布式计算、多租户等 物联⽹关键技术 物联⽹关键技术 识别和感知技术 ⽹络与通信技术 数据挖掘与融合技术 第⼆ 第⼆-三章 三章 分布式⽂件系统概念 分布式⽂件系统概念 分布式⽂件系统是⼀种通过⽹络实现⽂件在多台主机上进⾏分布式存储的⽂件系统 HDFS⽂件块 ⽂件块 HDFS默认⼀个块64MB,⼀个⽂件被分成多个块,以块作为存储单位 块的⼤⼩远远⼤于普通⽂件系统,可以最⼩化寻址开销 。 HDFS采⽤抽象的块概念可以带来以下⼏个明显的好处: ⽀持⼤规模⽂件存储 简化系统设计 适合数据备份 名称节点、数据节点的功能与⼯作原理(能简要概括) 名称节点、数据节点的功能与⼯作原理(能简要概括) 名称节点功能: 在HDFS中,名称节点(NameNode)负责管理分布式⽂件系统的命名空间,保存了两个核⼼的数据结构,即FsImage和EditLog 名称节点⼯作原理: 在名称节点启动的时候,它会将FsImage⽂件中的内容加载到内存中,之后再 执⾏EditLog⽂件中的各项操作,使得内存中的元数据和实际的同步,存在内存 中的元数据⽀持客户端的读 操作。 ⼀旦在内存中成功建⽴⽂件系统元数据的映射,则创建⼀个新的FsImage⽂件 和⼀个空的EditLog⽂件 名称节点起来之后,HDFS中的更新操作会重新写到EditLog⽂件中,因为 FsImage⽂件⼀般都很⼤(GB级别的很常见),如果所有的更新操作都往 FsImage⽂件中添加,这样会导致系 统运⾏的⼗分缓慢,但是,如果往EditLog ⽂件⾥⾯写就不会这样,因为EditLog 要⼩很多。每次执⾏写操作之后,且在 向客户端发送成功代码之前,edits⽂件都需要同步更新 数据节点: 数据节点是分布式⽂件系统HDFS的⼯作节点,负责数据的存储和读取,会根据客户端或者是名称节点的调 度来进⾏数据的存储和检 索,并且向名称节点定期发送⾃⼰所存储的块的列表 每个数据节点中的数据会被保存在各⾃节点的本地Linux⽂件系统中 第⼆名称节点的意义与功能(理解⼯作原理,能⽤⾃⼰语⾔说明) 第⼆名称节点的意义与功能(理解⼯作原理,能⽤⾃⼰语⾔说明) 第⼆名称节点是HDFS架构中的⼀个组成部分,它是⽤来保存名称节点中对HDFS 元数据信息的备份,并减少名称节点重启的时间。SecondaryNameNode⼀般是 单独运⾏在⼀台机器上 SecondaryNameNode的⼯作情况: (1)SecondaryNameNode会定期和 NameNode通信,请求其停⽌使⽤EditLog ⽂件,暂时将新的写操作写到⼀个新的⽂件 edit.new上来,这个操作是瞬间完成,上层 写⽇志的函数完 全感觉不到差别; (2)SecondaryNameNode通过HTTP GET⽅式从NameNode上获取到FsImage和 EditLog⽂件,并下载到本地的相应⽬录下 ; (3)SecondaryNameNode将下载下 来的FsImage载⼊到内存,然后⼀条⼀条地 执⾏EditLog⽂件中的各项更新操作,使得 内存中的FsImage保持最新;这个过程就是 EditLog和 FsImage⽂件合并; (4)SecondaryNameNode执⾏完(3 )操作之后,会通过post⽅式将新的 FsImage⽂件发送到NameNode节点上 (5)NameNode将从 SecondaryNameNode接收到的新的 FsImage替换旧的FsImage⽂件,同时将 edit.new替换EditLog⽂件,通过这个过程 EditLog就变⼩了 技术层⾯ 技术层⾯ 功能 功能 数据采集 与预处理 采⽤ELT⼯具将分布的、异构数据源中的数据,如关系数据、平⾯数据⽂件
- 粉丝: 168
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 多机调度问题贪心算法:理论探索与实践应用.zip
- 探索tecreate:软件开发的未来之星.zip
- 打标机项目C#源码连接扫码
- 基于SSM的房屋租赁系统的设计与实现
- xyctf:从入门到精通的实用指南.zip
- mmqrcode1714153659780.png
- Screenshot_2024-04-27-06-08-58-486_com.baidu.xin.aiqicha.jpg
- 基于Javaweb+Tomcat+MySQL的大学生公寓管理系统+sql文件.zip
- 实训作业基于javaweb的订单管理系统源码+数据库+实训报告.zip
- 多机调度问题贪心算法基于最小堆和贪心算法求解多机调度问题.zip