没有合适的资源?快使用搜索试试~ 我知道了~
大数据技术与实践学习笔记(全,from hitwh)
3 下载量 176 浏览量
2023-07-15
08:30:11
上传
评论
收藏 26.87MB PDF 举报
温馨提示
试读
107页
大数据技术与实践学习笔记(全,from hitwh)
资源推荐
资源详情
资源评论
大数据技术与实践
大数据技术与实践
1.1-大数据技术概述
一、数据的概念
二、大数据时代
三、世界各国的大数据发展战略
四、大数据的概念
五、大数据的应用领域
六、大数据的技术概况
七、大数据产业
八、大数据的学习资源
2-大数据与其他新技术之间的关系
一、云计算
云计算概念
云计算服务模式和类型
云计算数据中心
云计算的应用
二、物联网
物联网的概念与关键技术
物联网的应用与产业
三、大数据与云计算、物联网的关系
四、大数据与人工智能
人工智能的概念和关键技术
人工智能的应用
人工智能产业
大数据与人工智能的关系
五、大数据与区块链
区块链原理
区块链定义与应用
大数据与区块链的关系
3-大数据的获取、存储与并行计算
一、数据的来源与采集
二、数据存储方法
三、数据的访问
四、基于MapReduce的大数据并行处理
3.1-大数据分布式文件处理系统HDFS
一、分布式文件系统
二、HDFS介绍
三、HDFS相关概念
四、HDFS体系结构
五、HDFS存储原理
六、HDFS数据读写过程
3.2-分布式数据库HBase
一、概述
从BigTable说起
HBase简介
HBase与传统关系数据库的对比分析
HBase访问接口
二、HBase数据模型
三、HBase的实现原理
HBase功能组件
表和Region
Region的定位
四、HBase的运行机制
HBase系统架构
Region服务器工作原理
Store工作原理
HLog工作原理
五、HBase应用方案
HBase实际应用中的性能优化方法
HBase性能监视
在HBase之上构建SQL引擎
构建HBase二级索引
Hindex二级索引
HBase+Redis
Solr+HBase
3.3-MapReduce
一、概述
分布式并行编程
二、MapReduce模型简介
MapReduce模型简介
三、MapReduce体系结构
MapReduce的体系结构
四、MapReduce工作流程
工作流程概述
MapReduce各个执行阶段
五、Shuffle过程原理
Shuffle过程详解
六、MapReduce应用程序执行过程
七、实例分析:WordCount
WordCount程序任务
WordCount设计思路
一个WordCount执行过程的实例
八、MapReduce的具体应用
3.4-Hive
一、概述
Hive简介
Hive与Hadoop生态系统中其他组件的关系
Hive与传统数据库的对比分析
Hive在企业中的部署案例
二、Hive系统架构
三、Hive工作原理
SQL语句转换成MapReduce的基本原理
Hive中SQL查询转换成MapReduce作业的过程
四、Impala
Impala简介
Impala系统架构
Impala查询过程
Impala 与Hive的比较
五、Hive编程实践
Hive的安装与配置
Hive的数据类型
Hive基本操作
3.5-Spark
一、Spark概述
Spark简介
Scala简介
Spark与Hadoop的对比
二、Spark生态系统
三、Spark运行架构
基本概念
架构设计
Spark运行基本流程
RDD运行原理
四、Spark SQL
从Shark说起
Spark SQL设计
五、Spark的部署和应用方式
Spark三种部署方式
从Hadoop+Storm架构转向Spark架构
Hadoop和Spark的统一部署
4-理解数据
一、数据理解的主要任务
二、基于统计描述的数据理解方法
集中趋势(central tendency)度量
散布(spread)程度度量
偏态度量
峰度度量
三、数据可视化方法
数据可视化
可视化的发展历程
可视化的重要作用
可视化图表
可视化工具
可视化典型案例
5-大数据技术综合运用
一、案例任务
二、系统设计
三、技术选择和系统实现
1.1-大数据技术概述
一、数据的概念
1. 数据的基本概念:数据是对客观事物的观测(测量)或描述而得到的符号或数 字集合。
2. 数据对象的概念:原始数据通常是一个包含多个数据对象(data object)的集 合,每个数据对象通常对应于一个具有完
整语义信息的事物, 是分析事物的基本单位
3. 不同类型的数据:
记录数据
关系表数据
事务数据(Transaction Data)
多媒体数据:声、图、文
时空数据
空间数据(Spatial Data)
时间数据(Temporal Data)
关系图数据
4. 记录数据:数据是记录的汇集,每个记录包含固定的属性集
5. 数据矩阵:
如果数据对象具有相同固定的数值属性集,则数据对象可以 看作多维空间中的点,其中每个维代表一个不同属性。
这样的数据集可以用m×n的矩阵表示,其中有m行,每一行 对应一个对象,和n列,每一列对应一种属性。
6. 文档数据:
每一个文档都是一个“术语”向量
每个术语是向量的一个组成部分(属性)
每个组成部分的值是相应术语在文档中出现的次数
7. 事务数据
一种特殊类型的记录数据,其中:
每个记录(事务)涉及一系列的项
考虑一个杂货店,顾客一次购物所购买的商品的集合构成一 个事务,而购买的商品是项。
8. 图数据:
示例:通用图和HTML链接
9. 有序数据
事务序列
基因组序列数据
10. 时空数据
例子:
剩余106页未读,继续阅读
资源评论
留尘铃
- 粉丝: 199
- 资源: 3
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功