##### 第 1 章 Spark 数据分析导论
1. Spark 是什么
2. 一个大一统的软件栈
2.1 Spark Core
2.2 Spark SQL
2.3 Spark Streaming
2.4 MLlib
2.5 GraphX
2.6 集群管理器
3. Spark 的用户和用途
3.1 数据科学任务
3.2 数据处理应用
4. Spark 简史
5. Spark 的版本和发布
6. Spark 的存储层次
##### 第 2 章 Spark 下载与入门
1. 下载 Spark
2. Spark 中 Python 和 Scala 的 shell
3. Spark 核心概念简介
4. 独立应用
4.1 初始化 SparkContext
4.2 构建独立应用
5. 总结
##### 第 3 章 RDD 编程
1. RDD 基础
2. 创建 RDD
3. RDD 操作
3.1 转化操作
3.2 行动操作
3.3 惰性求值
4. 向 Spark 传递函数
4.1 Python
4.2 Scala
4.3 Java
5. 常见的转化操作和行动操作
5.1 基本 RDD
5.2 在不同 RDD 类型间转换
6. 持久化 ( 缓存 )
7. 总结
##### 第 4 章 键值对操作
1. 动机
2. 创建 Pair RDD
3. Pair RDD 的转化操作
3.1 聚合操作
3.2 数据分组
3.3 连接
3.4 数据排序
4. Pair RDD 的行动操作
5. 数据分区(进阶)
5.1 获取 RDD 的分区方式
5.2 从分区中获益的操作
5.3 影响分区方式的操作
5.4 示例:PageRank
5.5 自定义分区方式
4.6 总结
##### 第 5 章 数据读取与保存
1. 动机
2. 文件格式
2.1 文本文件
2.2 JSON
2.3 逗号分隔值与制表符分隔值
2.4 SequenceFile
2.5 对象文件
2.6 Hadoop 输入输出格式
2.7 文件压缩
3. 文件系统
3.1 本地 /“常规”文件系统
3.2 Amazon S3
3.3 HDFS
4. Spark SQL 中的结构化数据
4.1 Apache Hive
4.2 JSON
5. 数据库
5.1 Java 数据库连接
5.2 Cassandra
5.3 HBase
5.4 Elasticsearch
6 总结
##### 第 6 章 Spark 编程进阶
1. 简介
2. 累加器
2.1 累加器与容错性
2.2 自定义累加器
3. 广播变量
4. 基于分区进行操作
5. 与外部程序间的管道
6. 数值 RDD 的操作
7. 总结
##### 第 7 章 在集群上运行 Spark
1. 简介
2. Spark 运行时架构
2.1 驱动器节点
2.2 执行器节点
2.3 集群管理器
2.4 启动一个程序
2.5 小结
3. 使用 spark-submit 部署应用
4. 打包代码与依赖
4.1 使用 Maven 构建的用 Java 编写的 Spark 应用
4.2 使用 sbt 构建的用 Scala 编写的 Spark 应用
4.3 依赖冲突
5. Spark 应用内与应用间调度
6. 集群管理器
6.1 独立集群管理器
6.2 Hadoop YARN
6.3 Apache Mesos
6.4 Amazon EC2
7. 选择合适的集群管理器
8. 总结
##### 第 8 章 Spark 调优与调试
1. 使用 SparkConf 配置 Spark
2. Spark 执行的组成部分:作业、任务和步骤
3. 查找信息
3.1 Spark 网页用户界面
3.2 驱动器进程和执行器进程的日志
4. 关键性能考量
4.1 并行度
4.2 序列化格式
4.3 内存管理
4.4 硬件供给
5. 总结
##### 第 9 章 Spark SQL
1. 连接 Spark SQL
2. 在应用中使用 Spark SQL
2.1 初始化 Spark SQL
2.2 基本查询示例
2.3 SchemaRDD
2.4 缓存
3. 读取和存储数据
3.1 Apache Hive
3.2 Parquet
3.3 JSON
3.4 基于 RDD
4. JDBC/ODBC 服务器
4.1 使用 Beeline
4.2 长生命周期的表与查询
5. 用户自定义函数
5.1 Spark SQL UDF
5.2 Hive UDF
6. Spark SQL 性能
7. 总结
##### 第 10 章 Spark Streaming
1. 一个简单的例子
2. 架构与抽象
3. 转化操作
3.1 无状态转化操作
3.2 有状态转化操作
4. 输出操作
5. 输入源
5.1 核心数据源
5.2 附加数据源
5.3 多数据源与集群规模
6. 24/7 不间断运行
6.1 检查点机制
6.2 驱动器程序容错
6.3 工作节点容错
6.4 接收器容错
6.5 处理保证
7. Streaming 用户界面
8. 性能考量
8.1 批次和窗口大小
8.2 并行度
8.3 垃圾回收和内存使用
9. 总结
##### 第 11 章 基于 MLlib 的机器学习
1. 概述
2. 系统要求
3. 机器学习基础
4. 数据类型
5. 算法
5.1 特征提取
5.2 统计
5.3 分类与回归
5.4 聚类
5.5 协同过滤与推荐
5.6 降维
5.7 模型评估
6. 一些提示与性能考量
6.1 准备特征
6.2 配置算法
6.3 缓存 RDD 以重复使用
6.4 识别稀疏程度
6.5 并行度
7. 流水线 API
8. 总结
没有合适的资源?快使用搜索试试~ 我知道了~
《Spark 快速大数据分析》学习笔记.zip
共287个文件
md:99个
java:67个
scala:60个
需积分: 5 0 下载量 137 浏览量
2024-03-04
21:20:55
上传
评论
收藏 1.37MB ZIP 举报
温馨提示
《Spark 快速大数据分析》学习笔记.zip
资源推荐
资源详情
资源评论
收起资源包目录
《Spark 快速大数据分析》学习笔记.zip (287个子文件)
datagen.cmd 614B
fakelogs.cmd 30B
u.data 1.89MB
.gitignore 103B
J31Aggregations.java 8KB
J3BroadcastVariables.java 5KB
J55Recommendation.java 5KB
J23CSV.java 4KB
J51MySQL.java 4KB
J30Transformations.java 4KB
ApacheAccessLog.java 4KB
J32StatefulTransformations.java 4KB
J54Elasticsearch.java 4KB
J42WordCount.java 3KB
J3SpamClassification.java 3KB
J53RandomForests.java 3KB
J4PerPartition.java 3KB
J26HadoopFormats.java 3KB
J31StatelessTransformations.java 3KB
J53HBase.java 3KB
J51BasicRDDs.java 3KB
J5DataPartitioning.java 2KB
J24SequenceFile.java 2KB
J4Actions.java 2KB
J22JSON.java 2KB
J53DecisionTrees.java 2KB
J51FeatureExtraction.java 2KB
J33UpdateStateByKey.java 2KB
J56SingularValueDecomposition.java 2KB
J4SaveSequenceFile.java 2KB
J2CreatePairRDD.java 2KB
J4PassFunctions.java 2KB
J56PrincipalComponentAnalysis.java 2KB
J54KMeans.java 2KB
J2SparkSqlApp.java 2KB
J3CoreConcepts.java 2KB
J6NumericRDD.java 2KB
J7PipelineAPI.java 2KB
J52Cassandra.java 2KB
J33Joins.java 2KB
J1StreamingSimpleExample.java 2KB
J53NaiveBayes.java 2KB
J2Components.java 2KB
J53LogisticRegression.java 1KB
J34SortData.java 1KB
J5Piping.java 1KB
J53SupportVectorMachines.java 1KB
J51SparkSqlUDF.java 1KB
J53LinearRegression.java 1KB
J42JsonSQL.java 1KB
J2Accumulators.java 1KB
J34FromRDDs.java 1KB
DataBaseUtil.java 1KB
J5ApacheKafka.java 1KB
J4KeyPerformance.java 1KB
J5ApacheFlume.java 1024B
J52DoubleRDD.java 986B
J6DriverFaultTolerance.java 967B
TestJava.java 951B
FilesUtilByJava.java 838B
J6Persist.java 793B
J31HiveSQL.java 792B
J41HiveSQL.java 792B
JavaSparkContext.java 737B
HappyPerson.java 626B
J1SparkConf.java 618B
J4CreateVectors.java 618B
J2JavaShell.java 547B
StringsUtilByJava.java 455B
J41InitSparkContext.java 437B
AvgCount.java 335B
spark-submit 的一些常见标记.jpg 119KB
spark-submit的--master标记可以接收的值.jpg 70KB
性能调优选项.jpg 61KB
C27文件压缩.jpg 34KB
分布式 Spark 应用中的组件.jpg 30KB
Spark软件栈.jpg 24KB
StatsCounter中可用的汇总统计数据.jpg 18KB
C53分类与回归.md 7KB
C5数据分区.md 6KB
README.md 5KB
C4关键性能考量.md 5KB
C51基本RDD.md 4KB
C51特征提取.md 4KB
C2Spark运行时架构.md 3KB
C5输入源.md 3KB
C3RDD操作.md 3KB
C51MySQL.md 3KB
C26Hadoop输入输出格式.md 3KB
C6不间断运行.md 3KB
C6一些提示与性能考量.md 3KB
C3转化操作.md 3KB
C3机器学习基础.md 3KB
C2累加器.md 3KB
C55协同过滤与推荐.md 3KB
C31聚合操作.md 3KB
C4数据类型.md 3KB
C1RDD基础.md 2KB
C3广播变量.md 2KB
C56降维.md 2KB
共 287 条
- 1
- 2
- 3
资源评论
日刷百题
- 粉丝: 5525
- 资源: 951
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 编译原理:正规式转NFA(有穷自动机)
- 通过 Navicat 备份文件读取连接信息和解析密码
- Linux下开箱即用的C++单元测试demo示例,public成员函数单元测试
- 连接Redis服务器 在使用Redis之前,首先需要使用redis-cli工具连接到Redis服务器 redis-cli是Re
- 连接Redis服务器 在使用Redis之前,首先需要使用redis-cli工具连接到Redis服务器 redis-cli是Red
- 连接Redis服务器 在使用Redis之前,首先需要使用redis-cli工具连接到Redis服务器 redis-cli是Red
- redis命令实践 详细教程
- redis命令实践 详细教程
- redis命令实践 详细教程
- redis命令实践 详细教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功