• 讲师平台
    • 我的学习
    • 消息

    Spark快速大数据处理-

    共168节16018人学习余海峰 课程详情 领证书
    • 课程总体介绍

      • 什么是大数据
      • 课程体系
      • 集群拓扑
      • 集群安装的软件情况
      • 课程特点
      • VirtualBox集群环境基本操作-1
      • VirtualBox集群环境基本操作-2
      • 课程起点准备
    • ZooKeeper-分布式过程协同组件

      • ZooKeeper概要
      • 什么是分布式过程协同
      • 分布式过程协同架构设计的难点
      • 为什么选择ZooKeeper
      • 环境搭建与案例分析总体介绍
      • 环境搭建
      • 案例实战-分布式锁
      • 案例实战-主从应用-1
      • 案例实战-主从应用-2
      • 案例实战-主从应用-3
      • 案例实战-主从应用-4
      • ZooKeeper清理工作
    • Hadoop3-大数据基础组件

      • hadoop3基本集群构建概要
      • hadoop3基本集群安装-1
      • hadoop3基本集群安装-2-上
      • hadoop3基本集群安装-2-下
      • hadoop3基本集群安装-3
      • hadoop3基本集群安装-4
      • HDFS基本原理与基本操作-1-HDFS的架构目标
      • HDFS基本原理与基本操作-1-HDFS架构原理
      • HDFS基本原理与基本操作-2-HDFS基本操作
      • HDFS HA配置文件详解-1
      • HDFS HA配置文件详解-2
      • HDFS HA配置文件详解-3
      • HDFS FederationViewFS-1
      • HDFS FederationViewFS-2
      • HDFS FederationViewFS-3
      • Mapreduce基本原理-1
      • MR基本原理2-例子1
      • MR基本原理2-例子2
      • MR基本原理2-例子3-python版本
      • MR内部机制与调优1
      • MR内部机制与调优2
      • MR内部机制与调优3
      • MR内部机制与调优4
      • MR内部机制与调优5-例子上
      • MR内部机制与调优5-例子下
      • YARN的产生背景1
      • YARN的产生背景2
      • YARN架构1
      • YARN架构2
      • YARN基本操作命令
      • RM HA配置
      • YARN调度器配置
      • YARN应用编程实战1
      • YARN应用编程实战2
      • YARN应用编程实战3
      • YARN应用编程实战4
      • YARN应用编程实战5
    • Tez-Yarn底层计算引擎

      • Tez总体介绍
      • 为什么要用Tez-1
      • 为什么要用Tez-2
      • 特征1
      • 特征2-MR再讲解
      • Tez基本架构
      • 编译1
      • 编译2
      • 安装1
      • 安装2
      • 编程实战1-总体架构与创建DAG-1
      • 编程实战2-创建DAG-2
      • 编程实战3-程序的总体流程
      • 编程实战4-编译执行
    • Hive-大数据仓库

      • Hive总体规划
      • SQL on OLAP
      • Hive Arch和Hive metastore以及和传统数据库的对比1
      • Hive Arch和Hive metastore以及和传统数据库的对比2
      • Hive环境安装1-安装总体介绍
      • Hive环境安装2-启用自动化集群启停脚本
      • 安装Mysql
      • 安装Hive-1
      • 安装Hive-2
      • 基本命令行操作
      • HiveQL数据定义1
      • HiveQL数据定义2-数据库与hdfs文件对应关系
      • .HiveQL数据定义3-外部表与内部表操作例子及表与hdfs文件管控关系
      • HiveQL查询-HiveQL查询及Tez与MR引擎性能对比
      • Hive锁
      • Hive执行计划与表分区
    • Spark快速大数据处理

      • Spark是类似如MR-Tez-Flink的计算框架
      • Spark是大一统的数据处理引擎1-综述
      • Spark是大一统的数据处理引擎2-为什么不选择RDD-数据分析的思想
      • Spark是大一统的数据处理引擎3-Hive On Spark VS Spark On Hive与框
      • 我们选择Python-Scala-Java为编程语言
      • 编译1
      • 编译2
      • 安装Spark-上
      • 安装Spark-下
      • Spark集群模式
      • SparkSQL例子-pyspark版本
      • SparkSQL例子-python脚本通过spark-submit提交yarn集群
      • SparkSQL例子-scala版本
      • SparkSQL例子-spark-sql版本
      • Hive锁表处理
      • Spark编程模型与Spark基本架构
      • SparkContext与任务调度
      • Spark部署模式与计算引擎
      • 安装Anaconda
      • 安装Jupyter-1
      • 安装Jupyter-2
      • 安装Toree-1
      • 安装Toree-2-执行python和scala例子
      • 修改集群启动脚本
    • Spark快速大数据处理淘宝数据实战

      • SparkSQL-DataFrame API概述
      • 淘宝用户行为分析任务介绍
      • 淘宝用户行为数据属性
      • 数据加载
      • 数据加载后的基本特征分析
      • 任务1-用户访问流量分布分析-1-任务介绍
      • 任务1-用户访问流量分布分析-2
      • 任务1-用户访问流量分布分析-3
      • 任务1-用户访问流量分布分析-4-pandas和Apache Arrow
      • 任务1-用户访问流量分布分析-5
      • 任务1-用户访问流量分布分析-6
      • 任务1-用户访问流量分布分析-7
      • 任务1-用户访问流量分布分析-8-编程过程总结
      • 任务1-用户访问流量分布分析-9-资源不释放故障处理
      • 任务1-用户访问流量分布分析-10-按照小时统计
      • 任务2-用户活跃度分析-DAU
      • 任务3-客单量分析
      • 任务4-商品PV各环节转化率-1
      • 任务4-商品PV各环节转化率-2
      • 任务4-商品PV各环节转化率-3
      • 任务4-商品PV各环节转化率-4
      • 任务4-商品PV各环节转化率-5
    • Spark Structured Streaming简介

      • 什么是流、动态表
      • Streaming WordCount原理
      • 时间与窗口-1-基本概念
      • 时间与窗口-2-例子
      • 事件迟到
      • 水印
      • 进一步学习材料
    • 集群环境对称处理

      • Spark案例后的集群环境对称处理
    • Oozie-大数据流程引擎

      • 大数据工作流的必要性
      • Oozie工作流总体架构
      • Oozie工作流编程概念
      • 编译
      • 制作sharelib-上
      • 制作sharelib-下
      • 安装client和server-1-oozie-server的解压与配置
      • 安装client和server-2-配置mysql
      • 安装client和server-3-sharelib的创建与oozie的启动
      • 设置自动化启停脚本
      • 编程实战概要
      • oozie基本编程技巧及cron action例子-上
      • oozie基本编程技巧及cron action例子-中
      • oozie基本编程技巧及cron action例子-下
      • Shell Action-上
      • Shell Action-下
      • MR Action-上
      • MR Action-中
      • MR Action-下
      • Spark Action-上
      • Spark Action-下
      • PySpark Action-上
      • PySpark Action-下
      • Hive2 Action-上
      • Hive2 Action-下
      • 总结
    • 在线实验环境

      • 基于网络IDE实验环境选择
    0/1024
    暂无留言

      订阅失败

      Spark快速大数据处理
      Spark快速大数据处理 ...

      订阅列表已满,请先移出部分订阅内容。

      当前章节需购买后观看
      开通超级会员免费看!专家精选系列课程,满足你从入门到精通!更有问答月卡免费送,你的问题有问必答!

      购买课程

      扫码完成付费,可继续学习全部课程内容

      加载中...
      正在试验
      后自动删除环境
      课程实验
      本次实验时间已到期 00:00:00
      程序员研修院 v1.1.0
      一、播放器优化
      修改播放器默认倍速设置,增加1.25倍速
      调整目录展示形式,增加折叠/展开
      优化播放器的使用体验,有播放问题可以点击播放页内的”反馈“提交问题
      查看全部版本记录
      课件正在飞速打包中,请耐心等待几秒钟~