没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
1.Spark及其生态圈简介.pdf 2.Spark编译与部署(上)--基础环境搭建.pdf 2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf 3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5.Hive(上)--Hive介绍及部署.pdf 5.Hive(下)--Hive实战.pdf 6.SparkSQL(上)--SparkSQL简介.pdf 6.SparkSQL(下)--Spark实战应用.pdf 6.SparkSQL(中)--深入了解运行计划及调优.pdf 7.SparkStreaming(上)--SparkStreaming原理介绍.pdf 7.SparkStreaming(下)--SparkStreaming实战.pdf 8.SparkMLlib(上)--机器学习及SparkMLlib简介.pdf 8.SparkMLlib(下)--SparkMLlib实战.pdf 9.SparkGraphX介绍及实例.pdf 10.分布式内存文件系统Tachyon介绍及安装部署.pdf
资源推荐
资源详情
资源评论
第 1 页 共 41 页 出自石山园,博客地址:http://www.cnblogs.com/shishanyuan
Spark 实战应用
第 2 页 共 41 页 出自石山园,博客地址:http://www.cnblogs.com/shishanyuan
目 录
1 运行环境说明 ............................................................................................................................................................. 3
1.1 硬软件环境 ......................................................................................................................................................... 3
1.2 机器网络环境 ..................................................................................................................................................... 3
2
SPARK基础应用 ........................................................................................................................................................ 3
2.1 启动S
PARK SHELL ................................................................................................................................................ 4
2.1.1
环境设置
.......................................................................................................................................................... 4
2.1.2
启动
Hadoop ..................................................................................................................................................... 5
2.1.3
启动
Spark ......................................................................................................................................................... 5
2.1.4
启动
Spark-Shell ................................................................................................................................................ 5
2.2
SQLCONTEXT演示 ............................................................................................................................................... 6
2.2.1
使用
Case Class
定义
RDD
演示
........................................................................................................................ 6
2.2.2
使用
applySchema
定义
RDD
演示
..................................................................................................................... 8
2.2.3 parquet
演示
.................................................................................................................................................... 10
2.2.4 json
演示
.......................................................................................................................................................... 11
2.2.5 sqlContext
中混合使用演示
........................................................................................................................... 13
2.3
HIVECONTEXT演示 ............................................................................................................................................ 13
2.3.1
启动
hive .......................................................................................................................................................... 14
2.3.2
在
SPARK_HOME/conf
目录下创建
hive-site.xml ........................................................................................... 14
2.3.3
查看数据库表
................................................................................................................................................ 14
2.3.4
计算所有订单中每年的销售单数、销售总额
............................................................................................. 15
2.3.5
计算所有订单每年最大金额订单的销售额
................................................................................................ 17
2.3.6
计算所有订单中每年最畅销货品
................................................................................................................ 18
2.3.7 hiveContext
中混合使用演示
......................................................................................................................... 20
2.4 C
ACHE使用 ....................................................................................................................................................... 21
2.5 DSL演示 ........................................................................................................................................................... 24
3
SPARK综合应用 ...................................................................................................................................................... 24
3.1 SQL
ON SPARK .................................................................................................................................................. 25
3.1.1
代码
................................................................................................................................................................ 25
3.1.2
操作
................................................................................................................................
错误!未定义书签。
3.2 HIVE ON SPARK ................................................................................................................................................. 29
3.2.1
代码
................................................................................................................................................................ 29
3.2.2
操作
................................................................................................................................
错误!未定义书签。
3.3 店铺分类 ........................................................................................................................................................... 31
3.3.1
代码
................................................................................................................................................................ 32
3.3.2
操作
................................................................................................................................
错误!未定义书签。
3.4 PAGERANK ......................................................................................................................................................... 36
3.4.1
创建表
............................................................................................................................................................ 36
3.4.2
代码
................................................................................................................................................................ 38
3.4.3
操作
................................................................................................................................
错误!未定义书签。
3.5 小结 ................................................................................................................................................................... 40
第 3 页 共 41 页 出自石山园,博客地址:http://www.cnblogs.com/shishanyuan
Spark 实战应用
1 运行环境说明
1.1 硬软件环境
主机操作系统:Windows 64 位,双核 4 线程,主频 2.2G,10G 内存
虚拟软件:VMware® Workstation 9.0.0 build-812388
虚拟机操作系统:CentOS 64 位,单核
虚拟机运行环境:
JDK:1.7.0_55 64 位
Hadoop:2.2.0(需要编译为 64 位)
Scala:2.10.4
Spark:1.1.0(需要编译)
Hive:0.13.1
1.2 机器网络环境
集群包含三个节点,节点之间可以免密码 SSH 访问,节点 IP 地址和主机名分布如下:
序号 IP 地址 机器名 类型 核数/内存 用户名 目录
1 192.168.0.61 hadoop1
NN/DN/RM
Master/Worker
1 核/3G hadoop
/app 程序所在路径
/app/scala-...
/app/hadoop
/app/complied
2 192.168.0.62 hadoop2 DN/NM/Worker 1 核/2G hadoop
3 192.168.0.63 hadoop3 DN/NM/Worker 1 核/2G hadoop
2 Spark 基础应用
SparkSQL 引入了一种新的 RDD——SchemaRDD,SchemaRDD 由行对象(Row)以及
描述行对象中每列数据类型的 Schema 组成;SchemaRDD 很象传统数据库中的表。
SchemaRDD 可以通过 RDD、Parquet 文件、JSON 文件、或者通过使用 hiveql 查询 hive 数
第 4 页 共 41 页 出自石山园,博客地址:http://www.cnblogs.com/shishanyuan
据来建立。SchemaRDD 除了可以和 RDD 一样操作外,还可以通过 registerTempTable 注册
成临时表,然后通过 SQL 语句进行操作。
值得注意的是:
Spark1.1 使用 registerTempTable 代替 1.0 版本的 registerAsTable
Spark1.1 在 hiveContext 中,hql()将被弃用,sql()将代替 hql()来提交查询语句,统一了接
口。
使用 registerTempTable 注册表是一个临时表,生命周期只在所定义的 sqlContext 或
hiveContext 实例之中。换而言之,在一个 sqlontext (或 hiveContext )中
registerTempTable 的表不能在另一个 sqlContext(或 hiveContext)中使用。
另外,Spark1.1 提供了语法解析器选项 spark.sql.dialect,就目前而言,Spark1.1 提供了
两种语法解析器:sql 语法解析器和 hiveql 语法解析器。
sqlContext 现在只支持 sql 语法解析器(SQL-92 语法)
hiveContext 现在支持 sql 语法解析器和 hivesql 语法解析器,默认为 hivesql 语法解析器,
用户可以通过配置切换成 sql 语法解析器,来运行 hiveql 不支持的语法,如 select 1。
切换可以通过下列方式完成:
在 sqlContexet 中使用 setconf 配置 spark.sql.dialect
在 hiveContexet 中使用 setconf 配置 spark.sql.dialect
在 sql 命令中使用 set spark.sql.dialect=value
SparkSQL1.1 对数据的查询分成了 2 个分支:sqlContext 和 hiveContext。至于两者之间
的关系,hiveSQL 继承了 sqlContext,所以拥有 sqlontext 的特性之外,还拥有自身的特性(最
大的特性就是支持 hive)。
2.1 启动 Spark shell
2.1.1 环境设置
使用如下命令打开/etc/profile 文件:
sudo vi /etc/profile
设置如下参数:
export SPARK_HOME=/app/hadoop/spark-1.1.0
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
第 5 页 共 41 页 出自石山园,博客地址:http://www.cnblogs.com/shishanyuan
export HIVE_HOME=/app/hadoop/hive-0.13.1
export PATH=$PATH:$HIVE_HOME/bin
export CLASSPATH=$CLASSPATH:$HIVE_HOME/bin
2.1.2 启动 HDFS
$cd /app/hadoop/hadoop-2.2.0/sbin
$./start-dfs.sh
2.1.3 启动 Spark 集群
$cd /app/hadoop/spark-1.1.0/sbin
$./start-all.sh
2.1.4 启动 Spark-Shell
在 spark 客户端(在 hadoop1 节点),使用 spark-shell 连接集群
$cd /app/hadoop/spark-1.1.0/bin
剩余40页未读,继续阅读
资源评论
ansoncloud
- 粉丝: 5
- 资源: 31
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- MATLAB simulink 仿真: 基于popov理论和模型参考自适应理论,辨识永磁同步电机参数(SPMSM)simulin
- 在线教育系统 基于Springboot和Mysql的在线教育系统代码 ,包括程序,中文注释,配置说明操作步骤
- 基于模型参考自适应控制的 SPMSM 无感矢量控制的MATLAB simulink仿真 速度控制 低速I F控制,中高速采
- 基于BERT-BILSTM-CRF进行中文命名实体识别python源码.zip
- 在线教育系统代码系统 Springboot在线教育系统,包括程序,中文注释,配置说明操作步骤
- MATLAB的人脸识别系统GUI设计.zip
- 基于Springboot和Vue的在线教育系统源码 在线教育系统代码,包括程序,中文注释,配置说明操作步骤
- MATLAB的汽车框定系统GUI设计.zip
- MATLAB的口罩识别预警系统GUI设计.zip
- 家庭自动化控制系统毕业设计: 这个系统将能够控制家中的灯光、温度以及安全系统,并且可以通过互联网进行远程控制 此外,系统还可以与
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功