没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论












一、实验题目
大数据技术实践——Spark 词频统计
二、引言
本次作业要完成在 Hadoop 平台搭建完成的基础上,利用 Spark 组件完成文
本词频统计的任务,目标是学习 Scala 语言,理解 Spark 编程思想,基于 Spark
思想,使用 IDEA 编写 SparkWordCount 程序,并能够在 spark-shell 中执行代码
和分析执行过程。
三、技术/算法介绍
1. 基本介绍:
Spark 是一种由 Scala 语言开发的基于内存的快速、通用、可扩展的大数据
分析引擎。Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。
与 Hadoop 不同,Spark 和 Scala能够紧密集成,其中的 Scala 可以像操作本地
集合对象一样轻松地操作分布式数据集。
Spark,拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是
——Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此
Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。
另外,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可
以优化迭代工作负载。
2. 基本原理:

① 构建 Spark Application 的运行环境,启动 SparkContext
SparkContext② 向资源管理器(可以是 Standalone,Mesos,Yarn)申请运
行 Executor 资源,并启动 StandaloneExecutorbackend,
Executor③ 向 SparkContext 申请 Task
SparkContext④ 将应用程序分发给 Executor
SparkContext⑤ 构建成 DAG 图,将 DAG 图分解成 Stage、将 Taskset 发送
给 Task Scheduler,最后由 Task Scheduler 将 Task 发送给 Executor 运行
Task⑥ 在 Executor 上运行,运行完释放所有资源
3. Spark 集群:
Spark Core:包含 Spark 的基本功能;尤其是定义 RDD 的 API、操作以及这
两者上的动作。其他 Spark 的库都是构建在 RDD 和 Spark Core 之上的。
Spark SQL:提供通过 Apache Hive 的 SQL 变体 Hive 查询语言(HiveQL)
与 Spark 进行交互的 API。每个数据库表被当做一个 RDD,Spark SQL 查询被转

换为 Spark 操作。
Spark Streaming:对实时数据流进行处理和控制。Spark Streaming 允许程序
能够像普通 RDD 一样处理实时数据
MLlib:一个常用机器学习算法库,算法被实现为对 RDD 的 Spark 操作。
这个库包含可扩展的学习算法,比如分类、回归等需要对大量数据集进行迭代
的操作。
GraphX:控制图、并行图操作和计算的一组算法和工具的集合。 GraphX
扩展了 RDD API,包含控制图、创建子图、访问路径上所有顶点的操作
四、数据描述
1. 数据集来源:https://ide2-cn-shanghai.data.aliyun.com/?projectId=185111
2. 数据格式:
How nice
I love Spark
I love Hadoop
How good
Hadoop is good
Spark is fast
3. 数据集规模: 0.86G
五、实践过程
(一)环境配置
1. 安装 Java jdk:
剩余13页未读,继续阅读
资源评论

- 行走的瓶子Yolo2023-07-25这篇文章对Spark词频统计进行了详实的描述,并提供了一些实战案例,非常值得一读。
- 会飞的黄油2023-07-25作者深入浅出地阐述了Spark词频统计的原理和应用场景,对于新手来说也很友好。
- 黄涵奕2023-07-25该文件的解释清晰,图文并茂,让人容易理解和跟随操作步骤。
- 十二.122023-07-25文章的观点中肯,结合实际情况讲解了大数据技术中Spark词频统计的重要性。
- 罗小熙2023-07-25这篇文件对Spark词频统计进行了实践,内容丰富,给予了很多有用的示例。

小鱼uua
- 粉丝: 5
- 资源: 1
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


安全验证
文档复制为VIP权益,开通VIP直接复制
