上机实验指南
实验 4 Spark Streaming 编程初级实践
主讲教师:徐丽丽
二零二四年九月
目录
目录
一、实验目的 ..................................................................................................................................1
二、实验平台 ..................................................................................................................................1
三、实验内容和要求.......................................................................................................................1
一、实验目的
(1)通过实验学习使用 Scala 编程实现文件和数据的生成。
(2)掌握使用文件作为 Spark Streaming 数据源的编程方法。
二、实验平台
操作系统:Ubuntu16.04 及以上。
Spark 版本:3.2.0。
Scala 版本:2.12.15。
三、实验内容和要求
1.以随机时间间隔在一个目录下生成大量文件,文件名随机命名,文件中包含随机生成的一些
英文语句,每个英语语句内部的单词之间用空格隔开。
【参考答案】
假设当前使用用户名 hadoop 登录了 Linux 系统,执行如下命令新建一个 data 目录,用
于存放生成的数据文件:
$ cd /home/hadoop
$ mkdir data
执行如下命令新建一个代码目录:
$ cd /home/hadoop
$ mkdir sparkapp
$ mkdir -p src/main/scala
然后,在 sparkapp 目录下新建一个 simple.sbt 文件,在该文件中写入如下内容:
name := "Simple Project"
version := "1.0"
scalaVersion := "2.12.15"
libraryDependencies += "org.apache.spark" %% "spark-core" % "3.2.0"
libraryDependencies += "org.apache.spark" % "spark-streaming_2.12" % "3.2.0" % "provided"
然后,在 src/main/scala 目录下,新建一个 GenFile.scala 文件,用于生成数据文件,该
代码文件的内容如下:
//GenFile.scala
import java.io.{File, PrintWriter}
object GenFile{
def main(args: Array[String]) {
val strList = List(