没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
大数据编程期末大作业
文章目录
大数据编程期末大作业
一、Hadoop 基础操作
二、RDD 编程
三、SparkSQL 编程
四、SparkStreaming 编程
一、Hadoop 基础操作
在 HDFS 中创建目录 /user/root/你的名字 例如李四同学 /user/root/lisi
首先我们需要启动 hdfs,我们直接在终端输入如下命令:
1 start-dfs.sh
我们在终端输入如下命令创建目录:
1 hadoop fs -mkdir /user
2 hadoop fs -mkdir /user/root
3 hadoop fs -mkdir /user/root/***(这里是你自己的名字)
上面是逐个创建文件夹,我们还可以使用参数-p 一次性创建多级目录:
1 hadoop fs -mkdir -p /user/root/***
创建本地文件 a.txt,文件内容:You love Hadoop ,并将改文件上传到 HDFS 中第 1 题所创建
的目录中
我们直接在终端的 root 目录下面创建我们的本地文件并输入题目要求的内容:
1 vim a.txt
然后我们再在终端输入上传命令:
1 hadoop fs -put a.txt /user/root/***
查看上传到 HDFS 中的 a.txt 文件的内容
我们直接在终端输入查看命令:
1 hadoop fs -cat /user/root/***/a.txt
在 Hadoop 官方的示例程序包 hadoop-mapreduce-examples-3.1.4.jar 中,包括计算 Pi 值的
测试模块,使用 hadoop jar 命令提交计算 Pi 的 MapReduce 任务
我们首先进入到 hadoop 下的 mapreduce 目录中:
1 cd /usr/local/servers/hadoop/share/hadoop/mapreduce/
然后执行如下命令即可计算 Pi:
1 hadoop jar hadoop-mapreduce-examples-3.1.3.jar pi 5 5
可以看出精度不是很高,上面命令后面的两个数字含义是,第一个 5 是运行 5 次 map 任务,
第二个 5 是每个 map 任务投掷次数,总投掷次数就是两者相乘,想要提高精度就可以让数
字变大,但是很容易出现作业计算失败的异常,这是因为计算内存不够,所以不能调的太大。
二、RDD 编程
现有一份 2019 年我国部分省份高考分数线数据文件 exam2019.csv,共有四个数据字段,字段
说明如表 1 所示:
表 1 高考分数线数据字段说明
字段名称 说明
地区 省、直辖市或自治区
考生类别 考生报考类别,如理科
批次 划定的学校级别,如本科批次
分数线 达到所属批次的最低分
剩余10页未读,继续阅读
资源评论
电气_空空
- 粉丝: 3047
- 资源: 741
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功