没有合适的资源?快使用搜索试试~ 我知道了~
2021高职 大数据技术与应用 任务书2(赛项赛题) (2).pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 191 浏览量
2022-11-25
14:13:30
上传
评论
收藏 1.09MB PDF 举报
温馨提示
试读
27页
2021高职 大数据技术与应用 任务书2(赛项赛题) (2).pdf2021高职 大数据技术与应用 任务书2(赛项赛题) (2).pdf
资源推荐
资源详情
资源评论
2021 年全国职业院校技能大赛
高职组
“大数据技术与应用”
赛项赛卷(GZ-xxxxxxx-X 卷)
任
务
书
参赛队编号:
背景描述
据央视财经报道,2020 年我国 O2O 市场规模突破万亿元,O2O
市场存在着巨大的潜力。特别是餐饮和外卖行业,占据市场较大份额,
并且业务增长迅速。截至 2020 年底,全国外卖总体订单量已超过
171.2 亿单,同比增长 7.5%,全国外卖市场交易规模达到 8352 亿
元,同比增长 14.8%。我国外卖用户规模已接近 5 亿人,其中 80 后、
90 后是餐饮外卖服务的中坚消费力量,消费者使用餐饮外卖服务也
不再局限于传统的一日三餐,下午茶和夜宵逐渐成为消费者的外卖新
宠。为把握这一商业机遇,ChinaSkills 公司计划进驻外卖平台市场,
现需对大规模成熟外卖平台进行详细评估调研,采集多方多维度数据,
寻找行业痛点,摸清市场需求,以技术为手段为投资保驾护航。
为完成该项工作,你所在的小组将应用大数据技术,以 Python、
Java、Scala 作为整个项目的基础开发语言,基于大数据平台综合利
用 MapReduce、Spark、MySQL、Scrapy、Flask、ECharts 等,对
数据进行获取、处理、清洗、挖掘、分析、可视化呈现,力求实现对
公司未来的重点战略方向提出建议。
你们作为该小组的技术人员,请按照下面任务完成本次工作,并
编制综合报告。
模块 A:Hadoop 平台及组件的部署管理(15 分)
环境说明:
编号
1
2
3
主机名
master
slave1
slave2
类型
主节点
从节点
从节点
用户
root
root
root
密码
passwd
passwd
passwd
补充说明:主节点 MySQL 数据库用户名/密码:
root/Password123$
相关软件安装包在/chinaskills 目录下
所有模块中应用命令必须采用绝对路径
任务一:Hadoop 全分布部署管理
本环节需要使用 root 用户完成相关配置,安装 Hadoop 需要配置前置环
境。命令中要求使用绝对路径,具体部署要求如下:
1、 将/chinaskills 下的 JDK 包解压到/usr/local/src 路径,将完整命令复制
粘贴到对应报告中;
2、 修改/root/.bash_profile 文件,设置 JDK 环境变量,并使环境变量只对当
前 root 用户生效将环境变量配置内容复制粘贴至对应报告中;
3、 从 master 复制上面步骤配置的 JDK 环境变量文件到 slave1、slave2 节
点,命令和结果复制粘贴在对应报告中;
4、 配置 SSH 密钥登录,实现从 master 登录到 slave1,将登录命令和结果复制
粘贴在对应报告中;
5、 将配置文件 hadoop-env.sh 变更内容复制粘贴在对应报告中;
6、 将配置文件 core-site.xml 变更内容复制粘贴在对应报告中;
7、 初始化 Hadoop 环境 namenode,将命令及结果复制粘贴在对应报告中;
8、 查看 master 及 slave1 节点 jps 进程,将其命令及结果复制粘贴至对应报
告中。
任务二:Flume 部署管理
1、 设置 Flume 环境变量,并使环境变量只对当前 root 用户生效,将变量内容
复制并粘贴到对应报告中。
2、 修改并配置 flume-env.sh 文件,将修改内容复制并粘贴到对应报告中。
3、 查看 Flume 启动的 conf-file 文件内容,将内容复制并粘贴到对应报告
中;
4、 启动 Flume 传输 Hadoop 日志,将 Flume 启动命令以及查看 HDFS 上生成的
Hadoop 日志文件结果复制并粘贴到对应报告中(若文件数量大于 10 则只截
取 10 条)。并查看 HDFS 中/tmp/flume 目录下生成了文件,将内容复制并粘
贴到对应报告中。
任务三:Zookeeper 部署管理
1、 解压 Zookeeper 安装包到“/usr/local/src”路径,并修改解压后文件夹
名为 zookeeper,将修改命令及结果复制粘贴至对应报告中;
2、 设置 ZOOKEEPER_HOME 环境变量,并使环境变量只对当前用户生效,命令及
环境变量内容复制粘贴至对应报告中;
3、 配置“zoo.cfg”配置文件,将文件变更内容复制粘贴至对应报告中;
4、 修改 myid 配置文件,将文件变更内容复制粘贴至对应报告中;
5、 启动每个虚拟机上的 Zookeeper 节点,启动完成之后查看每个节点的
zkServer 服务状态,命令及结果复制粘贴至对应报告中。
模块 B:数据采集与处理 (20 分)
项目背景说明
1、 查看餐饮外送统计平台网站源码结构。
1) 打开网站,在网页中右键点击检查,或者 F12 快捷键,查
看源码页面;
2) 检查网站:浏览网站源码查看所需内容。
2、 从餐饮外送统计平台中采集需要数据,按照要求使用 Python
语言编写代码工程,获取指定数据项,并对结果数据集进行必要
的数据处理。请将符合任务要求的结果复制粘贴至对应报告中。
具体步骤如下:
1) 创建工程工程项目:C:\food_delivery
2) 构建采集请求
3) 按要求定义相关字段
4) 获取有效数据
5) 将获取到的数据保存到指定位置
6) 对数据集进行基础的数据处理
至此已从餐饮外送统计平台中获取所需数据,并完成了必要的基
础的数据处理。
3、 自行创建 Scrapy 工程项目 food_delivery,路径 为 C:\
food_delivery 按照任务要求从餐饮外送统计平台中获取数据。
提取“商户数据”页面相关字段(包括平台餐厅 ID、餐厅名称、
剩余26页未读,继续阅读
资源评论
不吃鸳鸯锅
- 粉丝: 8325
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功