spark课程设计任务

preview
共39个文件
class:27个
xml:7个
scala:2个
需积分: 0 1 下载量 152 浏览量 更新于2024-07-31 收藏 21MB ZIP 举报
对数据文件data.csv在根据课程设计要求在IDEA中编写Spark程序并打包成jar包,并且将数据文件data.csv上传到HDFS中,提交jar包到Spark集群中运行。 data.csv里面包含餐厅数据,可以用记事本打开查看,主要包含以下13个字段,字段之间由逗号分隔: "所属年月","商家名称","主营类型","店铺URL","特色菜","累计评论数","累计销售人次","店铺评分","本月销量","本月销售额","城市","商家地址","电话" 课程设计要求完成以下任务,在IDEA中创建Maven项目,提供pom.xml文件给大家,完成以下任务。 一、将data.csv文件上传到hdfs的/cateringdata/目录下。 二、编写Spark程序,实现以下功能,并且将程序打包为jar包 1.去掉"本月销量","本月销售额"(第8列和第9列)的数据异常(数据为空字符串或者null或者为0),并且统计去掉了多少条;这一步清洗获得的数据要以逗号分割,存到hdfs的/foodsparktask1目录下; 2.去掉"店铺评分"数据为null的数据,并统计去掉了多少条; 3.去掉"店
淮猪
  • 粉丝: 131
  • 资源: 7
上传资源 快速赚钱
voice
center-task 前往需求广场,查看用户热搜