云计算大作业使用Hadoop对美国新冠肺炎疫情数据分析项目.zip资源-CSDN文库

共49个文件

java：14个

sample：13个

head：4个

版权申诉

64 浏览量 2023-03-14 16:35:06 上传评论收藏 54.85MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

云计算大作业使用Hadoop对美国新冠肺炎疫情数据分析项目.zip （49个子文件）

Covid-19-Analysis.iml 11KB

pom.xml 2KB

src

main

resources

log4j.properties 458B

java

org

example

covid

group

CountyGroupingComparator.java 902B

daily

DailySumApp.java 4KB

DailyDeathRatioApp.java 4KB

DailyIncrementApp.java 5KB

appointedday

StateDeathRatioApp.java 4KB

CovidSumApp.java 5KB

CountyTopNApp.java 5KB

CovidSortSumApp.java 4KB

entity

CovidPartitionEntity.java 3KB

CountyEntity.java 2KB

CovidCountEntity.java 2KB

partion

CovidPartitionApp.java 4KB

StatePartitioner.java 1KB

ExampleDriver.java 2KB

input

us-counties.csv 102.05MB

.git

index 3KB

HEAD 23B

refs

heads

master 41B

remotes

origin

HEAD 32B

objects

pack

pack-977f0d5c1dcaa7d954dcbb7c31358cc0d162c083.idx 3KB

pack-977f0d5c1dcaa7d954dcbb7c31358cc0d162c083.pack 27.34MB

description 73B

packed-refs 114B

info

exclude 240B

logs

HEAD 192B

refs

heads

master 192B

remotes

origin

HEAD 192B

hooks

post-update.sample 189B

prepare-commit-msg.sample 1KB

commit-msg.sample 896B

pre-receive.sample 544B

update.sample 4KB

pre-commit.sample 2KB

pre-rebase.sample 5KB

applypatch-msg.sample 478B

fsmonitor-watchman.sample 5KB

push-to-checkout.sample 3KB

pre-applypatch.sample 424B

pre-push.sample 1KB

pre-merge-commit.sample 416B

config 312B

covidsum 192B

us-counties 409B

dailysum 206B

static

HadoopArrangement.png 49KB

README.md 4KB

# 美国新冠肺炎疫情数据分析 ## 实验环境 1. Hadoop3.3.0 2. Virtual Machine: node1,node2,node3 - System OS: entos7 - System Configuration |节点|内存|处理器|硬盘| |----|----|----|----| |node1|4GB|4|60GB| |node2|2GB|2|60GB| |node3|2GB|2|60GB| 3. Hadoop Cluster Role Division ![HadoopArrangement](./static/HadoopArrangement.png) ## 数据集 - [Coronavirus (Covid-19) Data of United States (USA)](https://www.kaggle.com/datasets/joelhanson/coronavirus-covid19-data-in-the-united-states) - **us-counties.csv**: County-level data on cumulative coronavirus cases and deaths in USA ``` date,county,state,fips,cases,deaths 2020-01-21,Snohomish,Washington,53061,1,0 ... ``` ## 实验内容 1. 统计指定日期下，美国每个州的累计确诊人数和累计死亡人数。 2. 对实验1的结果按累计确诊人数进行倒序排序。（重写排序规则） 3. 对实验1的结果再运算，统计截止指定日期，全美各州的病死率。病死率 = 死亡数/确诊数。 4. 统计美国截止每日的累计确诊人数和累计死亡人数。做法是以date作为分组字段，对cases和deaths字段进行汇总统计。 5. 对实验4的结果再运算，统计美国每日的新增确诊人数和新增死亡人数。因为新增数=今日数-昨日数，所以考虑使用自连接，连接条件是t1.date = t2.date + 1，然后使用t1.totalCases – t2.totalCases计算该日新增。 6. 对实验4的结果再运算，统计美国截止当日的病死率。 7. 将美国不同州的疫情数据输出到不同文件，属于同一个州的各个县输出到同一个结果文件中。（重写排序规则，重写分区规则）。 8. 统计指定日期下，美国每个州的确诊案例最多前N（TopN）的县。（重写排序规则，重写分组规则）。 ## 执行命令 - Windows 本地运行配置 ``` 1. sum input/us-counties.csv output/covidsum 2022-05-05 2. sortsum output/covidsum output/sortsum 3. statedeathratio output/covidsum output/statedeathratio 4. dailysum input/us-counties.csv output/dailysum 5. dailyincrement output/dailysum output/dailyincrement 6. dailydeathratio output/dailysum output/dailydeathratio 7. partition input/us-counties.csv output/partition 8. countytopn input/us-counties.csv output/countytopn 2022-05-11 3 ``` - Hadoop 集群运行依赖关系较为简单，可以执行写sh脚本运行代码（sh目录下）。复杂情况下，可以考虑使用Azkaban之类的任务调度程序 ``` 1. hadoop jar Covid-19-Analysis-1.0-SNAPSHOT.jar sum /input/us-counties.csv /output/covidsum 2022-05-05 2. hadoop jar Covid-19-Analysis-1.0-SNAPSHOT.jar sortsum /output/covidsum /output/sortsum 3. hadoop jar Covid-19-Analysis-1.0-SNAPSHOT.jar statedeathratio /output/covidsum /output/statedeathratio 4. hadoop jar Covid-19-Analysis-1.0-SNAPSHOT.jar dailysum /input/us-counties.csv /output/dailysum 5. hadoop jar Covid-19-Analysis-1.0-SNAPSHOT.jar dailyincrement /output/dailysum /output/dailyincrement 6. hadoop jar Covid-19-Analysis-1.0-SNAPSHOT.jar dailydeathratio /output/dailysum /output/dailydeathratio 7. hadoop jar Covid-19-Analysis-1.0-SNAPSHOT.jar partition /input/us-counties.csv /output/partition 8. hadoop jar Covid-19-Analysis-1.0-SNAPSHOT.jar countytopn /input/us-counties.csv /output/countytopn 2022-05-11 3 ``` ## Reference 1. [2020年美国新冠肺炎疫情数据分析](http://dblab.xmu.edu.cn/blog/2636-2/) 2. [Hadoop3.0-MapReduce从入门到精通](https://www.bilibili.com/video/BV1Tf4y167U8) 3. [Hadoop集群部署教程](https://www.bilibili.com/video/BV1CU4y1N7Sh)

评论收藏

内容反馈

版权申诉