# 美国新冠肺炎疫情数据分析
## 实验环境
1. Hadoop3.3.0
2. Virtual Machine: node1,node2,node3
- System OS: entos7
- System Configuration
|节点|内存|处理器|硬盘|
|----|----|----|----|
|node1|4GB|4|60GB|
|node2|2GB|2|60GB|
|node3|2GB|2|60GB|
3. Hadoop Cluster Role Division
![HadoopArrangement](./static/HadoopArrangement.png)
## 数据集
- [Coronavirus (Covid-19) Data of United States (USA)](https://www.kaggle.com/datasets/joelhanson/coronavirus-covid19-data-in-the-united-states)
- **us-counties.csv**: County-level data on cumulative coronavirus cases and deaths in USA
```
date,county,state,fips,cases,deaths
2020-01-21,Snohomish,Washington,53061,1,0
...
```
## 实验内容
1. 统计指定日期下,美国每个州的累计确诊人数和累计死亡人数。
2. 对实验1的结果按累计确诊人数进行倒序排序。(重写排序规则)
3. 对实验1的结果再运算,统计截止指定日期,全美各州的病死率。病死率 = 死亡数/确诊数。
4. 统计美国截止每日的累计确诊人数和累计死亡人数。做法是以date作为分组字段,对cases和deaths字段进行汇总统计。
5. 对实验4的结果再运算,统计美国每日的新增确诊人数和新增死亡人数。因为新增数=今日数-昨日数,所以考虑使用自连接,连接条件是t1.date = t2.date + 1,然后使用t1.totalCases – t2.totalCases计算该日新增。
6. 对实验4的结果再运算,统计美国截止当日的病死率。
7. 将美国不同州的疫情数据输出到不同文件,属于同一个州的各个县输出到同一个结果文件中。(重写排序规则,重写分区规则)。
8. 统计指定日期下,美国每个州的确诊案例最多前N(TopN)的县。(重写排序规则,重写分组规则)。
## 执行命令
- Windows 本地运行配置
```
1. sum input/us-counties.csv output/covidsum 2022-05-05
2. sortsum output/covidsum output/sortsum
3. statedeathratio output/covidsum output/statedeathratio
4. dailysum input/us-counties.csv output/dailysum
5. dailyincrement output/dailysum output/dailyincrement
6. dailydeathratio output/dailysum output/dailydeathratio
7. partition input/us-counties.csv output/partition
8. countytopn input/us-counties.csv output/countytopn 2022-05-11 3
```
- Hadoop 集群运行
依赖关系较为简单,可以执行写sh脚本运行代码(sh目录下)。复杂情况下,可以考虑使用Azkaban之类的任务调度程序
```
1. hadoop jar Covid-19-Analysis-1.0-SNAPSHOT.jar sum /input/us-counties.csv /output/covidsum 2022-05-05
2. hadoop jar Covid-19-Analysis-1.0-SNAPSHOT.jar sortsum /output/covidsum /output/sortsum
3. hadoop jar Covid-19-Analysis-1.0-SNAPSHOT.jar statedeathratio /output/covidsum /output/statedeathratio
4. hadoop jar Covid-19-Analysis-1.0-SNAPSHOT.jar dailysum /input/us-counties.csv /output/dailysum
5. hadoop jar Covid-19-Analysis-1.0-SNAPSHOT.jar dailyincrement /output/dailysum /output/dailyincrement
6. hadoop jar Covid-19-Analysis-1.0-SNAPSHOT.jar dailydeathratio /output/dailysum /output/dailydeathratio
7. hadoop jar Covid-19-Analysis-1.0-SNAPSHOT.jar partition /input/us-counties.csv /output/partition
8. hadoop jar Covid-19-Analysis-1.0-SNAPSHOT.jar countytopn /input/us-counties.csv /output/countytopn 2022-05-11 3
```
## Reference
1. [2020年美国新冠肺炎疫情数据分析](http://dblab.xmu.edu.cn/blog/2636-2/)
2. [Hadoop3.0-MapReduce从入门到精通](https://www.bilibili.com/video/BV1Tf4y167U8)
3. [Hadoop集群部署教程](https://www.bilibili.com/video/BV1CU4y1N7Sh)
没有合适的资源?快使用搜索试试~ 我知道了~
云计算大作业使用Hadoop对美国新冠肺炎疫情数据分析项目.zip
共49个文件
java:14个
sample:13个
head:4个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 64 浏览量
2023-03-14
16:35:06
上传
评论
收藏 54.85MB ZIP 举报
温馨提示
云计算大作业使用Hadoop对美国新冠肺炎疫情数据分析项目.zip
资源推荐
资源详情
资源评论
收起资源包目录
云计算大作业使用Hadoop对美国新冠肺炎疫情数据分析项目.zip (49个子文件)
Covid-19-Analysis.iml 11KB
pom.xml 2KB
src
main
resources
log4j.properties 458B
java
org
example
covid
group
CountyGroupingComparator.java 902B
daily
DailySumApp.java 4KB
DailyDeathRatioApp.java 4KB
DailyIncrementApp.java 5KB
appointedday
StateDeathRatioApp.java 4KB
CovidSumApp.java 5KB
CountyTopNApp.java 5KB
CovidSortSumApp.java 4KB
entity
CovidPartitionEntity.java 3KB
CountyEntity.java 2KB
CovidCountEntity.java 2KB
partion
CovidPartitionApp.java 4KB
StatePartitioner.java 1KB
ExampleDriver.java 2KB
input
us-counties.csv 102.05MB
.git
index 3KB
HEAD 23B
refs
heads
master 41B
remotes
origin
HEAD 32B
objects
pack
pack-977f0d5c1dcaa7d954dcbb7c31358cc0d162c083.idx 3KB
pack-977f0d5c1dcaa7d954dcbb7c31358cc0d162c083.pack 27.34MB
description 73B
packed-refs 114B
info
exclude 240B
logs
HEAD 192B
refs
heads
master 192B
remotes
origin
HEAD 192B
hooks
post-update.sample 189B
prepare-commit-msg.sample 1KB
commit-msg.sample 896B
pre-receive.sample 544B
update.sample 4KB
pre-commit.sample 2KB
pre-rebase.sample 5KB
applypatch-msg.sample 478B
fsmonitor-watchman.sample 5KB
push-to-checkout.sample 3KB
pre-applypatch.sample 424B
pre-push.sample 1KB
pre-merge-commit.sample 416B
config 312B
sh
covidsum 192B
us-counties 409B
dailysum 206B
static
HadoopArrangement.png 49KB
README.md 4KB
共 49 条
- 1
资源评论
oligaga
- 粉丝: 52
- 资源: 2万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功