R
语言是一种开源的统计分析语言,广泛用于数据科学、统计分析、图形表示和报告。
以下是一段简单的
R
语言数据分析程序,包括数据导入、数据清洗、探索性数据分析
(
EDA
)、统计建模以及结果可视化的步骤。
1. 安装和加载包
首先,确保你已经安装了 R 语言。接下来,安装并加载所需的包。
install.packages("tidyverse") #
包含
ggplot2, dplyr, tidyr
等工具
install.packages("ggplot2") #
用于数据可视化
install.packages("readr") #
用于读取数据文件
library(tidyverse)
#
加载
tidyverse
包,它集成了多个有用的包
library(ggplot2)
2. 数据导入
使用 readr 包中的 read_csv()函数来读取 CSV 文件。
data <- read_csv("path_to_your_data.csv")
3. 数据清洗
检查数据是否存在缺失值或异常值。
#
查看数据结构
str(data)#
查看数据的前几行
head(data)#
计算每列的缺失值
数量
sapply(data, function(x) sum(is.na(x)))#
删除包含缺失值的行
data <-
data %>% drop_na()
4. 探索性数据分析 (EDA)
使用统计摘要和可视化来了解数据的基本特征。
#
计算每列的描述性统计量
summary(data)#
使用
ggplot2
绘制直方图查看分布
data %>% ggplot(aes(x = column_of_interest)) + geom_histogram(bins =
30)#
使用箱线图查看异常值
data %>% ggplot(aes(x = "category", y =
column_of_interest)) + geom_boxplot()
5. 统计建模