没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
11页
R语言数据分析案例,R语言实例基于Boston数据集的数据分析报告用logistic回归LDA线性,⽤ logistic 回归、LDA(线性判别法)、K 临近法(k=1 和 k=5)构建分类模型。⽬的是预测⼀个区域的犯罪率是否⾼于所有犯罪率的中位数。在构建每种类型的模型时,请分别选择三组(三个不同⼦集的)⾃变量。从三组⾃变量构造的模型中分别选出⼀个你认为最好的,你的选择应当基于交叉验证法。请讨论你得到的结果
资源推荐
资源详情
资源评论
R语⾔实例:基于Boston数据集的数据分析报告——⽤logistic回归、LDA(线性
判。。。
⽂章⽬录
问题
请分析 Boston 数据集,并撰写⼀个数据分析报告。
在报告中主要分析并回答以下两个问题。
⽤ logistic 回归、LDA(线性判别法)、K 临近法(k=1 和 k=5)构建分类模型。⽬的是预测⼀个区域的犯罪率是否⾼于所有犯罪率
的中位数。
在构建每种类型的模型时,请分别选择三组(三个不同⼦集的)⾃变量。从三组⾃变量构造的模型中分别选出⼀个你认为最好的,你的
选择应当基于交叉验证法。请讨论你得到的结果。
⽤最优⼦集的⽅法构建回归模型,预测⼀个区域的犯罪率。
Boston 数据集
查看数据集
> library(MASS)
> head(Boston) #
查看数据前
6
⾏
crim zn indus chas nox rm age dis rad tax ptratio black lstat medv
1 0.00632 18 2.31 0 0.538 6.575 65.2 4.0900 1 296 15.3 396.90 4.98 24.0
2 0.02731 0 7.07 0 0.469 6.421 78.9 4.9671 2 242 17.8 396.90 9.14 21.6
3 0.02729 0 7.07 0 0.469 7.185 61.1 4.9671 2 242 17.8 392.83 4.03 34.7
4 0.03237 0 2.18 0 0.458 6.998 45.8 6.0622 3 222 18.7 394.63 2.94 33.4
5 0.06905 0 2.18 0 0.458 7.147 54.2 6.0622 3 222 18.7 396.90 5.33 36.2
6 0.02985 0 2.18 0 0.458 6.430 58.7 6.0622 3 222 18.7 394.12 5.21 28.7
数据描述
在命令⾏中输⼊ ?Boston 命令,Rstudio 界⾯出现该数据集的解释界⾯,如图所⽰:
Boston 数据集描述波⼠顿郊区的房价,该数据集共506⾏、14列。
变量变量 含义含义
crim 城镇⼈均犯罪率
zn 25000平⽅英尺以上地块的住宅⽤地⽐例
indus 每个城镇的⾮零售业务⾯积⽐例
chas Charles River 哑变量(如果道沿河⽽⾏,该项数值为 1,否则为0)
nox 氮氧化物浓度(千万分之⼀)
rm 每个住宅的平均房间数
age 1940年以前建造的⾃有住房⽐例
dis 五个波⼠顿就业中⼼距离的加权平均数
rad 辐射状公路通达性指数
tax 按每10,000美元计算的全值物业税税率
ptratio 城镇师⽣⽐例
black ,其中 是城镇⿊⼈的⽐例
lstat 底层阶级⼈⼝占⽐(%)
medv 业主⾃住住宅的中位价值(以1000美元为单位)
构建分类模型
数据可视化
通过查看数据描述,我们知道了每个变量的含义。通过数据可视化,我们可以快速知道数据分布情况,便于下⼀步构造模型。查看 crim 变
量,绘制箱线图。因为数值多分布在0-1范围内,所以在该箱线图中,对y轴的显⽰取对数,便于更⽅便地观察数据。
1000(Bk − 0.63)
2
Bk
boxplot <- boxplot(Boston$crim,outline = T,log= "y")
boxplot$stats
abline(h=boxplot$stats[1,],lwd=1,col=2,asp = 2,lty = 2)
text(1.25,boxplot$stats[1,], "minimum=0.00632", col = 2,adj=c(0,-0.4))
abline(h=boxplot$stats[2,],lwd=1,col=2,asp = 2,lty = 2)
text(1.25,boxplot$stats[2,], "Q1=0.08199", col = 2,adj=c(0,-0.4))
abline(h=boxplot$stats[3,],lwd=1,col=2,asp = 2,lty = 2)
text(1.25,boxplot$stats[3,], "median=0.25651", col = 2,adj=c(0,-0.4))
abline(h=boxplot$stats[4,],lwd=1,col=2,asp = 2,lty = 2)
text(1.25,boxplot$stats[4,], "Q3=3.67822", col = 2,adj=c(0,-0.4))
abline(h=boxplot$stats[5,],lwd=1,col=2,asp = 2,lty = 2)
text(1.25,boxplot$stats[5,], "maximum=8.98296", col = 2,adj=c(0,-0.4))
logistic 分类模型
构建分类模型的因变量
构建 logistic 分类模型的因变量,该因变量是⼆分类的。我们将⾼于犯罪率( crim )中位数的项记为“1”,否则为“0”。
dt <- Boston#
将
Boston
赋值给
dt
#
构建新变量
crim_bi
# crim_bi
:⾼于
crim
中位数的项记为
“1”,
否则为
“0”
dt$crim_bi <- ifelse(dt$crim > median(dt$crim), 1, 0)
构建三个不同⾃变量的模型
剩余10页未读,继续阅读
资源评论
zz_ll9023
- 粉丝: 1061
- 资源: 5270
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于MIC+NE555光敏电阻的声光控电路Multisim仿真原理图
- python tkinter-08-盒子模型.ev4.rar
- Doozy UI Manager 2023
- 基于matlab实现夜间车牌识别程序(1).rar
- 基于matlab实现无线传感器网络无需测距定位算法matlab源代码 包括apit,dv-hop,amorphous在内的共7个
- 基于python的yolov5实现的旋转目标检测
- 基于matlab实现无线传感器网络 CAB定位仿真程序 这是无线传感器节点定位CAB算法的仿真程序,由matlab完成.rar
- 基于matlab实现图像处理,本程序使用背景差分法对来往车辆进行检测和跟踪.rar
- 基于matlab实现视频监控中车型识别代码,自己写的,希望和大家多多交流.rar
- springcodespringcodespringcodespringcode
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功