没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
内容概要:本文档提供了一个详细的R语言数据分析和建模报告模板。主要内容包括数据预处理、数据可视化(如散点图、条形图、饼图、箱线图)、相关性和主成分分析、以及几种常用的机器学习算法的实现(逻辑回归、随机森林、K近邻和支持向量机)。每个步骤都详细解释并提供了代码示例。最终模型的效果通过准确率、敏感性和特异性等指标进行了评估。 适合人群:具有一定编程基础的数据分析师、机器学习从业者或研究人员。 使用场景及目标:适用于医疗、社会、经济等领域的数据分析和建模任务。帮助读者掌握数据预处理、特征选择、模型训练和评估的全流程,提升数据分析和建模的能力。 其他说明:报告要求使用的数据集不能是标准化测试数据集(如Pima印第安人糖尿病数据、MNIST、Iris等),数据需自行寻找,并引用具体数据来源。
资源推荐
资源详情
资源评论
本报告用于展示最终报告示例模板,数据
需另找,分析方法因数据而异
提交报告包含内容
1. 原始数据的预处理
2. 数据的合理的可视化展示(如散点图、条形图、饼图、箱线图等)
3. 用相关、主成分等统计分析
4. 建模:划分训练集和测试集(鼓励使用K-folds,会有额外加分),用回归分类模型
建模,并在测试集上测试评分。
不一定严格遵守以下模板的排布,可以自行有逻辑地安排。
要求(评分标准)
数据来源:医疗、社会、经济等显示数据,有具体引文,附上数据链接。
不可使用本报告所用数据(Pima印第安人糖尿病数据)
不可使用MNIST、Anderson’s Iris data set(鸢尾花数据)等标准化测试数据
集。(此类数据集可以用于检验算法,但在报告中使用没有意义。)
算法类型:
算法使用合理,例如分类型不能使用简单线性回归完成。
如果做回归和分类任务,至少使用一种课本和本报告之外的建模算法,并和其余
算法做对比(总计至少两种算法)。
描述总结:
在每块代码用“#”注释说明目的。
在一阶段代码之后用markdown说明本段代码实现的内容。
在小节完成后作文字说明和总结。
安装包:
所有安装包在正文“程序中用到的安装包”后填写。
每次完成特定任务前,载入对应的包。
其他要求:
如果需要使用随机数,随机数种子用自己的学号。
如果数据、代码、分析内容雷同,按作弊论处。
提交纸板报告
Jupyter Notebook中使用File->Save and Export Notebook As->html,之后打印
对应的html文件即可(打印缩小版的即可,一面可以打印 共4页)。
纸版报告在第二学期第一周交给学习委员。
以下是报告示例正文。提交时删除题目前的本段内容。
2 × 2
10/8/24, 9:50 PM
ReportExample
file:///C:/Users/Ze Lei/Downloads/ReportExample (3).html
1/22
糖尿病的影响因素分析——基于Pima印第
安人数据的实证研究
姓名:XXX
学号:2131022XXX
摘要:本文利用逻辑回归、随机森林、支持向量机和k近邻方法分析了Pima印第安人糖尿
病的影响因素,并评估了不同方法的预测准确性。研究发现逻辑回归、随机森林、支持向
量机都可以达到73%以上精准度
关键字:逻辑回归,k近邻,随机森林,支持向量机,糖尿病
数据来源:Smith, J.W., Everhart, J.E., Dickson, W.C., Knowler, W.C., & Johannes, R.S.
(1988). Using the ADAP learning algorithm to forecast the onset of diabetes
mellitus. In Proceedings of the Symposium on Computer Applications and
Medical Care (pp. 261--265). IEEE Computer Society Press
Kaggle的链接
程序中用到的安装包
###
不显示警告
options(warn = -1)
###
用到的安装包
liblist <- unique(c("ggplot2", "tidyr", "dplyr", "corrplot", "psych", "Boruta",
###
补充安装
install.packages(setdiff(liblist, rownames(installed.packages())))
一、数据展示、预处理和(无监督)分析
###
读取数据
df <- read.csv("./data-diabetes.csv", fileEncoding="utf-8", stringsAsFactors = T
###
数据前几行示例
head(df)
In [8]:
In [11]:
10/8/24, 9:50 PM
ReportExample
file:///C:/Users/Ze Lei/Downloads/ReportExample (3).html
2/22
A data.frame: 6 × 9
Pregnancies Glucose BloodPressure SkinThickness Insulin BMI DiabetesPed
<int> <int> <int> <int> <int> <dbl>
1 6 148 72 35 0 33.6
2 1 85 66 29 0 26.6
3 8 183 64 0 0 23.3
4 1 89 66 23 94 28.1
5 0 137 40 35 168 43.1
6 5 116 74 0 0 25.6
数据和类型说明:
Pregnancies(整数):怀孕次数
Glucose(数值):口服葡糖糖耐受实验中,两小时后的血糖浓度
BloodPressure(数值):血压收缩压(mmHg)
SkinThickness(数值):肱三头肌皮肤褶皱厚度(mm)
Insulin(数值):两小时血清胰岛素浓度 ( U/ml)
BMI(数值):身体质量指数(kg/m )
DiabetesPedigreeFunction(数值):糖尿病谱系功能,是指血糖代谢相关的指标
Age(数值):年龄
Outcome(数值):糖尿病结果的分组,1为阳性,0为阴性
数据预处理
any(is.na(df))
FALSE
没有数据缺失,故不需要预处理
变量总结和分布
summary(df)
μ
2
In [15]:
In [19]:
10/8/24, 9:50 PM
ReportExample
file:///C:/Users/Ze Lei/Downloads/ReportExample (3).html
3/22
Pregnancies Glucose BloodPressure SkinThickness
Min. : 0.000 Min. : 0.0 Min. : 0.00 Min. : 0.00
1st Qu.: 1.000 1st Qu.: 99.0 1st Qu.: 62.00 1st Qu.: 0.00
Median : 3.000 Median :117.0 Median : 72.00 Median :23.00
Mean : 3.845 Mean :120.9 Mean : 69.11 Mean :20.54
3rd Qu.: 6.000 3rd Qu.:140.2 3rd Qu.: 80.00 3rd Qu.:32.00
Max. :17.000 Max. :199.0 Max. :122.00 Max. :99.00
Insulin BMI DiabetesPedigreeFunction Age
Min. : 0.0 Min. : 0.00 Min. :0.0780 Min. :21.00
1st Qu.: 0.0 1st Qu.:27.30 1st Qu.:0.2437 1st Qu.:24.00
Median : 30.5 Median :32.00 Median :0.3725 Median :29.00
Mean : 79.8 Mean :31.99 Mean :0.4719 Mean :33.24
3rd Qu.:127.2 3rd Qu.:36.60 3rd Qu.:0.6262 3rd Qu.:41.00
Max. :846.0 Max. :67.10 Max. :2.4200 Max. :81.00
Outcome
Min. :0.000
1st Qu.:0.000
Median :0.000
Mean :0.349
3rd Qu.:1.000
Max. :1.000
#
直方图展示
library("ggplot2")
library("tidyr")
library("dplyr")
Attaching package: 'dplyr'
The following objects are masked from 'package:stats':
filter, lag
The following objects are masked from 'package:base':
intersect, setdiff, setequal, union
data_long <- df %>%
pivot_longer(colnames(df)) %>%
as.data.frame()
ggp1 <- ggplot(data_long, aes(x = value)) +
geom_histogram() +
facet_wrap(~ name, scales = "free")
ggp1
`stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
In [21]:
In [22]:
10/8/24, 9:50 PM
ReportExample
file:///C:/Users/Ze Lei/Downloads/ReportExample (3).html
4/22
资源评论
pk_xz123456
- 粉丝: 2750
- 资源: 3914
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 道路损坏检测,可识别横向,纵向裂纹,坑洼,白线模糊,十字路口模糊,井盖等 3506张图片,支持yolov5pytorch格式的标注
- 道路损坏检测,可识别横向,纵向裂纹,坑洼,白线模糊,十字路口模糊,井盖等 3506张图片,支持yolov8格式的标注
- gcc-4.8.5-44 gcc-c++-4.8.5-44
- 旋转点胶机sw18可编辑全套技术资料100%好用.zip
- 道路损坏检测,可识别横向,纵向裂纹,坑洼,白线模糊,十字路口模糊,井盖等 3506张图片,支持yolov11格式的标注
- 如何实现分片上传功能:基于 Vue 和 iView 上传组件的详细教程
- 企业及公司额排班软件-两套
- 基于事件触发机制,具有延时矩阵的固定时间共识
- 智能排班系统-支持规则建立
- 案例图片1111111111111111111111111111111111111111111
- 华为模拟器Ensp入门视频.zip
- 小型电机正反转测试设备sw20可编辑全套技术资料100%好用.zip
- 基于7-1200的红绿灯控制系统设计 基于PLC的十字路口交通灯系统设计 基于PLC的交通信号灯系统设计
- html+css网页设计 美食 美食美客模版2个页面
- 移动式旋转阀sw18全套技术资料100%好用.zip
- 蓄电池与超级电容混合储能并网matlab simulink仿真模型 (1)混合储能采用低通滤波器进行功率分配,可有效抑制功率波动,并对超级电容的soc进行能量管理,soc较高时多放电,较低时少放电
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功