医学数据分析大赛-胎儿CTG诊断预测模型.zip
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
程序设计详情说明: 1.程序在全局设置中对输入和输出文件的目录、屏蔽警告、随机种子等进行设定,并将数据预处理方法(归一化、标准化、PCA降维)实例化。 2.加载数据,使用data.drop()和.copy()返回数据副本,防止修改数据源。 3.观察数据,首先使用data.isnull().any()观察数据缺失情况,确认数据无缺失值后使用data.describe()方法观察数据最大、最小值和平均值情况,以探测是否存在异常值,并对数据集进行了标准化和归一化后的观察。我们认为数据集数据完整,且未发现异常值,不需要其他预处理。此后对数据PCA降维,进行可视化观察,同时还尝试了核化PCA等方法对数据进行观察,可以观察到较明显的决策边界。(见'程序源代码\机器学习\评价结果输出(预实验)\decom_1.png') 4.划分数据集并进行模型探索,设计了列表data_state和列表estimators=[name, estimator, param_grid] 并进行嵌套遍历,实现在6个不同数据状态下对4个模型进行网格搜索。并将网格搜索的主要结果记录在列表best_estimators=[name,grid_search.best_estimator_,state]中。 5.最优模型间的评估,对各数据状态下网格搜索的结果,即best_estimators列表中的6*4=24个模型进行十折交叉验证,并将结果记录在result字典中。 6.使用DataFrame将评估结果result输出到'程序源代码\机器学习\评价结果输出(预实验)\'目录下,同时使用matplotlib根据F1_macro分数绘制直方图,进行模型间比较。 结论: 可以观察到,随机森林在各个数据集上的表现都优于其他模型。同时,模型在原数据集上的表现整体优于降维后的数据集,标准化和归一化对随机森林模型的影响不明显。(见'程序源代码\机器学习\评价结果输出(预实验)\explore.png') 因此,接下来将在原数据集上对随机森林进行详细的调校、评估和测试。
- 1
- Venus3472021-11-13用户下载后在一定时间内未进行评价,系统默认好评。
- 2301_776402172023-12-28资源很赞,希望多一些这类资源。
- 粉丝: 9587
- 资源: 514
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助