# 天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测 **第一赛季**
这次大赛第一赛季的主题,是通过对病人的临床数据和体检指标来预测其血糖值。
大赛提供的训练数据包含病人的性别、体检日期以及血常规、肾功能检查等指标,
每个指标分别作为一个字段储存在数据表中。最后一列为我们要预测的血糖值。
该repo记录了参加本次大赛的各种数据探索、特征工程、特征选择、交叉验证模型以及
线上提交模型。虽然,最后的结果并不尽人意,
但是从doufu大佬和wufei大佬那里学到了很多。
## basic_analysis & offline
这个文件夹下,包含了最开始的数据探索和线下的交叉验证模型。
通过数据探索,了解了数据的大体分布情况。
线下模型从一开始的按性别划分,分别进行训练预测,演变成直接把性别作为特征
全量训练预测。期间,doufu大佬开源的基于交叉验证的LightGBM融合模型给了我很大的启发。
相信排行榜中,有不少参赛队是在那份开源代码的基础上修改来的。
而那份代码确实“四两拨千斤”,仅仅用原始特征就取得了较好的结果。
后来,看到wufei大佬的融合方案,借鉴了其nn模型,并利用其nn模型最后隐层的26个Batch-Normalized的输出
作为特征输入到LightGBM进行测试,线下也得到了提高。同时,也与nn模型的结果进行了融合。
## online
包含了线上提交所使用的各种模型。最后,提交所使用的模型为lgb\_nn\_ensembing.py,
融合了nn模型与LightGBM,同时将nn模型的隐层输出作为特征加入到LightGBM中。
## util
包含了特征工程、评价函数、模型参数。
缺失数据采用随机森林填充,特征间的相关性,比各特征与血糖值之间高多了。
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测_第一赛季_tianchi-diabetes.zip (38个子文件)
tianchi-diabetes-master
data
add_datasets 11B
feature_importance
feature_importance_ctree.csv 27KB
feature_importance_ctree.png 5.62MB
feature_importance_tree.png 878KB
feature_importance_tree.csv 5KB
feature_relativity.py 977B
basic_analysis&offline
splittedgender_svr.py 2KB
lgb_elastic_net_cv.py 3KB
simple_nn_cv.py 3KB
lgb_classification.py 2KB
kmeans_ridge.py 2KB
simple_cat_cv.py 2KB
simple_lgb.py 1KB
lgb_cv_undersample.py 2KB
kmeans_bayesian.py 2KB
lgb_svr_cv.py 2KB
learn_from_kaggle.ipynb 418KB
splittedgender_lgb.py 2KB
svr_cv.py 1KB
simple_lgb_cv.py 3KB
splittedgender_lasso.py 2KB
splittedgender_bayesian.py 2KB
basic_analysis.ipynb 1.02MB
OpenJupyter.bat 36B
.gitignore 97B
util
variables.py 2KB
feature.py 16KB
metric.py 177B
README.md 2KB
online
split_BR_model.py 2KB
melt.py 452B
lgb_nn_ensembling.py 4KB
simple_lgb_model.py 2KB
lgb_elastic_net_2step.py 4KB
lgb_elastic_net.py 2KB
split_lgb_model.py 2KB
lgb_cvensembling.py 2KB
kmeans_RLS_model.py 2KB
共 38 条
- 1
资源评论
普通网友
- 粉丝: 1127
- 资源: 5293
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 适用于 Android、Java 和 Kotlin Multiplatform 的现代 I,O 库 .zip
- 高通TWS蓝牙规格书,做HIFI级别的耳机用
- Qt读写Usb设备的数据
- 这个存储库适合初学者从 Scratch 开始学习 JavaScript.zip
- AUTOSAR 4.4.0版本Rte模块标准文档
- 25考研冲刺快速复习经验.pptx
- MATLAB使用教程-初步入门大全
- 该存储库旨在为 Web 上的语言提供新信息 .zip
- 考研冲刺的实用经验与技巧.pptx
- Nvidia GeForce GT 1030-GeForce Studio For Win10&Win11(Win10&Win11 GeForce GT 1030显卡驱动)
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功