### 团队:Unreal
### Rank:10
### 代码说明
#### data_pre_process
1.origin_part1_part2_row2col:进行原始数据转换,包括行转列,去重等;
2. get_num_features,生成数值特征的表;
3. get_word_features,生成文字特征的表;
4. data_merge_split,合并数值、文字以及snp数据。
#### feature_selection
1. 分别针对sys, dia, tl, hdl, ldl 运行snp_drop_one_hot, 得出五个对应特征的数据集,这一步骤主要是删去gbdt预训练中不重要的snp特征,然后进行one_hot编码;
2. 分别针对sys, dia, tl, hdl, ldl 运行get_best_rounds, 得出a步骤五个数据对应的五折最优迭代次数。
#### every_prediction_model
运行所有文件,得出sys,dia,tl,hdl,ldl在测试集上的预测结果。
#### xgb_model
1. add_prefix_for_xgb_model,得出带有前缀的特征数据集;
2. split_5_fold_data_xgb,分割五折训练的数据;
3. baseline_xgboost_jz,训练xgb模型;
4. calc_xgb_test_loss_and_save, 将c步骤中的五个tl的预测结果融合并取均值。
#### submit_result
提交最终结果,最终结果是sys,dia,hdl,ldl为gbdt单模型,tl为gbdt和xgb的加权融合,比例为0.7和0.35。
A榜单模型GBDT最优得分为0.0318,B榜单模型GBDT最优0.0321,tl加权融合后最优成绩0.0319。
### 队友Github
zhuifeng414: https://github.com/Zhuifeng414
wzm : https://github.com/w-zm
美年健康AI大赛—双高疾病风险预测.zip
版权申诉
5星 · 超过95%的资源 189 浏览量
2023-10-22
11:25:05
上传
评论
收藏 47KB ZIP 举报
xiaoshun007~
- 粉丝: 3853
- 资源: 3130
最新资源
- meta-llama-3-8b-instruct 的 model-00001-of-00004.safetensors 的2/3
- HTML5小游戏【小鸡飞-蛋蛋跳小游戏】游戏源码分享下载 - dandan.zip
- Hi3861 OpenHarmony 机械臂 (一)
- 生成的DNA序列来摸拟查找特定基因序列.py
- 12345666666666
- 基于协同过滤算法的英语学习平台(springboot+ssm+html+mysql)含运行文档+运行截图+演示视频
- 基于NCP1377芯片 AC220V转DC12V(5A)反激开关电源ALTIUM设计硬件(原理图+PCB)工程文件.zip
- NX二次开发头文件与库目录
- 网络调试助手,最新版本,方便大家调试网络功能
- mysql语句大全及用法
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈