# 2021华为杯数模D题
**背景**:在药物研发中,为了节约时间和成本,通常采用**建立化合物活性预测模型**的方法来筛选潜在活性化合物。具体做法是:针对与疾病相关的某个靶标(此处为ERα),收集一系列作用于该靶标的化合物及其生物活性数据,然后**以一系列分子结构描述符作为自变量,化合物的生物活性值作为因变量**,构建化合物的定量结构-活性关系(Quantitative Structure-Activity Relationship, QSAR)模型,然后使用该模型预测具有更好生物活性的新化合物分子,或者指导已有活性化合物的结构优化。
**目标**:根据提供的ERα拮抗剂信息(**1974个化合物样本**,每个样本都有**729个分子描述符变量**,1个生物活性数据,5个ADMET性质数据),构建化合物生物活性的定量预测模型和ADMET性质的分类预测模型,从而为同时优化ERα拮抗剂的生物活性和ADMET性质提供预测服务。
**主要思路**:
针对问题1,构建mRMR-置换特征重要性混合模型。首先使用最大相关—最小冗余特征选择方法(mRMR)筛选出50个候选主要分子描述符,然后结合置换特征重要性方法进行重要性排序,得到20个主要分子描述符。使用增量特征选择模型、随机森林(RF)和Pearson相关系数、Spearman相关系数矩阵,分别评估这20个主要分子描述符的必要性、合理性、正确性。
针对问题2,构建化合物分子的生物活性定量预测模型。使用问题1得到的20个主要分子描述符,选取相应的模型进行对比分析。主要使用RF回归模型,极端梯度提升树(XGBoost)回归模型,人工神经网络(ANN)回归模型以及高斯核支持向量回归(rbf-SVR)模型进行对比评估。最终选取RF与XGBoost建立联合模型,得到拟合优度为86.2%的回归模型。
针对问题3,构建ADMET分类预测模型。由于样本类别不均衡,使用SMOTE算法对少类样本进行过采样,对五个指标分别建立逻辑(Logistic)回归模型。类别不均衡问题难以简单评价,因此选用精准率、召回率、AUC值综合评价模型质量。随后,分别构建RF和支持向量分类机(SVM)模型,集成Logistic模型使用投票法得到最终结果,比较混淆矩阵后选用效果更优的集成模型。
针对问题4,使用非线性激活的改进遗传算法,构建单目标优化模型,并对分子描述符进行灵敏度分析。首先选取问题1中得到的20个主要描述符,以问题2中得到的回归模型作为评价标准,构建最大化分子活性的优化模型。随后,利用ADMET约束搭建非线性激活层,使用改进的遗传算法获得最优个体和最优种群,最优个体的pIC50为9.986,且五项ADMET性质均较好,最优种群的平均pIC50为9.056。最后,对最优种群的分子描述符的取值分布和灵敏度进行分析,并以84个最优个体分子描述符取值的上下四分位值作为最优取值范围。
研究路线:
<img src="https://user-images.githubusercontent.com/75946871/146674156-e9029eed-7e3e-4d0c-890f-4f5511d8b408.png" alt="img" width="500" height="800" />
Q1置换特征重要性:
<img src="https://user-images.githubusercontent.com/75946871/146674238-619132ea-293d-43a0-a6bc-85f092b0e3de.png" alt="img" width="500" height="400"/>
Q2回归优度比较:
![image](https://user-images.githubusercontent.com/75946871/146674224-ab93ced5-725e-45d1-8e7a-15b47daad0d1.png)
Mrrunsen
- 粉丝: 9718
- 资源: 514
最新资源
- SQL语言详细教程:从基础到高级全面解析及实际应用
- 仓库管理系统源代码全套技术资料.zip
- 计算机二级考试详细试题整理及备考建议
- 全国大学生电子设计竞赛(电赛)历年试题及备考指南
- zigbee CC2530网关+4节点无线通讯实现温湿度、光敏、LED、继电器等传感节点数据的采集上传,网关通过ESP8266上传远程服务器及下发控制.zip
- 云餐厅APP项目源代码全套技术资料.zip
- vscode 翻译插件开发,选中要翻译的单词,使用快捷键Ctrl+Shift+T查看翻译
- mrdoc-alpine0.9.2
- ACMNOICSP比赛经验分享:从知识储备到团队协作的全面指南
- 云餐厅项目源代码全套技术资料.zip
- 基于STM32的数字闹钟系统的仿真和程序
- 混合信号设计中DEF文件创建流程
- 美国大学生数学建模竞赛(美赛)详细教程:从组队到赛后总结全攻略
- 病媒生物孳生地调查和治理工作方案.docx
- 保姆的工作标准.docx
- 病媒生物防制指南.docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈