# 2021华为杯数模D题
**背景**:在药物研发中,为了节约时间和成本,通常采用**建立化合物活性预测模型**的方法来筛选潜在活性化合物。具体做法是:针对与疾病相关的某个靶标(此处为ERα),收集一系列作用于该靶标的化合物及其生物活性数据,然后**以一系列分子结构描述符作为自变量,化合物的生物活性值作为因变量**,构建化合物的定量结构-活性关系(Quantitative Structure-Activity Relationship, QSAR)模型,然后使用该模型预测具有更好生物活性的新化合物分子,或者指导已有活性化合物的结构优化。
**目标**:根据提供的ERα拮抗剂信息(**1974个化合物样本**,每个样本都有**729个分子描述符变量**,1个生物活性数据,5个ADMET性质数据),构建化合物生物活性的定量预测模型和ADMET性质的分类预测模型,从而为同时优化ERα拮抗剂的生物活性和ADMET性质提供预测服务。
**主要思路**:
针对问题1,构建mRMR-置换特征重要性混合模型。首先使用最大相关—最小冗余特征选择方法(mRMR)筛选出50个候选主要分子描述符,然后结合置换特征重要性方法进行重要性排序,得到20个主要分子描述符。使用增量特征选择模型、随机森林(RF)和Pearson相关系数、Spearman相关系数矩阵,分别评估这20个主要分子描述符的必要性、合理性、正确性。
针对问题2,构建化合物分子的生物活性定量预测模型。使用问题1得到的20个主要分子描述符,选取相应的模型进行对比分析。主要使用RF回归模型,极端梯度提升树(XGBoost)回归模型,人工神经网络(ANN)回归模型以及高斯核支持向量回归(rbf-SVR)模型进行对比评估。最终选取RF与XGBoost建立联合模型,得到拟合优度为86.2%的回归模型。
针对问题3,构建ADMET分类预测模型。由于样本类别不均衡,使用SMOTE算法对少类样本进行过采样,对五个指标分别建立逻辑(Logistic)回归模型。类别不均衡问题难以简单评价,因此选用精准率、召回率、AUC值综合评价模型质量。随后,分别构建RF和支持向量分类机(SVM)模型,集成Logistic模型使用投票法得到最终结果,比较混淆矩阵后选用效果更优的集成模型。
针对问题4,使用非线性激活的改进遗传算法,构建单目标优化模型,并对分子描述符进行灵敏度分析。首先选取问题1中得到的20个主要描述符,以问题2中得到的回归模型作为评价标准,构建最大化分子活性的优化模型。随后,利用ADMET约束搭建非线性激活层,使用改进的遗传算法获得最优个体和最优种群,最优个体的pIC50为9.986,且五项ADMET性质均较好,最优种群的平均pIC50为9.056。最后,对最优种群的分子描述符的取值分布和灵敏度进行分析,并以84个最优个体分子描述符取值的上下四分位值作为最优取值范围。
研究路线:
<img src="https://user-images.githubusercontent.com/75946871/146674156-e9029eed-7e3e-4d0c-890f-4f5511d8b408.png" alt="img" width="500" height="800" />
Q1置换特征重要性:
<img src="https://user-images.githubusercontent.com/75946871/146674238-619132ea-293d-43a0-a6bc-85f092b0e3de.png" alt="img" width="500" height="400"/>
Q2回归优度比较:
![image](https://user-images.githubusercontent.com/75946871/146674224-ab93ced5-725e-45d1-8e7a-15b47daad0d1.png)
没有合适的资源?快使用搜索试试~ 我知道了~
2021华为杯数模D题(3等奖)针对问题1,构建mRMR-置换特征重要性混合模型 首先使用最大相关-最小冗余特征选择方法(mR
共6个文件
ipynb:4个
md:1个
pdf:1个
2 下载量 100 浏览量
2023-02-05
13:57:49
上传
评论
收藏 4.33MB ZIP 举报
温馨提示
背景:在药物研发中,为了节约时间和成本,通常采用建立化合物活性预测模型的方法来筛选潜在活性化合物。具体做法是:针对与疾病相关的某个靶标(此处为ERα),收集一系列作用于该靶标的化合物及其生物活性数据,然后以一系列分子结构描述符作为自变量,化合物的生物活性值作为因变量,构建化合物的定量结构-活性关系(Quantitative Structure-Activity Relationship, QSAR)模型,然后使用该模型预测具有更好生物活性的新化合物分子,或者指导已有活性化合物的结构优化。 目标:根据提供的ERα拮抗剂信息(1974个化合物样本,每个样本都有729个分子描述符变量,1个生物活性数据,5个ADMET性质数据),构建化合物生物活性的定量预测模型和ADMET性质的分类预测模型,从而为同时优化ERα拮抗剂的生物活性和ADMET性质提供预测服务。 主要思路: 针对问题1,构建mRMR-置换特征重要性混合模型。首先使用最大相关—最小冗余特征选择方法(mRMR)筛选出50个候选主要分子描述符,然后结合置换特征重要性方法进行重要性排序,得到20个主要分子描述符。使用增量特征选择模型
资源推荐
资源详情
资源评论
收起资源包目录
2021-Huawei-Mathematical-modeling-competition-D-main.zip (6个子文件)
Q2.ipynb 1.76MB
Q4.ipynb 3.56MB
Q1.ipynb 983KB
抗胰腺癌候选药物的优化建模.pdf 224KB
Q3.ipynb 134KB
README.md 4KB
共 6 条
- 1
资源评论
Mrrunsen
- 粉丝: 9489
- 资源: 514
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功