2021华为杯数模D题（3等奖）针对问题1，构建mRMR-置换特征重要性混合模型首先使用最大相关-最小冗余特征选择方法（mR资源-CSDN文库

共6个文件

ipynb：4个

md：1个

pdf：1个

57 浏览量 2023-02-05 13:57:49 上传评论收藏 4.33MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

2021-Huawei-Mathematical-modeling-competition-D-main.zip （6个子文件）

Q2.ipynb 1.76MB

Q4.ipynb 3.56MB

Q1.ipynb 983KB

抗胰腺癌候选药物的优化建模.pdf 224KB

Q3.ipynb 134KB

README.md 4KB

# 2021华为杯数模D题 **背景**：在药物研发中，为了节约时间和成本，通常采用**建立化合物活性预测模型**的方法来筛选潜在活性化合物。具体做法是：针对与疾病相关的某个靶标（此处为ERα），收集一系列作用于该靶标的化合物及其生物活性数据，然后**以一系列分子结构描述符作为自变量，化合物的生物活性值作为因变量**，构建化合物的定量结构-活性关系（Quantitative Structure-Activity Relationship, QSAR）模型，然后使用该模型预测具有更好生物活性的新化合物分子，或者指导已有活性化合物的结构优化。 **目标**：根据提供的ERα拮抗剂信息（**1974个化合物样本**，每个样本都有**729个分子描述符变量**，1个生物活性数据，5个ADMET性质数据），构建化合物生物活性的定量预测模型和ADMET性质的分类预测模型，从而为同时优化ERα拮抗剂的生物活性和ADMET性质提供预测服务。 **主要思路**：针对问题1，构建mRMR-置换特征重要性混合模型。首先使用最大相关—最小冗余特征选择方法（mRMR）筛选出50个候选主要分子描述符，然后结合置换特征重要性方法进行重要性排序，得到20个主要分子描述符。使用增量特征选择模型、随机森林（RF）和Pearson相关系数、Spearman相关系数矩阵，分别评估这20个主要分子描述符的必要性、合理性、正确性。针对问题2，构建化合物分子的生物活性定量预测模型。使用问题1得到的20个主要分子描述符，选取相应的模型进行对比分析。主要使用RF回归模型，极端梯度提升树（XGBoost）回归模型，人工神经网络（ANN）回归模型以及高斯核支持向量回归（rbf-SVR）模型进行对比评估。最终选取RF与XGBoost建立联合模型，得到拟合优度为86.2%的回归模型。针对问题3，构建ADMET分类预测模型。由于样本类别不均衡，使用SMOTE算法对少类样本进行过采样，对五个指标分别建立逻辑（Logistic）回归模型。类别不均衡问题难以简单评价，因此选用精准率、召回率、AUC值综合评价模型质量。随后，分别构建RF和支持向量分类机（SVM）模型，集成Logistic模型使用投票法得到最终结果，比较混淆矩阵后选用效果更优的集成模型。针对问题4，使用非线性激活的改进遗传算法，构建单目标优化模型，并对分子描述符进行灵敏度分析。首先选取问题1中得到的20个主要描述符，以问题2中得到的回归模型作为评价标准，构建最大化分子活性的优化模型。随后，利用ADMET约束搭建非线性激活层，使用改进的遗传算法获得最优个体和最优种群，最优个体的pIC50为9.986，且五项ADMET性质均较好，最优种群的平均pIC50为9.056。最后，对最优种群的分子描述符的取值分布和灵敏度进行分析，并以84个最优个体分子描述符取值的上下四分位值作为最优取值范围。研究路线： <img src="https://user-images.githubusercontent.com/75946871/146674156-e9029eed-7e3e-4d0c-890f-4f5511d8b408.png" alt="img" width="500" height="800" /> Q1置换特征重要性： <img src="https://user-images.githubusercontent.com/75946871/146674238-619132ea-293d-43a0-a6bc-85f092b0e3de.png" alt="img" width="500" height="400"/> Q2回归优度比较： ![image](https://user-images.githubusercontent.com/75946871/146674224-ab93ced5-725e-45d1-8e7a-15b47daad0d1.png)

评论收藏

内容反馈