没有合适的资源?快使用搜索试试~ 我知道了~
基于图注意力网络的药物ADMET分类预测模型构建方法.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
5星 · 超过95%的资源 1 下载量 12 浏览量
2022-06-26
15:07:54
上传
评论
收藏 368KB DOCX 举报
温馨提示
试读
13页
基于图注意力网络的药物ADMET分类预测模型构建方法.docx
资源推荐
资源详情
资源评论
1 引言
药 物 的 吸 收 、 分 布 、 代 谢 、 排 泄 、 毒 性
( Absorption,Distribution,Metabolism,Excretion,Toxicity,ADMET )是药物研
发中的重要环节
[1
]
。ADMET 涵盖了药物能否被人体有效吸收、到达目标组织、
未知毒性等药代动力学和毒理学问题,是评估小分子化合物能否成药的关键指标
[2
]
。在药物研发早期进行 ADMET 性质评价研究,能够有效解决候选药物的安全性、
有效性问题,提高药物研发成功率。然而,用于 ADMET 性质评价的实验方法昂贵
而耗时,这增加了药物研发成本并导致研发周期更加漫长
[3
]
。随着计算机技术和化
学信息学的发展,药物实验数据不断积累,使药物发现领域研究者利用已有药物
ADMET 数据和多种算法模型构建 ADMET 预测模型具备可行性
[4
,5
]
。
本文以 ADMET 中的药物代谢、药物毒性属性作为研究方向 ,提出了一套基
于 图 注 意 力 网 络 的 ADMET 分 类 预 测 模 型 全 流 程 建 模 方 法 , 包 括 从
ChEMBL、PubChem 等多个药物数据库中收集、整合大规模药物 ADMET 数据,
构建标准化流程对多源异构数据进行清洗和整合,并使用图注意力网络算法搭建
ADMET 预测模型。同时,将图注意力网络与其他 5 种基于机器学习和图神经网
络的模型进行对比,以证明图注意力网络在 ADMET 属性预测建模的优越性。
2 研究现状
近年来,新药发现的成本和风险逐年上升。开发一个新化学实体的平均估计
成本为 26 亿美元。为了降低研发成本,加快药物发现效率,在药物研发早期对未
知药物进行 ADMET 属性预测已成为药物研发管线的常见步骤之一。以机器学
习、深度学习为代表的 ADMET 预测模型可以从 ADMET 数据中学习化学结构与
药效学的关联,并能迁移至其他未知化学结构中进行高通量筛选,以降低候选化学
实体的假阳性率,有效地促进了药物研发的进程。目前,研究者构建的 ADMET 属
性预测模型主要为以随机森林为代表的机器学习预测模型和以图卷积神经网络
为代表的图神经网络预测模型,两种预测模型的特征选择、构建方式均有所不同。
基于机器学习的 ADMET 预测方法使用分子指纹(将分子结构分解并对子
结构进行哈希编码的向量化表示方法)、分子描述符(利用数理统计方法对分
子物理化学性质进行解释性的定性/定量表示)作为分子特征,并用较为稳定、传
统的机器学习算法构建预测模型。ADMETlab
[6
]
使用 MACCS
[7
]
、ECFP4
[8
]
等分子
指纹特征训练随机森林、支持向量机、朴素贝叶斯等机器学习模型 ,用于多个
ADMET 属性的分类和回归预测,取得了较高的一致性水平。类似地,admetSAR
[9
]
同样使用 MACCS 构建分子指纹训练支持向量机等机器学习模型,在 22 个分类任
务中,取得了 0.638~0.956 的曲线下面积(Area Under Curve,AUC)的模型表
现,该预测工具被大型药物数据库 DrugBank
[10
]
采用。pkCSM
[11
]
使用分子描述符
(亲脂性、分子量、可旋转键数量等)和药效团指纹(疏水性、芳香族、氢供
体等)作为分子特征,训练并构建了基于随机森林和逻辑回归的 ADMET 预测模
型,在 17 个预测任务中的预测性能优于 admetSAR。目前,基于机器学习的预测
工具应用最为广泛,但是这些预测模型开发时间较早、使用的训练数据量不大,不
足以全面表征药物化学空间。此外,使用分子指纹、分子描述符作为特征会造成
较大的分子结构信息损失,在其基础上构建的机器学习模型预测性能受限。
基于图神经网络的 ADMET 预测方法使用图结构表示分子,将分子的原子-化
学键结构转换为节点-边形式的空间特征和原子序数、电荷数等节点特征 ,并用图
卷积神经网络、消息传递神经网络等图神经网络算法构建预测模型。相比于机
器学习方法,图神经网络可以通过传递节点和边的信息捕捉图的局部关系自动学
习图属性,常用于图分类
[12
]
、链路预测
[13
]
、节点预测
[14
]
、特征抽取
[15
,16
]
等任务中。
对于以图结构表示的药物数据,图神经网络可以通过数据驱动式训练,将分子结构
信息转换为连续的低维稠密向量,这种信息表达方式在信息瓶颈( Information
Bottleneck,IB)问题方面优于高维稀疏的分子指纹,而在此基础上训练得到的图
神经网 络模 型在药物 属性 预测方 面 的优越 性已被 MoleculeNet
[17
]
所证实。 此
外,Chemi-Net
[18
]
使用多任务分子图卷积网络预测 ADMET 中的部分连续型属性,
在 13 个回归任务中的模型预测性能表现优于多任务深度学习网络。 Jo 等
[19
]
使用
词 嵌 入 和 消 息 传 递 网 络 从 字 符 串 形 式 的 分 子 线 性 输 入 规 范 ( Simplified
Molecular Input Line Entry Specification,SMILES )训练得到端到端的图神经
网络预测模型,用于血脑屏障通过率、毒性等 ADMET 属性,对比实验证明该模型
具备与 Chemi-Net 相当的预测性能。这些研究多使用较为经典的图神经网络,其
模型结构可以继续优化以更加适应药物 ADMET 属性预测任务。
图注意力网络是 Veličković 等
[20
]
提出的利用注意力机制对经典图神经网络进
行改进的图神经网络架构,通过设定注意力相关系数实现图神经网络节点更新时
自适应地聚合邻居信息,具备更好的预测性能和泛化性。图注意力网络在生物医
学领域有广泛的应用,Zhang 等
[21
]
使用图注意力对抗网络预测疾病-RNA 关联,在
miRNA-疾病关联和 lncRNA-疾病关联任务中优于常用的 RNA 关联预测模型。
Yu 等
[22
]
使用层注意图卷积网络用于药物-疾病关联,取得了 AUC 为 0.87 的优越预
测性能。鉴于图注意力网络在生物医学领域的先前研究,本文使用图注意力网络
作为分子结构特征提取层学习分子图特征,用于对药物分子的 ADMET 属性预测。
3 材料与方法
基于图注意力网络的 ADMET 预测模型构建流程及方法主要包括从多源药
物数据库收集数据,对药物数据进行筛选和标准化,构建分子图特征,更新基于注意
力系数的节点特征,训练注意力网络模型,输出预测值,如图
1
所示。
图 1
图 1基于图注意力网络的 ADMET 预测模型构建流程
Fig.1Building Process of ADMET Prediction Model Based on Graph
Attention Network
3.1 ADMET 数据来源
本 文 使 用 的 数 据 来 源 于 多 个 公 共 药 物 数 据 库 , 包 括 综 合 药 物 数 据 库
[23
,24
]
( ChEMBL 、 Reaxys 、 PubChem ) 、 ADMET 相 关 药 物 数 据 库
[25
,26
,27
,28
]
(PKKB、ADMETNet、Aqsol、Tox21)及文献[29
]。对于 ChEMBL 数据库,在
ChEMBL Bioactivities 中 搜 索 ADMET 属 性 并 下 载 CSV 格 式 数 据 , 使 用
ChEMBL Webresource Client 将 药 物 ChEMBL ID 转 换 为 格 式 数 据 ; 对 于
Reaxys 数据库,在 Query Builder 中搜索并下载对应的 ADMET 属性的 SDF 格
式数 据 , 使 用 Python RDKit 读 取 SDF 数据 并 转 换 为 SMILES 格 式数 据 ; 对 于
PubChem 数据库,在 BioAssays 中搜索 ADMET 属性并下载 CSV 格式数据,并
利 用 PubChemPy 完 成 PubChem CID 到 SMILES 格 式 的 转 换 。 对 于
PKKB、ADMETNet、Tox21 数据库和文献,可以直接下载相关 ADMET 属性数
据。
3.2 数据预处理
由于药物 ADMET 数据来自多个数据库和文献,其药物分子结构、属性值等
具有较大差异,需要进行数据整合和清洗使得收集的数据具备可建模性。本文构
建了一套针对多源药物 ADMET 数据的标准化数据预处理流程,包括数据筛选、
剩余12页未读,继续阅读
资源评论
- lnyzo2022-12-04实在是宝藏资源、宝藏分享者!感谢大佬~
罗伯特之技术屋
- 粉丝: 3643
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 海尔618算价表_七海5.20_16.00xlsx(1)(2).xlsx
- WebCrawler.scr
- 【计算机专业毕业设计】大学生就业信息管理系统设计源码.zip
- YOLO 数据集:8种路面缺陷病害检测【包含划分好的数据集、类别class文件、数据可视化脚本】
- JAVA实现Modbus RTU或Modbus TCPIP案例.zip
- 基于YOLOv8的FPS TPS AI自动锁定源码+使用步骤说明.zip
- JAVA实现Modbus RTU或Modbus TCPIP案例.zip
- 基于yolov8+streamlit的火灾检测部署源码+模型.zip
- 测试aaaaaaabbbbb
- VID20240521070643.mp4
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功