-
题名图结构表示下的药物数据增强方法
被引量:1
- 1
-
-
作者
蔡引江
许光俊
马喜波
-
机构
模式识别国家重点实验室(中国科学院自动化研究所)
中国科学院大学人工智能学院
中国农业银行数据中心北京分部
-
出处
《计算机应用》
CSCD
北大核心
2023年第4期1136-1141,共6页
-
基金
国家自然科学基金资助项目(82090051,81871442)
中国科学院青年创新促进会优秀会员项目(Y201930)。
-
文摘
小样本数据会导致机器学习模型出现过拟合问题,而药物研发中的数据往往都具有小样本特性,这极大地限制了机器学习技术在该领域的应用。针对上述问题,提出了图结构下的药物数据增强方法。所提方法通过对样本微扰生成新的相似样本,以扩充数据集。所提方法包含4个子方法,分别是:基于分子骨干的节点丢弃法、基于分子骨干的边丢弃法、多样本拼接法以及混合策略法。其中,基于分子骨干的节点丢弃和边丢弃法通过少量删减药物分子的组成与结构完成对药物分子的微扰;多样本拼接法则使用一种增添性操作,通过组合不同分子完成微扰;混合策略法按一定比例配比删减性和增添性操作提升数据增强结果的多样性。在公开数据集BACE、BBBP、ToxCast和ClinTox上,所提方法为药物属性预测基线模型MG-BERT(Molecular Graph Bidirectional Encoder Representations from Transformer)的受试者工作特征曲线下面积(AUC)带来了1.94%~12.49%的提升。实验结果验证了所提方法在小样本药物数据增强上的有效性。
-
关键词
小样本数据
药物分子
数据增强
图结构表示
药物属性预测
-
Keywords
small sample data
drug molecule
data enhancement
graph-structured representation
drug attribute prediction
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-