识别药物-靶标相互作用(DTI)是药物再利用和创新药物发现中不可或缺的关键步骤,目前已经有许多基于序列的计算方法被广泛应用于DTI预测;然而,在以往的基于序列的研究中,特征提取通常只关注序列本身,忽视了异构信息网络,如药物-药物相互...识别药物-靶标相互作用(DTI)是药物再利用和创新药物发现中不可或缺的关键步骤,目前已经有许多基于序列的计算方法被广泛应用于DTI预测;然而,在以往的基于序列的研究中,特征提取通常只关注序列本身,忽视了异构信息网络,如药物-药物相互作用网络、药物-靶标相互作用网络等。因此,提出一种基于序列和多视角网络进行DTI预测的新方法 SMN-DTI(prediction of Drug-Target Interactions based on Sequence and Multi-view Networks)。该方法使用变分自编码器(VAE)学习药物SMILES(Simplified Molecular-Input Line-Entry System)字符串和靶标氨基酸序列的嵌入矩阵;随后,利用具有两级注意力机制的异构图注意力网络(HAN)从节点和语义2个视角的网络中聚集来自药物或靶标的不同邻居的信息,并得到最终的嵌入。在2个广泛用于DTI预测的基准数据集Hetero-seq-A和Hetero-seqB上对SMN-DTI和基准方法进行评估的结果表明,在3种不同正负样本比例下SMN-DTI均取得了最优的特征曲线下面积(AUC)和精确召回曲线下面积(AUPR)。可见,SMN-DTI比目前主流的先进预测方法具有更好的性能。展开更多
聚类作为数据挖掘和机器学习中最基本的任务之一,在各种现实世界任务中已得到广泛应用。随着深度学习的发展,深度聚类成为一个研究热点。现有的深度聚类算法主要从节点表征学习或者结构表征学习两个方面入手,较少考虑同时将这两种信息...聚类作为数据挖掘和机器学习中最基本的任务之一,在各种现实世界任务中已得到广泛应用。随着深度学习的发展,深度聚类成为一个研究热点。现有的深度聚类算法主要从节点表征学习或者结构表征学习两个方面入手,较少考虑同时将这两种信息进行融合以完成表征学习。提出一种融合变分图注意自编码器的深度聚类模型FVGTAEDC(Deep Clustering Model Based on Fusion Varitional Graph Attention Self-encoder),此模型通过联合自编码器和变分图注意自编码器进行聚类,模型中自编码器将变分图注意自编码器从网络中学习(低阶和高阶)结构表示进行集成,随后从原始数据中学习特征表示。在两个模块训练的同时,为了适应聚类任务,将自编码器模块融合节点和结构信息的表示特征进行自监督聚类训练。通过综合聚类损失、自编码器重构数据损失、变分图注意自编码器重构邻接矩阵损失、后验概率分布与先验概率分布相对熵损失,该模型可以有效聚合节点的属性和网络的结构,同时优化聚类标签分配和学习适合于聚类的表示特征。综合实验证明,该方法在5个现实数据集上的聚类效果均优于当前先进的深度聚类方法。展开更多
在网络表示学习的研究中,数据的不完整性问题是一个重要问题,该问题使现有的表示学习算法难以达到预期效果。近年来,不少学者针对此类问题提出了解决方法,这些方法大多仅考虑标签信息本身的缺失问题,对数据不平衡性涉及较少,尤其是某一...在网络表示学习的研究中,数据的不完整性问题是一个重要问题,该问题使现有的表示学习算法难以达到预期效果。近年来,不少学者针对此类问题提出了解决方法,这些方法大多仅考虑标签信息本身的缺失问题,对数据不平衡性涉及较少,尤其是某一类别标签完全缺失的完全不平衡问题。解决这类问题的学习算法并不完善,主要存在的问题是在聚合邻域特征时侧重于考虑网络结构信息,未利用属性特征与语义特征间的关系来增强表示结果。为了解决以上问题,提出了融合属性特征与结构特征的SECT(Semantic Information Enhanced Network Embedding with Completely Imbalanced Labels)方法。首先,在考虑属性空间和语义空间关系的基础上,引入注意力机制进行监督学习,得到语义信息向量;然后,应用变分自编码器无监督提取结构特征以增强算法的鲁棒性;最后,在嵌入空间中融合语义与结构两种信息。将使用SECT算法得到的网络向量表示在Cora,Citeseer等数据集上进行测试,应用于节点分类任务时与RECT和GCN等算法相比,取得了0.86%~1.97%的效果提升。网络向量表示的可视化结果显示,与其他算法相比,SECT算法的类间距离变大,类簇内部更加紧凑,能较清晰地区分类别边界。实验结果表明了SECT算法的有效性,SECT得益于更好地在低维嵌入空间中融合语义信息,有效提升了存在完全不平衡标签情况下的节点分类任务性能。展开更多
文摘识别药物-靶标相互作用(DTI)是药物再利用和创新药物发现中不可或缺的关键步骤,目前已经有许多基于序列的计算方法被广泛应用于DTI预测;然而,在以往的基于序列的研究中,特征提取通常只关注序列本身,忽视了异构信息网络,如药物-药物相互作用网络、药物-靶标相互作用网络等。因此,提出一种基于序列和多视角网络进行DTI预测的新方法 SMN-DTI(prediction of Drug-Target Interactions based on Sequence and Multi-view Networks)。该方法使用变分自编码器(VAE)学习药物SMILES(Simplified Molecular-Input Line-Entry System)字符串和靶标氨基酸序列的嵌入矩阵;随后,利用具有两级注意力机制的异构图注意力网络(HAN)从节点和语义2个视角的网络中聚集来自药物或靶标的不同邻居的信息,并得到最终的嵌入。在2个广泛用于DTI预测的基准数据集Hetero-seq-A和Hetero-seqB上对SMN-DTI和基准方法进行评估的结果表明,在3种不同正负样本比例下SMN-DTI均取得了最优的特征曲线下面积(AUC)和精确召回曲线下面积(AUPR)。可见,SMN-DTI比目前主流的先进预测方法具有更好的性能。
文摘聚类作为数据挖掘和机器学习中最基本的任务之一,在各种现实世界任务中已得到广泛应用。随着深度学习的发展,深度聚类成为一个研究热点。现有的深度聚类算法主要从节点表征学习或者结构表征学习两个方面入手,较少考虑同时将这两种信息进行融合以完成表征学习。提出一种融合变分图注意自编码器的深度聚类模型FVGTAEDC(Deep Clustering Model Based on Fusion Varitional Graph Attention Self-encoder),此模型通过联合自编码器和变分图注意自编码器进行聚类,模型中自编码器将变分图注意自编码器从网络中学习(低阶和高阶)结构表示进行集成,随后从原始数据中学习特征表示。在两个模块训练的同时,为了适应聚类任务,将自编码器模块融合节点和结构信息的表示特征进行自监督聚类训练。通过综合聚类损失、自编码器重构数据损失、变分图注意自编码器重构邻接矩阵损失、后验概率分布与先验概率分布相对熵损失,该模型可以有效聚合节点的属性和网络的结构,同时优化聚类标签分配和学习适合于聚类的表示特征。综合实验证明,该方法在5个现实数据集上的聚类效果均优于当前先进的深度聚类方法。
文摘在网络表示学习的研究中,数据的不完整性问题是一个重要问题,该问题使现有的表示学习算法难以达到预期效果。近年来,不少学者针对此类问题提出了解决方法,这些方法大多仅考虑标签信息本身的缺失问题,对数据不平衡性涉及较少,尤其是某一类别标签完全缺失的完全不平衡问题。解决这类问题的学习算法并不完善,主要存在的问题是在聚合邻域特征时侧重于考虑网络结构信息,未利用属性特征与语义特征间的关系来增强表示结果。为了解决以上问题,提出了融合属性特征与结构特征的SECT(Semantic Information Enhanced Network Embedding with Completely Imbalanced Labels)方法。首先,在考虑属性空间和语义空间关系的基础上,引入注意力机制进行监督学习,得到语义信息向量;然后,应用变分自编码器无监督提取结构特征以增强算法的鲁棒性;最后,在嵌入空间中融合语义与结构两种信息。将使用SECT算法得到的网络向量表示在Cora,Citeseer等数据集上进行测试,应用于节点分类任务时与RECT和GCN等算法相比,取得了0.86%~1.97%的效果提升。网络向量表示的可视化结果显示,与其他算法相比,SECT算法的类间距离变大,类簇内部更加紧凑,能较清晰地区分类别边界。实验结果表明了SECT算法的有效性,SECT得益于更好地在低维嵌入空间中融合语义信息,有效提升了存在完全不平衡标签情况下的节点分类任务性能。