期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
河海图结构蛋白质数据集及预测模型
1
作者 魏想想 孟朝晖 《计算机科学》 CSCD 北大核心 2024年第8期117-123,共7页
蛋白质是一种具有空间结构的物质。蛋白质结构预测的主要目标是从已有的大规模的蛋白质数据集中提取有效的信息,从而预测自然界中蛋白质的结构。目前蛋白质结构预测实验存在的一个问题是,缺少能够进一步反映出蛋白质空间结构特征的数据... 蛋白质是一种具有空间结构的物质。蛋白质结构预测的主要目标是从已有的大规模的蛋白质数据集中提取有效的信息,从而预测自然界中蛋白质的结构。目前蛋白质结构预测实验存在的一个问题是,缺少能够进一步反映出蛋白质空间结构特征的数据集。当前主流的PDB蛋白质数据集虽然是经过实验测得,但没有利用到蛋白质的空间特征,而且存在掺杂核酸数据和部分数据不完整的问题。针对以上问题,从蛋白质的空间结构角度来研究蛋白质的预测。在原始PDB数据集的基础上,提出了河海图结构蛋白质数据集(Hohai Graphic Protein Data Bank,HohaiGPDB)。该数据集以图结构为基础,表达出了蛋白质的空间结构特征。基于传统Transformer网络模型对新的数据集进行了相关的蛋白质结构预测实验,在HohaiGPDB数据集上的预测准确率可以达到59.38%,证明了HohaiGPDB数据集的研究价值。HohaiGPDB数据集可以作为蛋白质相关研究的通用数据集。 展开更多
关键词 河海图结构蛋白质数据集 蛋白质空间结构 蛋白质结构预测 Transformer模型
在线阅读 下载PDF
基于SQL Server的蛋白质二级结构预测样本集数据库的构建 被引量:2
2
作者 张宁 吴捷 +1 位作者 宋卓 张涛 《高技术通讯》 CAS CSCD 北大核心 2006年第6期619-623,共5页
基于SQL Server数据库管理系统,将蛋白质二级结构预测的样本集CB513、CB396和RS126组织起来,建立了数据库DataSet,并配置了一个IIS服务器以方便网络查询。该数据库将蛋白质二级结构预测样本集有效地组织起来,实现了规范化、结构化... 基于SQL Server数据库管理系统,将蛋白质二级结构预测的样本集CB513、CB396和RS126组织起来,建立了数据库DataSet,并配置了一个IIS服务器以方便网络查询。该数据库将蛋白质二级结构预测样本集有效地组织起来,实现了规范化、结构化统一管理,便于存储、检索和分析数据,减少错误的发生。通过该数据库可以提取供蛋白质二级结构预测研究的样本、序列转换、变换编码以及分析评价预测结果等,取代许多传统编程处理文本文件的繁琐工作,大大提高效率,促进工作的开展。 展开更多
关键词 数据 蛋白质二级结构预测 样本 SQL SERVER 生物信息学
在线阅读 下载PDF
EcoPDB:高精度大肠杆菌蛋白质结构与对应基因序列数据集 被引量:5
3
作者 李炜疆 宋江宁 《无锡轻工大学学报(食品与生物技术)》 CSCD 北大核心 2001年第4期340-343,共4页
高质量蛋白质结构及其对应基因序列数据是研究蛋白质折叠与蛋白质编码序列关系问题的基础 .通过查询SWISS PROT数据库中E .coli的蛋白质 ,得到不同数据库中的蛋白质结构与基因序列的交叉索引表 ,在此基础上 ,删除大量冗余及不可靠数据 ... 高质量蛋白质结构及其对应基因序列数据是研究蛋白质折叠与蛋白质编码序列关系问题的基础 .通过查询SWISS PROT数据库中E .coli的蛋白质 ,得到不同数据库中的蛋白质结构与基因序列的交叉索引表 ,在此基础上 ,删除大量冗余及不可靠数据 ,最后得到一个高精度数据集E coPDB .该数据集共有 191个E .coli基因及其相应的精度好于 2 .5 的X射线衍射测定的PDB蛋白质结构数据 ,总残基数约 5. 展开更多
关键词 基因序列 蛋白质结构 数据 大肠杆菌
在线阅读 下载PDF
基于激光解析技术在蛋白质关联图预测问题数据集不均衡的研究
4
作者 刘君 宋志坚 《激光杂志》 北大核心 2015年第6期114-117,共4页
随着融合了激光解析等新技术的蛋白质自动测序技术发展,蛋白质序列越来越容易获得,如何通过蛋白质序列预测其结构成为重要研究问题。蛋白质关联图预测是蛋白质三级结构预测的中间步骤,是典型的数据集极度不均衡的分类问题,非关联类别数... 随着融合了激光解析等新技术的蛋白质自动测序技术发展,蛋白质序列越来越容易获得,如何通过蛋白质序列预测其结构成为重要研究问题。蛋白质关联图预测是蛋白质三级结构预测的中间步骤,是典型的数据集极度不均衡的分类问题,非关联类别数据远远多于关联类别数据。与文本分类等问题不同,蛋白质关联图预测问题的特征维数不高,因而不能从特征选择上进行数据集优化。为了有效减少多数类样本的规模,提出结合聚类的数据下采样预处理方法,使关联和非关联类别的分布趋于平衡。实验表明,支持向量机方法在优化后的蛋白质数据集可以有效实现数据分类。 展开更多
关键词 激光 蛋白质关联预测 不均衡数据 下采样 聚类
在线阅读 下载PDF
均衡数据法提高蛋白质二级结构预测 被引量:1
5
作者 李伟 赵亚欧 陈月辉 《计算机工程与应用》 CSCD 北大核心 2009年第6期219-220,239,共3页
传统蛋白质二级结构预测,由于氨基酸序列中三种结构数量的差异,易造成不均衡训练,使得对三种结构的预测准确率差别较大。为改善这种缺陷,受装袋原理的启发,对传统方法进行改进,缩小训练时三种结构数量的差距。在实验中,采用数据集CB396... 传统蛋白质二级结构预测,由于氨基酸序列中三种结构数量的差异,易造成不均衡训练,使得对三种结构的预测准确率差别较大。为改善这种缺陷,受装袋原理的启发,对传统方法进行改进,缩小训练时三种结构数量的差距。在实验中,采用数据集CB396,结果表明该方法能够显著提高对折叠的预测正确率,而且在总的预测正确率上达到77.3%,可以较好地进行蛋白质二级结构预测。 展开更多
关键词 PSSM矩阵 BP神经网络 CB396数据 蛋白质二级结构
在线阅读 下载PDF
基于集成学习的不平衡图节点分类算法
6
作者 赵华健 杨钦程 胡兆龙 《电子科技大学学报》 北大核心 2025年第3期455-463,共9页
图神经网络(GNN)被广泛应用于节点分类。然而,现有研究集中于平衡数据集,但是不平衡数据却普遍存在。传统处理不平衡数据集的方法,如重采样和重加权,往往需要进行较多的预处理或提出新的网络结构,容易引入新的偏差并导致信息丢失。该文... 图神经网络(GNN)被广泛应用于节点分类。然而,现有研究集中于平衡数据集,但是不平衡数据却普遍存在。传统处理不平衡数据集的方法,如重采样和重加权,往往需要进行较多的预处理或提出新的网络结构,容易引入新的偏差并导致信息丢失。该文提出了一种改良的装袋(Bagging)集成学习方法,对不平衡图数据集进行了k折划分,并采用GNN为基础模型对子数据集进行训练得到多个不同的子模型。最后,通过融合不同模型来提升节点的分类精度而不引入过多的预处理。基于不平衡图数据集的实验结果,表明所提出的方法在准确性和鲁棒性上优于基本分类器,此外,还发现分类精度随着k的增加先提高后降低。 展开更多
关键词 神经网络 节点分类 网络结构 不平衡数据 成学习
在线阅读 下载PDF
一种新的图聚类算法研究 被引量:5
7
作者 唐德权 吴绍兵 凌志刚 《计算机应用与软件》 CSCD 北大核心 2014年第6期18-20,58,共4页
图聚类是基于各种标准如结点标号、边标号、公共子图等条件将图数据集实例划分不同类集群,这将对结构化图空间及增强对图数据的理解有着重要作用。针对此问题提出基于结构化的图聚类算法。与目前有关的算法相比,该算法不产生新图或原图... 图聚类是基于各种标准如结点标号、边标号、公共子图等条件将图数据集实例划分不同类集群,这将对结构化图空间及增强对图数据的理解有着重要作用。针对此问题提出基于结构化的图聚类算法。与目前有关的算法相比,该算法不产生新图或原图分解成零碎子图,也不依赖计算最大共同子图的相关操作。实验结果表明,这种方法在现实分子图数据集上对结构聚类可行、有效。 展开更多
关键词 结构聚类 数据 频繁子挖掘
在线阅读 下载PDF
概率图模型学习技术研究进展 被引量:23
8
作者 刘建伟 黎海恩 罗雄麟 《自动化学报》 EI CSCD 北大核心 2014年第6期1025-1044,共20页
概率图模型能有效处理不确定性推理,从样本数据中准确高效地学习概率图模型是其在实际应用中的关键问题.概率图模型的表示由参数和结构两部分组成,其学习算法也相应分为参数学习与结构学习.本文详细介绍了基于概率图模型网络的参数学习... 概率图模型能有效处理不确定性推理,从样本数据中准确高效地学习概率图模型是其在实际应用中的关键问题.概率图模型的表示由参数和结构两部分组成,其学习算法也相应分为参数学习与结构学习.本文详细介绍了基于概率图模型网络的参数学习与结构学习算法,并根据数据集是否完备而分别讨论各种情况下的参数学习算法,还针对结构学习算法特点的不同把结构学习算法归纳为基于约束的学习、基于评分搜索的学习、混合学习、动态规划结构学习、模型平均结构学习和不完备数据集的结构学习.并总结了马尔科夫网络的参数学习与结构学习算法.最后指出了概率图模型学习的开放性问题以及进一步的研究方向. 展开更多
关键词 概率模型 贝叶斯网络 马尔科夫网络 参数学习 结构学习 不完备数据
在线阅读 下载PDF
不确定性多维传感器数据的有效存储与查询方法
9
作者 张军 王永利 《南京理工大学学报》 EI CAS CSCD 北大核心 2014年第6期750-756,共7页
为解决传统数据库管理技术无法有效管理不确定性数据的问题,该文设计了一种多维数组树(MB树)。MB树是一种基于贝叶斯网络的图数据结构,以贝叶斯网络作为概率图模型解决存储和查询问题。对海量数据建模并响应查询。证明了可预测性和结构... 为解决传统数据库管理技术无法有效管理不确定性数据的问题,该文设计了一种多维数组树(MB树)。MB树是一种基于贝叶斯网络的图数据结构,以贝叶斯网络作为概率图模型解决存储和查询问题。对海量数据建模并响应查询。证明了可预测性和结构关联性。利用真实数据集和合成数据集对MB树的性能进行了测试。验证了具有潜在联合分布的MB树的编码准确度。与相似的图模型比较,采用MB树的查询处理效率平均可提升约3倍。 展开更多
关键词 多维传感器 数据 存储 查询 多维数组树 贝叶斯网络 数据结构 概率模型 真实数据 合成数据
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部