1 前言数据库中的知识发现KDD(Knowledge Discov-ery in Database)是近年来随着数据库和人工智能技术的发展而出现的,它是从大量数据中提取出可信的、新颖的、有效的并能被人理解的模式的高级处理过程。它主要采用机器学习算法或统计方...1 前言数据库中的知识发现KDD(Knowledge Discov-ery in Database)是近年来随着数据库和人工智能技术的发展而出现的,它是从大量数据中提取出可信的、新颖的、有效的并能被人理解的模式的高级处理过程。它主要采用机器学习算法或统计方法进行知识学习,一般将KDD中进行知识学习的阶段称为数据挖掘(Data Mining)。数据挖掘是KDD中的一个非常重要的处理步骤。人们往往不加区分地使用两者。一般来说,在工程应用领域多称数据挖掘,而在研究领域人们则多称为数据库中的知识发现。人们进行的关于KDD的研究是为了将知识发现的研究成果应用于实际数据处理中,为科学的决策提供支持。正是因为这样。展开更多
蛋白质二级结构预测是公认的生物信息学领域的国际性难题。以基于内在认知机理的知识发现理论(knowledge discovery theory based on inner cognitive mechanism,KDTICM)理论的扩展性研究与数据库中的知识发现(knowledge discovery in d...蛋白质二级结构预测是公认的生物信息学领域的国际性难题。以基于内在认知机理的知识发现理论(knowledge discovery theory based on inner cognitive mechanism,KDTICM)理论的扩展性研究与数据库中的知识发现(knowledge discovery in database*,KDD*)模型为基础,提出一种基于结构序列的多分类算法——SAC(structuralassociation classification),可以有效地解决蛋白质二级结构预测问题。该算法借助设定支持度阈值的精化知识库的方法,其预测准确率能够超过85%。以该算法为核心,构建了一个蛋白质二级预测模型——复合金字塔模型。实验证明,在RS126、CB513I、LP数据集上的预测准确率均超过80%,超过目前已知的国际主流水平。展开更多
文摘蛋白质二级结构预测是公认的生物信息学领域的国际性难题。以基于内在认知机理的知识发现理论(knowledge discovery theory based on inner cognitive mechanism,KDTICM)理论的扩展性研究与数据库中的知识发现(knowledge discovery in database*,KDD*)模型为基础,提出一种基于结构序列的多分类算法——SAC(structuralassociation classification),可以有效地解决蛋白质二级结构预测问题。该算法借助设定支持度阈值的精化知识库的方法,其预测准确率能够超过85%。以该算法为核心,构建了一个蛋白质二级预测模型——复合金字塔模型。实验证明,在RS126、CB513I、LP数据集上的预测准确率均超过80%,超过目前已知的国际主流水平。