-
题名作物性状调控基因知识图谱数据集
- 1
-
-
作者
张丹丹
赵瑞雪
寇远涛
鲜国建
-
机构
中国农业科学院农业信息研究所
农业融合出版知识挖掘与知识服务重点实验室
农业农村部农业大数据重点实验室
-
出处
《农业大数据学报》
2025年第2期220-226,共7页
-
基金
中国农业科学院科技创新工程(CAAS-ASTIP-2016-AII)。
-
文摘
当前,作物育种相关的多维度科学数据呈指数级增长,这些半结构化和结构化的科学数据分布在不同领域科学数据库中,缺少跨物种多维度科学数据的关联融合数据集,阻碍了已有作物育种知识的迁移复用与作物育种科学数据价值的最大化发挥,这为作物性状调控基因知识发现带来了挑战。本研究基于数据的可靠性、实用性、易用性等原则,选取PubMed文献数据库与Phytozome、Ensembl plants、UniProt、RGAP、STRING、Pfam、KEGG和GO作为数据获取来源,采用多路径知识抽取的方式对不同数据格式的科学数据分别进行实体及关系的抽取。面向结构化数据的映射知识抽取;面向XML半结构化数据,采用基于Kettle进行数据解析的知识抽取;面向FASTA半结构化数据,采用基于BLAST模型计算的知识抽取。面向Text非结构化数据,采用基于大语言模型的知识抽取。在完成以上实体和关系抽取的基础上,进一步基于实体映射和特定属性关联的方式,实现多源作物育种知识的关联融合。形成了作物性状调控基因知识图谱数据集,并以.csv格式存储为结构化数据。该数据集包含13个实体数据集和14个语义关系数据集。为了验证该数据集的有效性,采用Neo4j图数据库进行数据集存储。最终,形成了涵盖约13万个节点和55万条语义关系的作物性状调控基因知识图谱,可有效支撑跨物种基因知识的关联检索。作物性状调控基因知识图谱数据集已为优异多效基因发现、跨物种基因功能预测与通路基因网络潜在发现等作物育种知识发现提供了关键的语义模型和重要的数据基础。相关科研和生产单位可基于本数据集构建作物性状调控基因知识库,为作物育种知识发现服务平台的构建提供关键的知识资源底座。
-
关键词
作物
知识图谱
育种知识发现
优异多效基因
-
Keywords
crops
knowledge graph
crop breeding knowledge discovery
elite polyphenotype genes
-
分类号
S330
[农业科学—作物遗传育种]
-