摘要
针对Web上的公共生物学数据资源,提出一种适合于在线搜索生物学数据的数据模型.该模型基于后缀树思想,通过建立生物体的DNA、RNA、蛋白质序列数据的后缀树结构,并将之转化为更加空间有效的后缀数组,然后搜索数组以找到查询序列的近似匹配.结果表明,这种数据模型比常规的线性搜索模型在时间和空间开销上更加高效.
One data model used for searching public biological databases on the web is proposed. It is based on an idea of suffix trees. In order to find out approximate matches of a query sequence within a sequence database of DNA, RNA or protein, a suffix tree of the database is created, as well as converted into a suffix array. As a result, this kind of data model is more time efficiency and more space reduction than nomal linear model.
出处
《西安工程科技学院学报》
2006年第2期206-209,共4页
Journal of Xi an University of Engineering Science and Technology
关键词
生物学数据库
搜索
后缀树
后缀数组
biological database
searching
suffix tree
suffix array
作者简介
喻钧(1970-), 女,重庆市人,西安工业学院讲师,硕士,主要从事Web数据挖掘、信息系统和生物信息学等方面的研究. E-mail: jyu0117@163.com 通讯作者