-
题名一种支持多种子近似串匹配的q-gram索引
被引量:3
- 1
-
-
作者
孙德才
王晓霞
-
机构
渤海大学信息科学与技术学院
s渤海大学大学计算机教研部
-
出处
《计算机科学》
CSCD
北大核心
2014年第9期279-284,共6页
-
基金
2014年辽宁省博士科研启动基金计划(20141138)
辽宁省社科联2014年度辽宁经济社会发展立项重点课题(2014lslktzdian-04)
+1 种基金
国家自然科学基金项目(61173142,61232016,61202462,61173141,61173136)
辽宁省教育厅一般项目(L2013422)资助
-
文摘
如何在大型文本库中快速找出给定串的近似串是大数据时代要解决的关键问题。基于多种子的近似串匹配算法因匹配速度快而得到众多学者的青睐,但巨大的索引空间消耗也使其难以处理大型文本库。提出了一种支持多种子的q-gram索引结构,通过该索引能够快速地计算出给定任意长度连续种子的地址集合,解决了多种子近似串匹配算法中种子的数目和长度受存储空间限制的问题。实验数据显示,新索引方案成倍地减少了存储空间的消耗。实验结果表明,提出的索引方案在大数据环境下的多种子近似匹配中具有一定的优势。
-
关键词
大数据
近似串匹配
种子
q-gram索引
多种子索引
-
Keywords
Big data
Approximate string matching
Seed
Q-gram index
Multi-seeds index
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于尾匹配q-gram的近似串匹配算法
被引量:1
- 2
-
-
作者
孙德才
王晓霞
-
机构
渤海大学信息科学与技术学院
渤海大学大学计算机教研部
-
出处
《计算机科学》
CSCD
北大核心
2014年第6期243-249,共7页
-
基金
辽宁省社科联2014年度辽宁经济社会发展立项重点课题(2014lslktzdian-04)
国家自然科学基金项目(61173142
+3 种基金
61202462)
辽宁省教育厅一般项目(L2013422
L2012397)
辽宁省"百千万人才工程"项目(2012921058)资助
-
文摘
近似串匹配是生物信息学、文本检索、信号处理等领域的一个基础问题,如何提高近似串匹配的速度一直都是研究的关键问题。提出一种新的在大文本库中快速查找近似匹配的无损过滤算法。为保证在大文本库中的匹配速度,本算法使用了查询速度较快的q-gram索引。为通过提高过滤算法的过滤效率达到提升算法整体性能的目的,详细分析了含有匹配串的文本区域,提取了一些基于尾匹配q-gram特征的新过滤条件,然后用这些特征优化了过滤算法的过滤标准。实验数据表明,新过滤条件有效地提高了算法的过滤效率,提升了算法的整体性能。结果显示新算法适合各种匹配错误率下的近似匹配,算法的通用性较强。
-
关键词
近似串匹配
过滤算法
q-gram过滤
q元语法
-
Keywords
Approximate string matching
Filter algorithm
q-gram filter
q-gram
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-