期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
并行后缀树的构造及查询算法 被引量:2
1
作者 乔百友 葛健 +1 位作者 王国仁 韩东红 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2004年第3期231-234,共4页
针对生物信息领域中传统后缀树构造算法在时间和空间上的限制,从结构并行的角度提出了一种新颖的、适用于生物信息学应用的并行后缀树结构和相应的构造算法·该算法首先将给定字符串分成若干连续的片段,并在各个处理机上分别构造这... 针对生物信息领域中传统后缀树构造算法在时间和空间上的限制,从结构并行的角度提出了一种新颖的、适用于生物信息学应用的并行后缀树结构和相应的构造算法·该算法首先将给定字符串分成若干连续的片段,并在各个处理机上分别构造这些片段的后缀树,形成了一种分布于多个处理机上的并行后缀树结构·该并行算法不仅大大缩短了后缀树的构造时间,而且避免了主存大小的限制·经分析,其性能优于现有的任何一种并行算法·在此基础上,提出了一种高效的基于这种并行后缀树的字符串匹配算法,解决了传统后缀树的基本查询问题· 展开更多
关键词 后缀树 并行构造 字符串匹配 生物序列 生物信息学
在线阅读 下载PDF
基于后缀树词序列核挖掘Web文档 被引量:2
2
作者 傅鹏 张德运 +1 位作者 陈海诠 董皓 《微电子学与计算机》 CSCD 北大核心 2005年第12期4-7,共4页
通过将文档表示为一棵后缀树,文章提出一种基于后缀树索引计算文档相似度的词序列核。首先根据文档的词序列构造出后缀树,然后根据后缀树词序列核计算文档间的相似度,最后利用支持向量机对文档进行分类。理论分析表明后缀树词序列核的... 通过将文档表示为一棵后缀树,文章提出一种基于后缀树索引计算文档相似度的词序列核。首先根据文档的词序列构造出后缀树,然后根据后缀树词序列核计算文档间的相似度,最后利用支持向量机对文档进行分类。理论分析表明后缀树词序列核的计算只与比较文档的长度成线性关系,大大减少了序列核的计算时间。在reuters-21578文档集上将后缀树词序列核与词序列核、多项式核进行比较,实验结果表明在改善速度的同时,后缀树词序列核可达到与词序列核相当的性能,优于多项式核,更适于Web文档挖掘等应用。 展开更多
关键词 核学习方法 词序列核 字符串核 后缀树 WEB挖掘
在线阅读 下载PDF
基于后缀树的文本聚类算法 被引量:4
3
作者 刘亚明 马力 舒惠 《西安邮电学院学报》 2012年第1期62-66,共5页
提出一种基于后缀树的文本聚类算法以实现中文文本的多主题聚类。先介绍基于后缀树的英文多主题聚类的主要流程。再分析中、英文语言的差异,并以中文词和短语为单位构造后缀树模型,随后构造基类关联图实现中文多主题聚类。实验分析表明... 提出一种基于后缀树的文本聚类算法以实现中文文本的多主题聚类。先介绍基于后缀树的英文多主题聚类的主要流程。再分析中、英文语言的差异,并以中文词和短语为单位构造后缀树模型,随后构造基类关联图实现中文多主题聚类。实验分析表明,该方法能快速、较准确的实现中文文本的多主题聚类。 展开更多
关键词 后缀树 后缀树聚类 多主题聚类
在线阅读 下载PDF
基于后缀树的程序理解Plan自动提取 被引量:1
4
作者 陈华 陈纯 +2 位作者 唐文彬 钱剑飞 刘康苗 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2008年第8期1340-1344,共5页
为辅助维护用于程序理解的代码片段模版(Plan)库,提出了基于后缀树的Plan自动提取方法.通过词法/语法分析将源代码转换成Token串,然后对Token串生成后缀树,遍历后缀树得到候选代码Plan集,过滤后生成更小、更准确的Plan集.采用动态模式... 为辅助维护用于程序理解的代码片段模版(Plan)库,提出了基于后缀树的Plan自动提取方法.通过词法/语法分析将源代码转换成Token串,然后对Token串生成后缀树,遍历后缀树得到候选代码Plan集,过滤后生成更小、更准确的Plan集.采用动态模式匹配合并合适的Plan和给Plan命名,最后生成可用于程序理解的Plan.由于后缀树的线性增长特性,该方法可以应用于大规模软件的程序理解.将方法应用于多个不同规模的软件,测试结果表明,该方法可以从源码中提取有效的Plan. 展开更多
关键词 程序理解 后缀树 软件维护 软件工程
在线阅读 下载PDF
后缀树算法在舆情聚类中的应用 被引量:1
5
作者 彭静 翟英 冯爽 《河北科技大学学报》 CAS 2012年第1期65-68,共4页
针对网络舆情分析的需求背景,研究了通过后缀树算法发现文本文档之间的公共短语串,按公共短语串实现文档聚类。网页文档的标题和摘要能代表文档的主要思想,应用后缀树算法实现对标题和摘要自动聚类,从而实现舆情信息自动聚类。
关键词 网络舆情 后缀树算法 文本聚类
在线阅读 下载PDF
一种基于后缀树的简洁关联规则挖掘有效剪枝方法 被引量:1
6
作者 王秉政 苏晓珂 张素智 《郑州轻工业学院学报(自然科学版)》 CAS 2011年第3期12-17,共6页
针对基于闭模式简洁关联规则挖掘中搜索空间和计算量过大、挖掘有效性降低的问题,提出一种新的剪枝和挖掘方法.该方法通过充分利用挖掘数据结构,保留尽可能少的挖掘后缀信息,直接挖掘简洁项集并枚举简洁关联规则;不需要保留大量中间结... 针对基于闭模式简洁关联规则挖掘中搜索空间和计算量过大、挖掘有效性降低的问题,提出一种新的剪枝和挖掘方法.该方法通过充分利用挖掘数据结构,保留尽可能少的挖掘后缀信息,直接挖掘简洁项集并枚举简洁关联规则;不需要保留大量中间结构和重复扫描数据库,可在较小代价下完成对项集搜索空间进行剪枝.实验表明,相比传统方法本方法更加有效,并对各种数据集具有较好的可规模性. 展开更多
关键词 关联规则 闭模式 数据挖掘 有效剪枝方法 后缀树
在线阅读 下载PDF
基于后缀树思想构造Web生物数据搜索的数据模型 被引量:1
7
作者 喻钧 王长元 +1 位作者 Sven Schuierer 喻萌 《西安工程科技学院学报》 2006年第2期206-209,共4页
针对Web上的公共生物学数据资源,提出一种适合于在线搜索生物学数据的数据模型.该模型基于后缀树思想,通过建立生物体的DNA、RNA、蛋白质序列数据的后缀树结构,并将之转化为更加空间有效的后缀数组,然后搜索数组以找到查询序列的近似匹... 针对Web上的公共生物学数据资源,提出一种适合于在线搜索生物学数据的数据模型.该模型基于后缀树思想,通过建立生物体的DNA、RNA、蛋白质序列数据的后缀树结构,并将之转化为更加空间有效的后缀数组,然后搜索数组以找到查询序列的近似匹配.结果表明,这种数据模型比常规的线性搜索模型在时间和空间开销上更加高效. 展开更多
关键词 生物学数据库 搜索 后缀树 后缀数组
在线阅读 下载PDF
改进的基于后缀树的Web搜索结果聚类算法
8
作者 董亚则 李万龙 +1 位作者 李航 郑山红 《吉林大学学报(信息科学版)》 CAS 2016年第4期543-549,共7页
为提高Web搜索精度和检准率,在后缀树聚类算法基本模型的基础上,提出了一种改进的基于后缀树的搜索结果聚类算法。将向量空间模型与后缀树聚类相结合,改善了基类合并的效果,综合基类节点对应文本数、短语包含词语长度、短语权重及是否... 为提高Web搜索精度和检准率,在后缀树聚类算法基本模型的基础上,提出了一种改进的基于后缀树的搜索结果聚类算法。将向量空间模型与后缀树聚类相结合,改善了基类合并的效果,综合基类节点对应文本数、短语包含词语长度、短语权重及是否包含查询词作为聚类标签的筛选条件,改进了聚类标签的合理性和可读性。以搜狗语料库中的文本分类语料库为数据源进行的实验结果表明,该方法在一定程度上提高了聚类结果的准确率。 展开更多
关键词 文本聚类 后缀树 向量空间模型 Web检索结果
在线阅读 下载PDF
基于广义后缀树的事件流频繁情节在线挖掘算法
9
作者 曲文龙 王彦琪 +1 位作者 张敬敏 杨炳儒 《微电子学与计算机》 CSCD 北大核心 2007年第12期32-36,共5页
现有的事件序列频繁情节挖掘多采用Apriori-like算法,此方法无法应用于事件流数据发掘。针对采用滑动窗口的事件流频繁情节发现问题,提出一种广义后缀树结构,在新事件加入时对情节树进行动态维护;为提高时空效率,采用频繁情节发生列表... 现有的事件序列频繁情节挖掘多采用Apriori-like算法,此方法无法应用于事件流数据发掘。针对采用滑动窗口的事件流频繁情节发现问题,提出一种广义后缀树结构,在新事件加入时对情节树进行动态维护;为提高时空效率,采用频繁情节发生列表逐层构建的方法实现对搜索空间的划分,通过监控边界情节以发现频繁情节的变化。实验结果表明了算法的有效性和优越性。 展开更多
关键词 广义后缀树 事件流 频繁情节 数据挖掘
在线阅读 下载PDF
一种有效的后缀树建立方法
10
作者 黄影 《电子科技》 2013年第10期73-75,共3页
基于自顶向下的后缀树建立思想,提出一种分步建立后缀树的方法。首先对字符串中所有后缀按照字母表顺序进行排序,然后求出有序相邻后缀之间的最长公共前缀,并根据后缀顺序和最长公共前缀建立后缀树。该方法无需使用后缀链,并且可以在线... 基于自顶向下的后缀树建立思想,提出一种分步建立后缀树的方法。首先对字符串中所有后缀按照字母表顺序进行排序,然后求出有序相邻后缀之间的最长公共前缀,并根据后缀顺序和最长公共前缀建立后缀树。该方法无需使用后缀链,并且可以在线性时间建立后缀树。 展开更多
关键词 后缀树 后缀排序 最长公共前缀 自顶向下
在线阅读 下载PDF
基于后缀树的基因数据可搜索加密方法 被引量:20
11
作者 秦诗悦 周福才 柳璐 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第4期461-466,共6页
为保障用户免遭侵犯隐私的风险,提出了一种特别支持基因数据的可搜索加密方法.针对目前密文搜索方案大多数仅支持通过关键字进行搜索,而无法用于不含关键字的基因数据的问题,利用后缀树和伪随机函数等密码学原语构建安全索引,实现对密... 为保障用户免遭侵犯隐私的风险,提出了一种特别支持基因数据的可搜索加密方法.针对目前密文搜索方案大多数仅支持通过关键字进行搜索,而无法用于不含关键字的基因数据的问题,利用后缀树和伪随机函数等密码学原语构建安全索引,实现对密文基因数据的任意子字符串搜索.安全性证明该方法满足动态自适应安全,利用理论分析和真实数据对效率进行测评.该方法可以对基因数据进行高效安全的任意子字符串搜索,保护数据完整性和隐私性,在个性化医疗大众化的环境下具备广阔的应用前景. 展开更多
关键词 基因数据 后缀树 可搜索加密 子字符串搜索 现代医疗
在线阅读 下载PDF
后缀树的平均高度 被引量:1
12
作者 曾本胜 廉玉忠 李世取 《运筹与管理》 CSCD 1996年第4期9-12,共4页
本文利用概率论中的方法,探讨了由随机字符序列构成的后缀树,其高度Hn的概率特性,给出了均值E[Hn]和方差D[Hn]的较为精确的上下界估计.
关键词 随机序列 后缀树 平均高度 数据结构
全文增补中
基于后缀树的相似代码检测方法的研究
13
作者 禤静 《信息通信》 2016年第10期117-118,共2页
通常以词或字符为单位构造后缀树进行代码检测,空间开销大,同时增加字符串对比数量。针对该问题,文章设计了一种基于后缀树的代码相似度检测方法,应用Rabin指纹算法以句子为单位生成的指纹序来构造后缀树,并结合RMQ提取后缀树指纹公共... 通常以词或字符为单位构造后缀树进行代码检测,空间开销大,同时增加字符串对比数量。针对该问题,文章设计了一种基于后缀树的代码相似度检测方法,应用Rabin指纹算法以句子为单位生成的指纹序来构造后缀树,并结合RMQ提取后缀树指纹公共子串长度,以此计算出代码的相似度。 展开更多
关键词 后缀树 Rabin指纹算法 相似代码检测
在线阅读 下载PDF
后缀树聚类在专用搜索引擎中的应用研究与改进 被引量:2
14
作者 刘文婷 滕奇志 《成都信息工程学院学报》 2010年第3期269-274,共6页
为了提高专用搜索引擎的分类精确度和可控度,提出了一种新算法。根据现有的后缀树文本聚类,通过建立基本分类表,并结合专用搜索引擎的特点进行改进,将文本分类和文本聚类有机地结合起来,使改进后的算法能够通过人工的干预,不断修正自己... 为了提高专用搜索引擎的分类精确度和可控度,提出了一种新算法。根据现有的后缀树文本聚类,通过建立基本分类表,并结合专用搜索引擎的特点进行改进,将文本分类和文本聚类有机地结合起来,使改进后的算法能够通过人工的干预,不断修正自己的分类结果。实验表明,相比传统的文本分类算法,这种算法能通过自我修正能力不断提高分类准确度,并且计算开销和传统文本分类算法相当。因此,该算法通过结合文本分类和文本聚类算法,在专用搜索引擎结果处理上提出了新的思路。 展开更多
关键词 计算机应用 文本分类 文本聚类 搜索引擎 后缀树 词频 降维 召回率
在线阅读 下载PDF
基于广义后缀树的最长重复子模式算法
15
作者 柳渤 李建中 《航天控制》 CSCD 北大核心 2008年第2期74-78,共5页
最长重复子串问题是字符串处理中的一个经典问题,是许多应用的基础。但有些时候人们不只关心相等的子串对,还要查找具有某种其他关系的子串对。例如在DNA序列中通常关心字符串和它的补串。这种联系可以看成是一个字符串经过某种置换后... 最长重复子串问题是字符串处理中的一个经典问题,是许多应用的基础。但有些时候人们不只关心相等的子串对,还要查找具有某种其他关系的子串对。例如在DNA序列中通常关心字符串和它的补串。这种联系可以看成是一个字符串经过某种置换后与另一个字符串相等。因此本文定义了单一置换下的最长重复子模式和最长重复子模式两个问题,提出了基于广义后缀树的算法来解决这两个问题,并在理论上分析了它们的时间复杂性和空间复杂性。 展开更多
关键词 最长重复子模式 后缀树 置换
在线阅读 下载PDF
概率后缀树在移动用户轨迹异常检测中的应用
16
作者 周湛 《移动通信》 2018年第8期67-71,共5页
在移动用户轨迹异常检测中,针对传统的马尔可夫模型准确率不高、效率低的问题,提出了基于后缀树的异常用户轨迹检测模型。首先,结合移动用户在某个位置的逗留时长对数据进行预处理;然后依据时间将移动用户的轨迹序列化;再计算用户轨迹... 在移动用户轨迹异常检测中,针对传统的马尔可夫模型准确率不高、效率低的问题,提出了基于后缀树的异常用户轨迹检测模型。首先,结合移动用户在某个位置的逗留时长对数据进行预处理;然后依据时间将移动用户的轨迹序列化;再计算用户轨迹序列上下文的概率特征,并构建概率后缀树;最后通过计算用户轨迹序列之间的相似度来实现轨迹异常检测应用。实验证明,该方法具有一定的有效性和扩展性。 展开更多
关键词 轨迹序列 概率后缀树 相似度 异常检测
在线阅读 下载PDF
两棵树的公共子树查找算法综述 被引量:2
17
作者 晁晓菲 杨晓龙 +1 位作者 李书琴 唐晶磊 《陕西理工学院学报(自然科学版)》 2009年第2期33-39,共7页
本文通过对基于两棵树中的公共子树查找问题在有根、带标记、有序树中的主要算法及相关历史的回顾,结合算法思想将公共子树查找问题分为主要3类。本文深入探讨了每类算法中的代表算法,其中根据数据挖掘中枚举树相关技术提出了一种可能... 本文通过对基于两棵树中的公共子树查找问题在有根、带标记、有序树中的主要算法及相关历史的回顾,结合算法思想将公共子树查找问题分为主要3类。本文深入探讨了每类算法中的代表算法,其中根据数据挖掘中枚举树相关技术提出了一种可能的公共子树查找算法的思想。最后比较了文中主要算法的效率,同时较为深入地分析和讨论了公共子树的相关研究及未来可能的研究发展方向。 展开更多
关键词 最大公共子 后缀树 平衡串 枚举 最大公共子图
在线阅读 下载PDF
基于滑动窗口的自适应网页预测模型 被引量:1
18
作者 班志杰 古志民 金瑜 《电子科技大学学报》 EI CAS CSCD 北大核心 2009年第2期249-252,共4页
PPM模型广泛应用于Web预取技术,但大多数的PPM模型不具有自适应性,不能反映用户浏览模式的改变。通过对标准PPM模型的扩展,提出基于滑动窗口的自适应网页预测模型。该模型仅保留处于滑动窗口之内的最近访问序列,从而反映用户兴趣的变化... PPM模型广泛应用于Web预取技术,但大多数的PPM模型不具有自适应性,不能反映用户浏览模式的改变。通过对标准PPM模型的扩展,提出基于滑动窗口的自适应网页预测模型。该模型仅保留处于滑动窗口之内的最近访问序列,从而反映用户兴趣的变化,同时利用非压缩后缀树增量式添加新的用户请求和删除过时的浏览信息,以提高更新速度。实验表明,该模型能更准确地描述用户在Web上的浏览特征,在预取性能上明显地优于以往的模型。 展开更多
关键词 增量式更新 非压缩后缀树 PPM WEB预取
在线阅读 下载PDF
XML路径表达式中公共子查询的优化技术 被引量:1
19
作者 韩东红 王国仁 乔百友 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第6期535-537,共3页
研究了XML路径表达式的相关查询算法,提出了基于标注后缀树的XML路径表达式公共子查询的优化算法,通过冗余消除技术来提高路径表达式的查询效率·在REOA测试集上,通过对设计的查询进行测试,分析了基于标注后缀树的XML路径表达式公... 研究了XML路径表达式的相关查询算法,提出了基于标注后缀树的XML路径表达式公共子查询的优化算法,通过冗余消除技术来提高路径表达式的查询效率·在REOA测试集上,通过对设计的查询进行测试,分析了基于标注后缀树的XML路径表达式公共子查询的优化算法的性能·实验结果表明,基于标注后缀树的XML路径表达式冗余消除技术可以极大地提高路径表达式的查询效率· 展开更多
关键词 XML路径表达式 公共子查询 查询优化 标注后缀树 冗余消除技术
在线阅读 下载PDF
一种时序数据局部相关对象聚类算法
20
作者 闫雷鸣 孙志挥 张柏礼 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第5期793-797,共5页
针对高维时序数据中局部相关模式的聚类问题,建立了一种基于相关子模式的spCluster模型,讨论了该模型与平均平方残值的关系.并以此模型为基础,提出了适用于时序数据的确定性双聚类算法sp-TSC,该算法首先利用spCluster模型将局部相关的... 针对高维时序数据中局部相关模式的聚类问题,建立了一种基于相关子模式的spCluster模型,讨论了该模型与平均平方残值的关系.并以此模型为基础,提出了适用于时序数据的确定性双聚类算法sp-TSC,该算法首先利用spCluster模型将局部相关的数据对象符号化,然后将字符序列插入到泛化后缀树中,利用后缀树的性质避免了穷举局部相关子模式的各种组合,有效减小了搜索空间,从而可以在数据矩阵尺寸的线性时间内发现全部最大δ-spCluster.理论分析和实验表明,该算法是高效可行的. 展开更多
关键词 双聚类 时间序列 后缀树 局部相关
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部