期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
基于改进倒排表和集合的最频繁项集挖掘算法 被引量:1
1
作者 陈小玉 杨艳燕 +1 位作者 刘克成 朱颢东 《计算机应用研究》 CSCD 北大核心 2012年第6期2135-2137,共3页
最频繁项集挖掘是文本关联规则挖掘中研究的重点和难点,它决定了文本关联规则挖掘算法的性能。针对当前在最频繁项集挖掘方面的不足,将集合论引入倒排表以对其进行改进,然后以此为基础提出了几个命题和推论,并结合最小支持度阈值动态调... 最频繁项集挖掘是文本关联规则挖掘中研究的重点和难点,它决定了文本关联规则挖掘算法的性能。针对当前在最频繁项集挖掘方面的不足,将集合论引入倒排表以对其进行改进,然后以此为基础提出了几个命题和推论,并结合最小支持度阈值动态调整策略,提出了一个基于改进的倒排表和集合理论的最频繁项集挖掘算法,最后对所提算法进行验证。实验结果表明,所提算法的规则有效率和时间性能比常用的两个最频繁项集挖掘算法,即NApriori和IntvMatrix算法都好。 展开更多
关键词 最频繁项集 文本关联规则 倒排表 集合理论
在线阅读 下载PDF
基于倒排表与B+树的联合索引技术
2
作者 刘高嵩 万里勇 龙军 《计算机工程》 CAS CSCD 2012年第16期49-51,56,共4页
为提高XML文档的查询效率,提出一种基于倒排表与B+树的联合索引技术。DTD结构索引和内容索引采用倒排表作为索引单位,XML文档索引使用B+树作为索引基本组织。在DTD结构索引的结点编码中设置标识信息,便于确定需要查询的文档。通过建立DT... 为提高XML文档的查询效率,提出一种基于倒排表与B+树的联合索引技术。DTD结构索引和内容索引采用倒排表作为索引单位,XML文档索引使用B+树作为索引基本组织。在DTD结构索引的结点编码中设置标识信息,便于确定需要查询的文档。通过建立DTD结构索引、XML文档索引和内容索引,实现混合型XML文档的查询。理论分析与实验结果表明,该技术具有较小的空间开销和较高的查询效率。 展开更多
关键词 可扩展标记语言文档 编码 倒排表 B+树 索引 查询性能
在线阅读 下载PDF
不确定图上的极大团枚举及高效验证算法
3
作者 赵丹枫 吕闫妍 +2 位作者 张文博 黄冬梅 高峰 《智能系统学报》 CSCD 北大核心 2024年第6期1539-1551,共13页
现有的不确定图中极大团枚举方法“子图划分—枚举—验证”,在处理大规模图时,整体效率不高;当挖掘出的伪极大团数量较多时,验证速率明显下降。因此,提出高效枚举及验证算法(multiple inversion list enumerate uncertain maximal cliqu... 现有的不确定图中极大团枚举方法“子图划分—枚举—验证”,在处理大规模图时,整体效率不高;当挖掘出的伪极大团数量较多时,验证速率明显下降。因此,提出高效枚举及验证算法(multiple inversion list enumerate uncertain maximal cliques,MILEUMC)。在子图划分和枚举前,定义并构造概率阈值(α)不确定图,通过缩小图的规模,提高枚举效率;在“验证”时,提出基于多重倒排表的验证方法,分为去重复和去包含关系2个阶段去除伪极大团,以不同索引构建各个阶段的多重倒排表,根据极大团的属性完成验证,同时动态更新相应的倒排表和映射表,以减小工作量,提高时间效率。最后在多个真实的数据集上比较,结果验证了MILEUMC算法的高效性。该算法更适用于在较为稀疏的图上寻找联系更紧密的极大团。 展开更多
关键词 不确定图 极大团 数据挖掘 枚举算法 验证算法 子图划分 倒排表 映射
在线阅读 下载PDF
全文检索模型综述 被引量:12
4
作者 申展 江宝林 +2 位作者 陈祎 唐磊 胡运发 《计算机科学》 CSCD 北大核心 2004年第5期61-64,共4页
全文检索的应用导致了信息检索领域的一场革命,是文档数据库研究的核心。全文检索的首要问题是全文检索模型的选择。本文介绍了目前国内外主要的全文拴索模型,总结了全文检索模型的评价标准,按照此标准对各种模型进行了分析比较,并对全... 全文检索的应用导致了信息检索领域的一场革命,是文档数据库研究的核心。全文检索的首要问题是全文检索模型的选择。本文介绍了目前国内外主要的全文拴索模型,总结了全文检索模型的评价标准,按照此标准对各种模型进行了分析比较,并对全文检索模型构建中一些关键问题进行了分析。 展开更多
关键词 信息检索 文档数据库 全文检索模型 倒排表 Pat-树 互关联后继树 位图 署名文件
在线阅读 下载PDF
面向网络的全文检索中索引文件的组织 被引量:12
5
作者 颜维龙 盖杰 +1 位作者 武港山 袁春风 《计算机应用研究》 CSCD 北大核心 2002年第11期124-126,146,共4页
为了提高网络中全文检索的效率 ,需要对Web页面中内容进行分析、建立全文索引 ,并对索引的结构进行高效率的组织。讨论了索引的组织结构及其实现方法 ,并分析了不同的组织方法的性能。
关键词 全文检索 正排 倒排表 索引
在线阅读 下载PDF
一种基于XML文档关键字检索的结构索引 被引量:5
6
作者 娄颖 李战怀 +2 位作者 郭文琪 陈群 韩萌 《计算机科学》 CSCD 北大核心 2010年第12期120-124,共5页
XML数据索引对其检索效率有较大的影响。在深入分析现有XML结构索引之后,结合XML文档特点,提出了一种基于关键字检索的结构索引——LSS(Level Structure Summary)。LSS采用了把具有相同标签路径的结点进行合并的策略,具有高效判断结点... XML数据索引对其检索效率有较大的影响。在深入分析现有XML结构索引之后,结合XML文档特点,提出了一种基于关键字检索的结构索引——LSS(Level Structure Summary)。LSS采用了把具有相同标签路径的结点进行合并的策略,具有高效判断结点之间同构异构关系的能力。实现了LSS索引生成算法CSCAN,并在LSS索引的基础上设计了XML关键字检索算法LSSearch。该算法依据LSS索引,将各个关键字的原始倒排表集合分拆成不同类型的子集合,最后在所有子集合上进行查询。实验结果表明,LSS可以帮助减少XML文档中关键字倒排表的规模,提高检索效率。 展开更多
关键词 XML 关键字检索 索引 倒排表
在线阅读 下载PDF
全文索引的研究 被引量:10
7
作者 徐小刚 王俊杰 于玉 《计算机工程》 CAS CSCD 北大核心 2002年第2期101-103,共3页
在倒排表模型的基础上,从加快索引创建速度和改进索引动态结构两个方面着手,提出并实现了一种高效的索引创建算法和相应的索引模型,经过测试,新系统的索引创建速度可以和数据复制速度相提并论。而在空间效率上,也得到了一定程度的提高。
关键词 全文索引 倒排表模型 Pat数组 文本数据库 研究
在线阅读 下载PDF
一种基于可排序视图的RDF模式匹配算法 被引量:2
8
作者 熊政 王金明 +3 位作者 郑海雁 李昆明 徐立臻 崇志宏 《计算机工程与应用》 CSCD 北大核心 2016年第8期62-69,共8页
随着语义网络中数据量的激增,在RDF数据集中高效查询数据已成为一个亟待解决的问题。传统的基于物化视图的RDF模式匹配方法虽然能降低表的自连接操作次数,加快查询模式重写过程,但在视图集中检索模式匹配的视图等价于子图同构这一NP-har... 随着语义网络中数据量的激增,在RDF数据集中高效查询数据已成为一个亟待解决的问题。传统的基于物化视图的RDF模式匹配方法虽然能降低表的自连接操作次数,加快查询模式重写过程,但在视图集中检索模式匹配的视图等价于子图同构这一NP-hard问题。为了减小查询模式重写代价,提高RDF模式匹配过程效率,引入可排序视图概念,设计包含映射发现算法contain及其扩展算法contain+,简化等长度模式间包含映射发现过程,同时保证模式间的匹配代价与输入数据的规模线性相关。此外,提出基于倒排表/Map Reduce检索候选可排序视图的方法,实现RDF模式重写算法rewrite,用以处理不同规模数据集上的模式匹配问题。理论分析及实验证明,基于可排序视图的RDF模式匹配算法能有效地兼顾算法效率及算法可扩展性。 展开更多
关键词 可排序视图 倒排表 MAPREDUCE 模式重写
在线阅读 下载PDF
基于最长公共子序列的人体运动序列检索 被引量:2
9
作者 冯林 李璞 +1 位作者 孙焘 郑虎 《系统仿真学报》 CAS CSCD 北大核心 2009年第22期7164-7167,共4页
在计算机仿真领域,运用重新组合等相关技术,可以对已经捕捉的人体运动数据实现重用,以较低的成本产生新的运动。但是,由于运动库的数据庞大,对其实施有效检索成为一个重要问题。以倒排表数据结构为基础,设计出一套针对人体运动的检索算... 在计算机仿真领域,运用重新组合等相关技术,可以对已经捕捉的人体运动数据实现重用,以较低的成本产生新的运动。但是,由于运动库的数据庞大,对其实施有效检索成为一个重要问题。以倒排表数据结构为基础,设计出一套针对人体运动的检索算法。不同于传统的最长公共子序列(Longest Common Subsequence,LCSS)的度量算法,提出了一种限制最小匹配率ρmin的有限最长公共子序列(Limited-LCSS)算法,并在此基础上针对倒排表的数据结构特点对算法进行了优化,显著的提高了算法的效率。实验表明提出的检索方法具有较好的速度和准确性。 展开更多
关键词 运动捕捉 检索 最长公共序列 倒排表
在线阅读 下载PDF
基于最小支持度阈值动态调整策略的最频繁项集挖掘算法 被引量:1
10
作者 陈超 刘才铭 《兰州理工大学学报》 CAS 北大核心 2012年第4期85-88,共4页
最频繁项集挖掘是文本关联规则挖掘中研究的重点和难点,它决定了文本关联规则挖掘算法的性能.针对当前在最频繁项集挖掘方面的不足,改进传统的倒排表,并结合最小支持度阈值动态调整策略,提出一个新的基于改进的倒排表和集合理论的最频... 最频繁项集挖掘是文本关联规则挖掘中研究的重点和难点,它决定了文本关联规则挖掘算法的性能.针对当前在最频繁项集挖掘方面的不足,改进传统的倒排表,并结合最小支持度阈值动态调整策略,提出一个新的基于改进的倒排表和集合理论的最频繁项集挖掘算法.另外,给出几个命题和推论,并把它们用于本文算法以提高性能,最后对所提算法进行实验验证.实验结果表明,该算法的规则有效率和时间性能比常用的两个最频繁项集挖掘算法(NApriori算法,IntvMatrix算法)都好. 展开更多
关键词 频繁项集 关联规则 倒排表 集合理论
在线阅读 下载PDF
地理社交网中基于范围的星型组查询
11
作者 陈子军 马迎梅 +2 位作者 刘文远 孙德杰 刘永山 《燕山大学学报》 CAS 北大核心 2017年第5期419-427,共9页
针对星型组查询只考虑了用户的位置信息和朋友关系,而没有考虑用户的偏好信息,使得推荐质量不高的问题,本文提出一种基于范围的星型组查询算法(m SG),同时考虑用户的社交关系、文本信息和当前位置信息,在给定范围为用户返回k个得分最高... 针对星型组查询只考虑了用户的位置信息和朋友关系,而没有考虑用户的偏好信息,使得推荐质量不高的问题,本文提出一种基于范围的星型组查询算法(m SG),同时考虑用户的社交关系、文本信息和当前位置信息,在给定范围为用户返回k个得分最高的星型组。为了迅速查找中心点用户,提出带倒排表的网格索引结构。为中心点用户更快速地查找朋友,提出了社交关系和文本信息混合索引结构。最后,通过实验表明,利用所提索引结构减少了查询算法的运行时间。 展开更多
关键词 倒排表 范围查询 星型组查询 地理社交网
在线阅读 下载PDF
关于Top-N最频繁项集挖掘的研究
12
作者 朱颢东 李红婵 《电子科技大学学报》 EI CAS CSCD 北大核心 2010年第5期757-761,773,共6页
最频繁项集挖掘决定了文本关联规则挖掘算法的性能,是文本关联规则挖掘中研究的重点和难点。该文分析了当前最频繁项集挖掘方面的不足,改进了传统的倒排表,结合最小支持度阈值动态调整策略,提出了一个新的基于改进的倒排表和集合理论的T... 最频繁项集挖掘决定了文本关联规则挖掘算法的性能,是文本关联规则挖掘中研究的重点和难点。该文分析了当前最频繁项集挖掘方面的不足,改进了传统的倒排表,结合最小支持度阈值动态调整策略,提出了一个新的基于改进的倒排表和集合理论的Top-N最频繁项集挖掘算法。同样,给出了几个命题和推论,并把它们用于该文算法以提高性能,实验结果表明,所提算法的规则有效率和时间性能优于NApriori算法和IntvMatrix算法。 展开更多
关键词 关联规则 倒排表 频繁项集 集合理论 支持度
在线阅读 下载PDF
一种基于编码压缩的数据广播关键字索引方法
13
作者 张健 孙未未 《计算机工程》 CAS CSCD 北大核心 2015年第1期75-81,共7页
无线环境的特殊性导致传统的关键字检索方法不能很好地用于周期数据广播之中。倒排表是全文检索中广泛使用的一种索引技术,但倒排表索引和基于哈希的数据索引无法解决索引结构过大的问题。为此,在周期数据广播环境下,提出一种新型的关... 无线环境的特殊性导致传统的关键字检索方法不能很好地用于周期数据广播之中。倒排表是全文检索中广泛使用的一种索引技术,但倒排表索引和基于哈希的数据索引无法解决索引结构过大的问题。为此,在周期数据广播环境下,提出一种新型的关键字索引结构,对倒排表进行编码压缩,缩减索引结构来减少访问时间和调谐时间。同时,与编码压缩索引相结合,设计一种周期数据广播下的文档调度方法。在真实数据集上进行的实验结果表明,该方法可缩减索引结构的规模,降低访问延迟和能耗。 展开更多
关键词 无线环境 数据广播 关键字检索 索引 编码压缩 倒排表
在线阅读 下载PDF
处理XML文档查询的高效结构连接方法
14
作者 姚全珠 丁晓剑 《计算机工程》 CAS CSCD 北大核心 2006年第18期87-89,共3页
结构索引和倒排表在处理XML文档查询时,有不足之处。该文提出了一种结合结构索引、倒排表的策略、连接路径表达式的查询算法,有效地降低了实际执行的代价,提高了查询速度。
关键词 XML 结构索引 倒排表 路径达式
在线阅读 下载PDF
n-Gram/2L索引结构的存储与时间优化算法 被引量:2
15
作者 刘凤晨 刘庆文 +1 位作者 胡玥 黄河 《计算机工程与应用》 CSCD 北大核心 2008年第5期180-183,共4页
对分词检索算法n-Gram/2L的索引结构作了改进,在第二级倒排表中加入对文章标识的索引,提出一种基于Zigzag的分词检索算法n-Gram/2LZ(n-Gram/2LonZigzagjoin)。在对数据量较大的文章进行检索和索引时,该算法在保留原有算法特性的基础上... 对分词检索算法n-Gram/2L的索引结构作了改进,在第二级倒排表中加入对文章标识的索引,提出一种基于Zigzag的分词检索算法n-Gram/2LZ(n-Gram/2LonZigzagjoin)。在对数据量较大的文章进行检索和索引时,该算法在保留原有算法特性的基础上进一步减少了索引冗余,降低了索引的存储量,同时对查询算法的优化降低了查询时的系统开销,并且减少索引中记录访问次数,提高了查询效率。 展开更多
关键词 算法 索引 N-GRAM 倒排表
在线阅读 下载PDF
基于动态文档集的索引技术 被引量:1
16
作者 潘隆禧 孙乐 《计算机应用研究》 CSCD 北大核心 2009年第1期15-18,共4页
倒排文件是全文检索中广泛使用的索引结构,对静态文档集合建立倒排索引的研究已有较长时间。随着计算机技术的发展,需要存储的数据越来越大。同时特定的应用领域如新闻搜索、桌面搜索等对实时更新性能要求较高,这需要使用有效的索引更... 倒排文件是全文检索中广泛使用的索引结构,对静态文档集合建立倒排索引的研究已有较长时间。随着计算机技术的发展,需要存储的数据越来越大。同时特定的应用领域如新闻搜索、桌面搜索等对实时更新性能要求较高,这需要使用有效的索引更新策略,也称动态索引。描述了常用的动态索引技术,并详细分析了其使用代价。 展开更多
关键词 倒排表 索引的建立 索引更新
在线阅读 下载PDF
随机跳跃索引:一种支持随机插入的可信赖索引
17
作者 刘凤晨 黄河 +1 位作者 刘庆文 丁永生 《计算机学报》 EI CSCD 北大核心 2009年第5期974-981,共8页
跳跃索引是一种可信赖性索引,但只能为严格单调递增的序列建立索引,不能处理非顺序序列.为了解决这个问题,文中提出了一种新的索引,它可以对任意顺序的序列建立索引,并且依然保证索引的可信赖性.通过在原有跳跃索引结构中加入左侧跳跃... 跳跃索引是一种可信赖性索引,但只能为严格单调递增的序列建立索引,不能处理非顺序序列.为了解决这个问题,文中提出了一种新的索引,它可以对任意顺序的序列建立索引,并且依然保证索引的可信赖性.通过在原有跳跃索引结构中加入左侧跳跃指针的方法,索引节点可以根据待加入节点值的大小将其纳入自己的左侧或右侧指针以处理随机序列;索引结构中的每一个节点到根节点的路径固定且唯一,保证了索引的可信赖性.实验结果和理论证明都表明该索引是可以处理随机序列的可信赖索引,相对原有索引,索引建立复杂度明显降低且具有相同的查找复杂度.文中的创新之处是在保证索引的可信赖性的基础上解决了跳跃索引不能为随机序列建立索引的问题. 展开更多
关键词 可信赖性 倒排表 索引 B+树 检索 算法
在线阅读 下载PDF
一种XML数据库上谓词“Contain”的实现方法
18
作者 施立晨 何震瀛 +1 位作者 汪卫 施伯乐 《计算机应用与软件》 CSCD 2009年第4期1-4,16,共5页
路径表达式查询是XML数据查询处理的核心研究问题之一,研究者开展了大量的研究工作。但这些研究更多关注XML数据上路径表达式的匹配,忽略了谓词"包含"。研究XML查询处理中谓词"包含"的查询处理方法。采用了两种方法... 路径表达式查询是XML数据查询处理的核心研究问题之一,研究者开展了大量的研究工作。但这些研究更多关注XML数据上路径表达式的匹配,忽略了谓词"包含"。研究XML查询处理中谓词"包含"的查询处理方法。采用了两种方法,第一种是采用跳跃表的方法,在XML分枝模式匹配时动态地对结点数据进行读取和关键字匹配。第二种是为XML文档中的词语建立倒排索引,来实现关键字的匹配。并从分枝模式路径长度、查询关键的数量和"包含"谓词判断结点的类型,对两种方法进行了分析和比较。 展开更多
关键词 XML 关键词匹配 跳跃 倒排表
在线阅读 下载PDF
大数据环境下Lucene性能优化方法研究 被引量:2
19
作者 马旸 蔡冰 《南京理工大学学报》 EI CAS CSCD 北大核心 2015年第3期260-265,共6页
为提高大数据环境下的数据查询分析效率,该文结合内存计算技术和批量更新技术提出一种优化倒排索引方法——内存磁盘索引(RFDirectory)。基于Lucene实现内存和磁盘相结合的倒排表管理技术。将新增数据写入缓存中,并周期性地写入磁盘索... 为提高大数据环境下的数据查询分析效率,该文结合内存计算技术和批量更新技术提出一种优化倒排索引方法——内存磁盘索引(RFDirectory)。基于Lucene实现内存和磁盘相结合的倒排表管理技术。将新增数据写入缓存中,并周期性地写入磁盘索引结构中,从而提升倒排索引的写入性能。通过整合磁盘和内存的多分块倒排结构,为用户提供高效的数据查询分析结果。实验结果表明:在大数据环境下,RFDirectory方法的索引构建时间缩短为磁盘索引(FSDirectory)、内存索引(RAMDirectory)方法索引构建时间的50%,返回1个关键字的检索结果耗时缩短了近15%。 展开更多
关键词 大数据 LUCENE 内存计算 批量更新 倒排索引 倒排表 缓存 内存索引 磁盘索引 多分块倒排结构
在线阅读 下载PDF
基于混合云架构的深度语义密文检索 被引量:2
20
作者 李剑 矫健 《计算机应用研究》 CSCD 北大核心 2022年第10期3146-3150,共5页
针对传统的云环境下密文检索方案基于统计学模型来生成文件向量和检索向量,并没有考虑文件和请求的深层次语义信息,提出一种基于混合云架构的深层次语义密文检索模型。通过私有云联邦学习神经网络模型构建向量生成模型,通过公有云存储... 针对传统的云环境下密文检索方案基于统计学模型来生成文件向量和检索向量,并没有考虑文件和请求的深层次语义信息,提出一种基于混合云架构的深层次语义密文检索模型。通过私有云联邦学习神经网络模型构建向量生成模型,通过公有云存储密文数据。另外,提出密倒排索引表来存放文件向量,在公有云的检索过程中,保证检索信息不被泄露的情况下提高检索的效率。对真实数据集的分析和实验表明,提出的方案在安全性和搜索效率方面都优于目前同类型的密文检索方案。 展开更多
关键词 密文检索 混合云 联邦学习 加密倒排索引
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部