期刊文献+
共找到191篇文章
< 1 2 10 >
每页显示 20 50 100
基于离散度分析的Top-k组合Skyline查询算法
1
作者 董雷刚 刘国华 +1 位作者 王鑫 崔晓微 《计算机应用与软件》 北大核心 2025年第2期72-80,共9页
现有的组合Skyline查询算法不能区分组合中数据的离散度,且输出结果集很大。针对这种情况,提出基于数据离散度分析的Top-k组合Skyline查询算法。提出基于权重的组合离散系数概念及其计算方法;设置分类器将组合划分至不同的组合队列;采... 现有的组合Skyline查询算法不能区分组合中数据的离散度,且输出结果集很大。针对这种情况,提出基于数据离散度分析的Top-k组合Skyline查询算法。提出基于权重的组合离散系数概念及其计算方法;设置分类器将组合划分至不同的组合队列;采用并行处理方式对各组合队列进行计算。实验结果表明,该算法可以根据用户自定义条件准确有效地返回结果,能满足实际应用的需要。 展开更多
关键词 组合Skyline 离散度分析 top-k 离散系数 分类器 并行处理
在线阅读 下载PDF
不确定时间序列Top-k窗口聚合查询方法
2
作者 张航 熊浩然 何震瀛 《计算机工程》 北大核心 2025年第7期161-170,共10页
近年来,如何分析挖掘不确定时间序列数据逐渐受到业界关注。Top-k查询作为数据库领域研究的热点问题,旨在从大规模数据中检索出最符合用户查询条件的前k项结果。然而,尽管Top-k查询在其他领域已被广泛应用,针对不确定时间序列的Top-k查... 近年来,如何分析挖掘不确定时间序列数据逐渐受到业界关注。Top-k查询作为数据库领域研究的热点问题,旨在从大规模数据中检索出最符合用户查询条件的前k项结果。然而,尽管Top-k查询在其他领域已被广泛应用,针对不确定时间序列的Top-k查询研究仍然较少。这种查询可以有效帮助用户从不确定时间序列提取重要信息。提出一种新的Top-k查询问题——不确定时间序列Top-k窗口聚合查询,并针对该问题给出高效的查询方法。这个查询可以作为一个基础工具,辅助用户探索和分析不确定时间序列数据。现有能够支持这个查询的方法均存在查询效率较低或所需存储空间过高的问题。针对该问题,提出一种基于子窗口拼接策略的两级Top-k查询方法,并提出高效计算阈值上界方法解决基于子窗口拼接策略引入的阈值计算复杂难题。该方法能够以较少的预计算存储空间,高效支持不确定时间序列Top-k窗口聚合查询。为了验证所提方法的有效性,在真实和人造数据集上进行实验。实验结果表明,所提方法与基于TA的Top-k查询方法相比,明显降低了预计算列表的存储空间;与基于遍历的FSEC-S方法相比,所提方法以及使用计算阈值上界优化方法的平均查询效率分别提升了7.27倍和20.04倍。 展开更多
关键词 不确定时间序列 top-k查询 窗口 聚合查询 有序列表 阈值
在线阅读 下载PDF
分布式网络中连续时间周期的全局top-K频繁流测量 被引量:1
3
作者 毛晨宇 黄河 +1 位作者 孙玉娥 杜扬 《计算机科学》 CSCD 北大核心 2024年第4期28-38,共11页
在分布式网络中,测量top-K频繁流对资源分配、安全监控等应用至关重要。现有的top-K频繁流测量工作存在不适用于测量分布式网络流量或只考虑单时间周期等局限。为此,提出了分布式网络中连续时间周期的全局top-K频繁流测量方案,在分布节... 在分布式网络中,测量top-K频繁流对资源分配、安全监控等应用至关重要。现有的top-K频繁流测量工作存在不适用于测量分布式网络流量或只考虑单时间周期等局限。为此,提出了分布式网络中连续时间周期的全局top-K频繁流测量方案,在分布节点中布置了紧凑的概率数据结构来记录网络流信息,每个时间周期结束后分布节点向中心节点发送必要信息,中心节点汇聚得到从测量开始至当前时间周期的全局top-K频繁流。考虑到每条流可能出现在一个或多个测量节点,使用了不同的方法来减少传输开销。对于每条流只会出现在单一节点的情况,采用传输分段最小值的方法来获得阈值,实验结果表明这种方法减少了全量传输超过50%的传输开销。对于每条流会出现在多个节点的情况,提出了多阶段无误差处理方法和单阶段快速处理方法,分别应对不能容忍误差的场景和实际高速网络流量,相比每个时间周期都使用已有单周期方法,传输开销的实验表现降低了两个数量级。最后还提出了一种利用历史平均增值信息降低通信延迟的方法,实验结果表明该方法有效降低了限制信息的平均相对误差。 展开更多
关键词 流量测量 top-k频繁流 分布式网络 连续时间周期 SKETCH
在线阅读 下载PDF
一次性条件下top-k高平均效用序列模式挖掘算法 被引量:2
4
作者 杨克帅 武优西 +2 位作者 耿萌 刘靖宇 李艳 《计算机应用》 CSCD 北大核心 2024年第2期477-484,共8页
针对传统序列模式挖掘(SPM)不考虑模式重复性且忽略各项的效用(单价或利润)与模式长度对用户兴趣度影响的问题,提出一次性条件下top-k高平均效用序列模式挖掘(TOUP)算法。TOUP算法主要包括两个核心步骤:平均效用计算和候选模式生成。首... 针对传统序列模式挖掘(SPM)不考虑模式重复性且忽略各项的效用(单价或利润)与模式长度对用户兴趣度影响的问题,提出一次性条件下top-k高平均效用序列模式挖掘(TOUP)算法。TOUP算法主要包括两个核心步骤:平均效用计算和候选模式生成。首先,提出基于各项出现位置与项重复关系数组的CSP(Calculation Support of Pattern)算法计算模式支持度,从而实现模式平均效用的快速计算;其次,采用项集扩展和序列扩展生成候选模式,并提出了最大平均效用上界,基于该上界实现对候选模式的有效剪枝。在5个真实数据集和1个合成数据集上的实验结果表明,相较于TOUP-dfs和HAOP-ms算法,TOUP算法的候选模式数分别降低了38.5%~99.8%和0.9%~77.6%;运行时间分别降低了33.6%~97.1%和57.9%~97.2%。TOUP的算法性能更优,能更高效地挖掘用户感兴趣的模式。 展开更多
关键词 数据挖掘 序列模式挖掘 高平均效用 一次性条件 top-k
在线阅读 下载PDF
大图中多样化Top-k模式挖掘算法研究 被引量:1
5
作者 何宇昂 王欣 沈玲珍 《计算机科学》 CSCD 北大核心 2024年第5期70-84,共15页
频繁模式挖掘(Frequent Pattern Mining,FPM)是图数据挖掘领域的一项重要任务。该任务的目标是从图数据中找到出现频次大于给定阈值的所有模式。近年来,随着社交网络等大规模图数据的涌现,单一大图上的FPM问题受到广泛关注,并得到了较... 频繁模式挖掘(Frequent Pattern Mining,FPM)是图数据挖掘领域的一项重要任务。该任务的目标是从图数据中找到出现频次大于给定阈值的所有模式。近年来,随着社交网络等大规模图数据的涌现,单一大图上的FPM问题受到广泛关注,并得到了较为充分的研究,取得了一系列研究成果。然而,已有技术大都存在着计算成本高、挖掘结果理解困难以及并行计算难等问题。针对上述问题,文中提出了一种从大规模图数据中挖掘多样化top-k模式的方法。首先设计了一个多样化函数,用于度量模式集合的多样性;随后设计了一种面向分布式图数据,具有提前终止特性的分布式挖掘算法DisTopk,以实现多样化top-k模式高效挖掘。在真实图数据和合成图数据上进行了大量实验,结果表明,与传统分布式挖掘算法相比,DisTopk算法能更高效地挖掘多样化top-k模式。 展开更多
关键词 频繁模式挖掘 top-k模式 结果多样性 分布式挖掘 提前终止
在线阅读 下载PDF
无线传感器网络中能量高效的Top-k监测算法 被引量:7
6
作者 毕冉 李建中 《计算机研究与发展》 EI CSCD 北大核心 2014年第11期2361-2373,共13页
传感器节点由于电源能量耗尽的原因经常失效或废弃,因此研究无线传感网的高能效查询处理算法具有重要意义.Top-k监测返回k个最大(或最小)的感知值及相应的位置信息,可以帮助用户检测异常事件并定位发生异常事件的位置,对于用户具有重要... 传感器节点由于电源能量耗尽的原因经常失效或废弃,因此研究无线传感网的高能效查询处理算法具有重要意义.Top-k监测返回k个最大(或最小)的感知值及相应的位置信息,可以帮助用户检测异常事件并定位发生异常事件的位置,对于用户具有重要的实际意义.已有的Top-k查询处理算法致力于返回精确或近似的查询结果,通信能量开销较高.以最小化网内通信开销的期望为优化目标,提出了基于过滤器的Top-k监测算法.首先,提出了过滤器的健壮性并给出了通信开销模型;其次,根据期望的均值内涵和感知数据的时空相关性,给出了过滤器失败概率的计算公式;最后,以最小化通信开销的期望为优化目标,证明了健壮的过滤器的最优阈值,并提出了基于过滤器的Top-k监测算法(filter based Top-k monitoring algorithm,FTM).理论分析和实验结果验证了该算法的正确性以及低能耗性. 展开更多
关键词 无线传感器网络 最小化通信能量 top-k监测算法 滤波器 阈值
在线阅读 下载PDF
带间隔约束的Top-k对比序列模式挖掘 被引量:22
7
作者 杨皓 段磊 +3 位作者 胡斌 邓松 王文韬 秦攀 《软件学报》 EI CSCD 北大核心 2015年第11期2994-3009,共16页
对比序列模式能够表达序列数据集合间的差异,在商品推荐、用户行为分析和电力供应预测等领域有广泛的应用.已有的对比序列模式挖掘算法需要用户设定正例支持度阈值和负例支持度阈值.在不具备足够先验知识的情况下,用户难以设定恰当的支... 对比序列模式能够表达序列数据集合间的差异,在商品推荐、用户行为分析和电力供应预测等领域有广泛的应用.已有的对比序列模式挖掘算法需要用户设定正例支持度阈值和负例支持度阈值.在不具备足够先验知识的情况下,用户难以设定恰当的支持度阈值,从而可能错失一些对比显著的模式.为此,提出了带间隔约束的top-k对比序列模式挖掘算法k DSP-Miner(top-k distinguishing sequential patterns with gap constraint miner).k DSP-Miner中用户只需设置期望发现的对比最显著的模式个数,从而避免了直接设置对比支持度阈值.相应地,挖掘算法更容易使用,并且结果更易于解释.同时,为了提高算法执行效率,设计了若干剪枝策略和启发策略.进一步设计了k DSP-Miner的多线程版本,以提高其对高维序列元素情况的处理能力.通过在真实世界数据集上的详实实验,验证了算法的有效性和执行效率. 展开更多
关键词 序列模式 top-k 对比挖掘
在线阅读 下载PDF
TKEP:海量数据上一种有效的Top-K查询处理算法 被引量:16
8
作者 韩希先 杨东华 李建中 《计算机学报》 EI CSCD 北大核心 2010年第8期1405-1417,共13页
在许多应用领域中,top-k查询是一种十分重要的操作,它根据给定的评分函数在潜在的巨大的数据空间中返回k个最重要的对象.不同于传统的TA算法,NRA算法只需要顺序读就可以处理top-k查询,从而适合于随机读受限或不可能的场合.文中详细地分... 在许多应用领域中,top-k查询是一种十分重要的操作,它根据给定的评分函数在潜在的巨大的数据空间中返回k个最重要的对象.不同于传统的TA算法,NRA算法只需要顺序读就可以处理top-k查询,从而适合于随机读受限或不可能的场合.文中详细地分析了NRA算法的执行行为,确定了增长阶段和收缩阶段中每个文件需要扫描的元组个数.文中发现在海量数据环境中,NRA在增长阶段需要维护大量的候选元组,严重影响了算法的执行效率.所以,文中提出一种新的海量数据上的top-k查询算法TKEP,该算法在查询的增长阶段就执行早剪切,从而大大减少增长阶段需要维护的候选元组.文中给出了早剪切操作的数学分析,确定了早剪切操作的理论和实际剪切效果.据作者所知,该文是第一篇提出在top-k查询的增长阶段执行早剪切的文章.实验结果表明,和传统的NRA相比,TKEP在增长阶段维护的元组数量减少3个数量级,需要的内存量减少1个数量级,TKEP算法获得1个数量级的加速比. 展开更多
关键词 海量数据 top-k 早剪切 TKEP
在线阅读 下载PDF
一种云环境下的大数据Top-K查询方法 被引量:17
9
作者 慈祥 马友忠 孟小峰 《软件学报》 EI CSCD 北大核心 2014年第4期813-825,共13页
Top-K查询在搜索引擎、电子商务等领域有着广泛的应用.Top-K查询从海量数据中返回最符合用户需求的前K个结果,主要目的是消除信息过载带来的负面影响.大数据背景下的Top-K查询,给数据管理和分析等方面带来新的挑战.结合MapReduce的特点... Top-K查询在搜索引擎、电子商务等领域有着广泛的应用.Top-K查询从海量数据中返回最符合用户需求的前K个结果,主要目的是消除信息过载带来的负面影响.大数据背景下的Top-K查询,给数据管理和分析等方面带来新的挑战.结合MapReduce的特点,从数据划分、数据筛选等方面对云环境下的大数据Top-K查询问题进行深入研究.实验结果表明,该方法具有良好的性能和扩展性. 展开更多
关键词 top-k查询 云计算 MAPREDUCE
在线阅读 下载PDF
纯Peer to Peer环境下有效的Top-k查询 被引量:23
10
作者 何盈捷 王珊 杜小勇 《软件学报》 EI CSCD 北大核心 2005年第4期540-552,共13页
目前大多数的Peer-to-Peer(P2P)系统只支持基于文件标识的搜索,用户不能根据文件的内容进行搜索.Top-k查询被广泛地应用于搜索引擎中,获得了巨大的成功.可是,由于P2P系统是一个动态的、分散的系统,在纯的P2P环境下进行top-k查询是具有... 目前大多数的Peer-to-Peer(P2P)系统只支持基于文件标识的搜索,用户不能根据文件的内容进行搜索.Top-k查询被广泛地应用于搜索引擎中,获得了巨大的成功.可是,由于P2P系统是一个动态的、分散的系统,在纯的P2P环境下进行top-k查询是具有挑战性的.提出了一种基于直方图的分层top-k查询算法.首先,采用层次化的方法实现分布式的top-k查询,将结果的合并和排序分散到P2P网络中的各个节点上,充分利用了网络中的资源.其次,根据节点返回的结果为节点构建直方图,利用直方图估计节点可能的分数上限,对节点进行选择,提高了查询效率.实验证明,top-k查询提高了查询效果,而直方图则提高了查询效率. 展开更多
关键词 P2P网络 top-k查询 搜索 直方图
在线阅读 下载PDF
一种针对反向空间偏好top-k查询的高效处理方法 被引量:4
11
作者 李淼 谷峪 +1 位作者 陈默 于戈 《软件学报》 EI CSCD 北大核心 2017年第2期310-325,共16页
随着地理位置定位技术的蓬勃发展,基于在线位置服务技术的应用也越来越多.提出一种查询类型——反向空间偏好top-k查询.类似于传统的反向空间top-k查询,对于给定的空间查询对象,该查询返回使该对象满足top-k属性得分的那些用户.但不同的... 随着地理位置定位技术的蓬勃发展,基于在线位置服务技术的应用也越来越多.提出一种查询类型——反向空间偏好top-k查询.类似于传统的反向空间top-k查询,对于给定的空间查询对象,该查询返回使该对象满足top-k属性得分的那些用户.但不同的是,该对象的属性不是自身具有的特性,而是通过计算该对象与其他偏好对象之间的空间关系(如距离)而确定.这种查询在市场分析等许多重要领域具有需求,例如,根据查询结果,分析出某个地区中某个设施受欢迎的程度.但是,由于大量空间对象的存在导致对象之间空间关系的计算代价非常高,如何实时地计算出对象的空间属性得分,给查询处理带来很大的挑战.针对该问题提出优化的查询处理算法包括:数据集剪枝、数据集批量处理、基于权重的用户分组等策略.通过理论分析和充分的实验验证,证明了所提出方法的有效性.与普通方法相比,这些方法能够大幅度提高查询处理的执行时间和I/O效率. 展开更多
关键词 top-k查询 反向top-k查询 四叉树 分组 查询优化
在线阅读 下载PDF
海量空间数据的并行Top-k连接查询 被引量:7
12
作者 刘义 陈荦 +1 位作者 景宁 刘露 《计算机研究与发展》 EI CSCD 北大核心 2011年第S3期163-172,共10页
在许多空间应用领域中,Top-k空间连接查询是一种十分重要的操作,指定两个空间关系R和S,Top-k空间连接查询从R或S中返回k个与其他空间关系具有最大交叠数的结果.不同于Top-k查询,Top-k空间连接查询先执行空间连接操作,然后才执行Top-k查... 在许多空间应用领域中,Top-k空间连接查询是一种十分重要的操作,指定两个空间关系R和S,Top-k空间连接查询从R或S中返回k个与其他空间关系具有最大交叠数的结果.不同于Top-k查询,Top-k空间连接查询先执行空间连接操作,然后才执行Top-k查询.由于空间数据的海量特性和复杂性,传统的单机串行处理需要很长时间甚至不能完成.提出了一种新颖的基于MapReduce的Top-k空间连接查询处理算法TKSJMR.该算法在并行空间连接阶段执行部分聚集操作,减少数据写入和数据传输;在Top-k结果获取阶段提出一种Top-k结果获取算法,将结果聚集和Top-k结果获取缩减为一个阶段,减少MapReduce执行步骤.实验结果表明,该算法不仅在有效时间内解决单机上难以解决的海量空间数据的Top-k连接查询问题,并且TKSJMR在Top-k查询处理阶段性能提升了约50%. 展开更多
关键词 top-k空间连接 MAPREDUCE 冗余避免
在线阅读 下载PDF
XML数据流上Top-K关键字查询处理 被引量:8
13
作者 黎玲利 王宏志 +1 位作者 高宏 李建中 《软件学报》 EI CSCD 北大核心 2012年第6期1561-1577,共17页
利用关键字可以在模式未知的情况下对XML数据进行查询.在当前的XML数据流上的关键字查询处理中,打分函数往往不能都满足各种用户不同的需求.提出了一种基于skyline的XML数据流上的Top-K关键字查询.对于这种查询,不需要考虑影响结果与查... 利用关键字可以在模式未知的情况下对XML数据进行查询.在当前的XML数据流上的关键字查询处理中,打分函数往往不能都满足各种用户不同的需求.提出了一种基于skyline的XML数据流上的Top-K关键字查询.对于这种查询,不需要考虑影响结果与查询相关性的复杂因素,只需利用skyline挑选与查询最相关的结果.提出了两种XML数据流上的有效的基于skyline的Top-K关键查询处理算法,包括对单查询和多查询的处理算法.通过扩展实验对两种算法的有效性和可扩展性进行了验证.经过实验验证,所提出的查询处理算法的效率几乎不受关键字个数、查询结果数量、查询数量等参数的影响,运行时间和文档大小大致呈线性关系. 展开更多
关键词 XML 数据流 关键字查询 top-k SKYLINE
在线阅读 下载PDF
基于MapReduce的top-k高效用模式挖掘算法 被引量:7
14
作者 吴倩 王林平 +2 位作者 罗相洲 崔建群 王海 《计算机应用研究》 CSCD 北大核心 2017年第10期2897-2900,2932,共5页
高效用模式挖掘被广泛地应用于数据挖掘领域。为了挖掘指定数量的高效用模式,一些基于树结构和效用表结构的top-k高效用挖掘算法被提出,但前者在挖掘过程中产生了大量候选模式,后者在效用模式增长时需要进行多次比较;同时,由于在信息社... 高效用模式挖掘被广泛地应用于数据挖掘领域。为了挖掘指定数量的高效用模式,一些基于树结构和效用表结构的top-k高效用挖掘算法被提出,但前者在挖掘过程中产生了大量候选模式,后者在效用模式增长时需要进行多次比较;同时,由于在信息社会,数据量呈爆炸性增长,所以在数据集过大的情况下,挖掘高效用模式需以大量存储空间以及计算开销为代价。为了解决这两个问题,基于MapReduce的top-k高效用模式挖掘算法(TKHUP_MaR)被提出。该算法通过两次扫描数据库,利用三次MapReduce来实现并行top-k高效用模式的挖掘。通过实验表明TKHUP_MaR算法在并行挖掘top-k高效用模式的过程中是有效的。 展开更多
关键词 数据挖掘 top-k 高效用模式 MAPREDUCE 并行算法
在线阅读 下载PDF
基于内容过滤PageRank的Top-k学习资源匹配推荐 被引量:13
15
作者 梁婷婷 李春青 李海生 《计算机工程》 CAS CSCD 北大核心 2017年第2期220-226,共7页
针对在线教育支持技术中关于文本处理的多义词和同义词问题,提出基于内容过滤PageRank语义相似替换的Top-k学习资源推荐算法。基于内容的向量空间滤波建立学习资源过滤推荐模型,该模型采用资源间匹配方式以取代语义相似性,从而避免多义... 针对在线教育支持技术中关于文本处理的多义词和同义词问题,提出基于内容过滤PageRank语义相似替换的Top-k学习资源推荐算法。基于内容的向量空间滤波建立学习资源过滤推荐模型,该模型采用资源间匹配方式以取代语义相似性,从而避免多义词或同义词的漏检问题。基于谷歌PageRank算法结合前述资源间匹配模型构建考虑资源间关系连接的权重矩阵,取代传统PageRank算法网页间的超链接方式,进行资源类型划分,得到特征的马尔可夫收敛矩阵,并利用Top-k算法实现推荐结果细化。实验结果表明,在公共学习资源数据集中,所提算法对计算时间的覆盖率是可行的。 展开更多
关键词 内容过滤 PAGERANK算法 top-k排序 马尔可夫收敛矩阵 资源匹配
在线阅读 下载PDF
海量高维向量的并行Top-k连接查询 被引量:10
16
作者 马友忠 慈祥 孟小峰 《计算机学报》 EI CSCD 北大核心 2015年第1期86-98,共13页
在很多应用领域中,向量的Top-k连接查询是一种很重要的操作,给定两个向量集合R和S,Top-k连接查询要求从R和S中返回距离最小的前k个向量对.由于数据的海量性和高维特性,传统的集中式算法已经无法在可接受的时间内完成连接查询任务.MapRed... 在很多应用领域中,向量的Top-k连接查询是一种很重要的操作,给定两个向量集合R和S,Top-k连接查询要求从R和S中返回距离最小的前k个向量对.由于数据的海量性和高维特性,传统的集中式算法已经无法在可接受的时间内完成连接查询任务.MapReduce作为一个并行处理框架,能够有效地处理大规模数据.由于其高可扩展性、高可用性等特点,MapReduce已经成为海量数据处理的首选实现方案,在很多领域都得到了广泛的应用.文中基于分段累积近似法对高维向量进行降维,然后利用符号累积近似法对高维向量进行分组;在此基础上,结合MapReduce框架,提出了基于SAX的并行Top-k连接查询算法.实验表明,文中所提方案具有良好的性能和扩展性. 展开更多
关键词 高维向量 MAPREDUCE框架 top-k连接查询 大数据
在线阅读 下载PDF
基于扩展图规划的Top-K服务组合方法研究 被引量:6
17
作者 徐猛 崔立真 李庆忠 《电子学报》 EI CAS CSCD 北大核心 2012年第7期1404-1409,共6页
自动服务组合是目前云计算中的关键技术与研究热点.为大规模用户提供多个满足个性化需求的组合服务是当前云环境下自动服务组合中急需解决的问题.提出了基于扩展图规划的Top-K服务组合方法,借助服务索引和增加图规划中的辅助节点,使得... 自动服务组合是目前云计算中的关键技术与研究热点.为大规模用户提供多个满足个性化需求的组合服务是当前云环境下自动服务组合中急需解决的问题.提出了基于扩展图规划的Top-K服务组合方法,借助服务索引和增加图规划中的辅助节点,使得经过一次规划搜索即可找到Top-K个满足用户QoS要求的组合服务.实验表明,该方法能够有效提高服务组合的效率,并保证服务组合结果的正确性,更加适用于云计算环境下海量网络服务及大规模用户个性化需求的自动服务组合问题. 展开更多
关键词 服务组合 top-k 扩展图规划 辅助节点
在线阅读 下载PDF
差分隐私保护下一种精确挖掘top-k频繁模式方法 被引量:29
18
作者 张啸剑 王淼 孟小峰 《计算机研究与发展》 EI CSCD 北大核心 2014年第1期104-114,共11页
频繁模式挖掘是分析事务数据集常用技术.然而,当事务数据集含有敏感数据时(如用户行为记录、电子病例等),直接发布频繁模式及其支持度计数会给个人隐私带来相当大的风险.对此提出了一种满足ε-差分隐私的top-k频繁模式挖掘算法DP-topkP(... 频繁模式挖掘是分析事务数据集常用技术.然而,当事务数据集含有敏感数据时(如用户行为记录、电子病例等),直接发布频繁模式及其支持度计数会给个人隐私带来相当大的风险.对此提出了一种满足ε-差分隐私的top-k频繁模式挖掘算法DP-topkP(differentially private top-kpattern mining).该算法利用指数机制从候选频繁模式集合中挑选出top-k个携带真实支持度计数的模式;采用拉普拉斯机制产生的噪音扰动所选模式的真实支持度计数;为了增强输出模式的可用性,采用后置处理技术对top-k个模式的噪音支持度计数进行求精处理.从理论角度证明了该算法满足ε-差分隐私,并符合(λ,δ)-useful要求.实验结果证明了DP-topkP算法具有较好的准确性、可用性和可扩展性. 展开更多
关键词 频繁模式挖掘 top-k模式 差分隐私 拉普拉斯机制 指数机制
在线阅读 下载PDF
不确定性Top-K查询处理 被引量:56
19
作者 李文凤 彭智勇 李德毅 《软件学报》 EI CSCD 北大核心 2012年第6期1542-1560,共19页
高效Top-K查询处理在涉及大量数据交互的应用中是一项重要技术,随着应用中不确定性数据的大量涌现,不确定性数据的管理逐渐引起人们的重视.不确定性数据上Top-K查询从语义和处理上都呈现出与传统Top-K查询不同的特点.在主流不确定性数... 高效Top-K查询处理在涉及大量数据交互的应用中是一项重要技术,随着应用中不确定性数据的大量涌现,不确定性数据的管理逐渐引起人们的重视.不确定性数据上Top-K查询从语义和处理上都呈现出与传统Top-K查询不同的特点.在主流不确定性数据模型和可能世界语义模型下,学者们已经提出了多种不确定性Top-K查询的语义和处理方法.介绍了当前不确定性Top-K查询的研究工作,并对其进行分类,讨论包括语义、排序标准、算法以及应用等方面的技术.最后提出不确定性Top-K查询面临的挑战和下一步的发展方向. 展开更多
关键词 Top—K查询语义 top-k查询处理 排序标准 不确定性数据 可能世界
在线阅读 下载PDF
基于上下文偏好的Web数据库查询结果Top-K排序方法 被引量:6
20
作者 孟祥福 马宗民 +2 位作者 李昕 张霄雁 王星 《计算机学报》 EI CSCD 北大核心 2014年第9期1986-1998,共13页
为了解决Web数据库多查询结果的问题,该文提出了一种基于上下文偏好的查询结果top-k排序方法,首先提出了一种带偏好程度的上下文偏好模型:i_1>i_2,d|X,表示在上下文条件X下,项i_1与i_2相比,用户偏好项i_1的程度为d(0.5≤d≤1),带偏... 为了解决Web数据库多查询结果的问题,该文提出了一种基于上下文偏好的查询结果top-k排序方法,首先提出了一种带偏好程度的上下文偏好模型:i_1>i_2,d|X,表示在上下文条件X下,项i_1与i_2相比,用户偏好项i_1的程度为d(0.5≤d≤1),带偏好程度的上下文偏好通过在查询历史中使用关联规则挖掘获得.基于上下文偏好,提出了一种查询结果top-k排序方法,给出了相应的元组排列创建、聚类和top-k排序算法.实验结果表明,提出的上下文偏好模型具有较强的偏好表达能力,top-k排序方法能够较好地满足用户需求和偏好并且具有较高的执行效率. 展开更多
关键词 WEB数据库 上下文偏好 元组聚类 top-k排序
在线阅读 下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部