期刊文献+
共找到28篇文章
< 1 2 >
每页显示 20 50 100
PLTree:一个高性能持久化内存学习索引
1
作者 张志国 谢钟乐 +1 位作者 陈珂 寿黎但 《软件学报》 北大核心 2025年第5期2321-2341,共21页
持久化内存(persistent memory,PM)作为主存的补充和替代,为数据存储提供了相对较低的价格成本,并且保证了数据的持久化.为PM设计的传统结构索引(如B+树等)未能充分利用数据分布特点来发挥索引在PM上的读写性能.最近的研究尝试利用学习... 持久化内存(persistent memory,PM)作为主存的补充和替代,为数据存储提供了相对较低的价格成本,并且保证了数据的持久化.为PM设计的传统结构索引(如B+树等)未能充分利用数据分布特点来发挥索引在PM上的读写性能.最近的研究尝试利用学习索引的数据分布感知能力提升索引在PM上的读写性能并实现持久化.但在面对真实世界的数据时,现有基于PM的持久化学习索引的数据结构设计会导致额外的内存访问,从而影响读写性能.针对PM学习索引在面对真实数据时读写性能下降的问题,提出一种DRAM/PM混合架构的学习索引PLTree.它通过以下方法提升在PM上的读写性能并减轻数据分布颠簸对性能的影响:(1)使用两阶段方法构建索引消除内部节点的局部搜索,减少PM的访问.(2)利用模型搜索来优化PM上的查找性能并通过在DRAM存储元数据加速查找.(3)根据PM的特性设计了日志式分层溢出缓存结构,优化写入性能.实验结果表明,在不同数据集上,与现有的持久化内存索引(APEX,FPTree,uTree,NBTree和DPTree)相比,PLTree在索引构建性能上平均提升了约1.9–34倍;单线程查询/插入性能平均提升了约1.26–4.45倍和2.63–6.83倍;在多线程场景,查询/插入性能最高提升了约10.2倍和23.7倍. 展开更多
关键词 学习索引 持久化内存 持久化内存索引 数据库
在线阅读 下载PDF
基于道格拉斯-普克算法的路网轨迹学习索引结构
2
作者 缪祝青 韩京宇 +3 位作者 李彩云 王彦之 毛毅 张怡婷 《计算机科学》 北大核心 2025年第8期136-145,共10页
近年来,基于位置服务的技术迅猛发展,产生了海量的路网轨迹数据。而路径范围查询作为一种路网轨迹查询类型,是支持其他查询类型的基础。为了实现对海量路网轨迹数据的高效索引,同时提供精确的路径范围查询服务,提出了一种基于道格拉斯-... 近年来,基于位置服务的技术迅猛发展,产生了海量的路网轨迹数据。而路径范围查询作为一种路网轨迹查询类型,是支持其他查询类型的基础。为了实现对海量路网轨迹数据的高效索引,同时提供精确的路径范围查询服务,提出了一种基于道格拉斯-普克算法的学习型索引结构(Douglas-Peuker Based Learned Index Structure,DPLI)。首先将轨迹数据分为多个轨迹段,然后取轨迹段中的点作为轨迹数据的表征,利用映射函数将其映射为一维映射值序列,而后根据键值数量将其划分为多个数据分片。在分片内将首尾数据组成一条线段,然后计算其余数据点距离线段的拟合误差,将超过误差阈值的数据点作为新的线段端点,递归分割原有的直线段,直到所有数据点的拟合误差小于阈值,从而拟合分段线性函数。采用多个路网数据和轨迹数据进行了充分的实验,实验结果表明:与传统索引方法相比,DPLI具有更快的构建效率和磁盘访问效率;与学习索引方法相比,DPLI保持了构建效率的优势,并且达到了100%查询召回率。 展开更多
关键词 位置服务 路网轨迹 学习索引 范围查询 道格拉斯-普克算法
在线阅读 下载PDF
APLI:一种基于持久化内存的高性能学习索引 被引量:1
3
作者 王中华 赖必梁 +2 位作者 赵泽阳 鲁凯 万继光 《小型微型计算机系统》 CSCD 北大核心 2024年第9期2110-2118,共9页
持久化内存(Persistent Memory,PM)已成为容量有限的DRAM的最有潜力的补充或者替代品.学习索引(Learned Index,LI)作为一种感知数据分布的索引结构,在大数据集上能够以较小的内存使用量展现远优于B+树的性能而被广泛关注.最近,一些研究... 持久化内存(Persistent Memory,PM)已成为容量有限的DRAM的最有潜力的补充或者替代品.学习索引(Learned Index,LI)作为一种感知数据分布的索引结构,在大数据集上能够以较小的内存使用量展现远优于B+树的性能而被广泛关注.最近,一些研究者尝试将学习索引部署在持久化内存中,然而现有的持久化学习索引存在读写性能次优化、结构扩展性不足、动态负载性能不统一等问题.为此,本文在深入分析了持久化内存和学习索引特性的基础上,提出了一种自适应的持久化学习索引结构APLI.APLI由两部分组成:1)高效的混合介质的持久化学习索引树(EPL-Tree),提供稳定的读写性能和结构扩展;2)轻量级的哈希表(SW-Table),用于快速感知负载变化并提升热点访问的性能.在持久化内存真实设备上的评估表明,相比现有的持久化索引结构,APLI读写性能最高分别提升3.2倍和3.3倍,而且拥有更稳定的结构扩展性能.另外,APLI能在较小的DRAM空间占用前提下,实现各种负载场景下的稳定高性能访问. 展开更多
关键词 非易失内存 索引结构 学习索引 持久化索引 键值存储
在线阅读 下载PDF
基于改进的K-means聚类分区均匀化空间学习索引 被引量:1
4
作者 傅晨华 张丰 +1 位作者 胡林舒 王立君 《浙江大学学报(理学版)》 CAS CSCD 北大核心 2024年第2期153-161,195,共10页
传统空间索引的体量随数据量的增加而膨胀,查询效率较低。学习索引的体量不随数据量的增加而膨胀,同时避免了层级比较查询,性能优异。将学习索引应用于空间索引存在2个难点:一是选取合适的降维方法实现空间数据的排序;二是对降维后数据... 传统空间索引的体量随数据量的增加而膨胀,查询效率较低。学习索引的体量不随数据量的增加而膨胀,同时避免了层级比较查询,性能优异。将学习索引应用于空间索引存在2个难点:一是选取合适的降维方法实现空间数据的排序;二是对降维后数据序列进行有效的简化分布计算,使其易于拟合。基于此,提出了一种网格混合聚类分区学习索引(grid-ml),用z曲线进行降维,用双层网格结构优化查询策略,用改进的K-means聚类算法进行数据分区,实现数据分布均匀化。对比实验发现,grid-ml构建速度快、存储空间小、查询效率高,较传统空间索引优势显著。 展开更多
关键词 学习索引 K-MEANS聚类 空间填充曲线 空间索引
在线阅读 下载PDF
基于分区层次图的海量高维数据学习索引构建方法
5
作者 华悦琳 周晓磊 +2 位作者 范强 王芳潇 严浩 《计算机工程与科学》 CSCD 北大核心 2024年第7期1193-1201,共9页
学习索引是破解海量高维数据近似最近邻搜索问题的关键。然而,现有学习索引技术结果仅局限于单个分区中,且依赖于近邻图的构建。随着数据维度和规模的增长,索引难以对分区边界数据进行精确判断,并且构建时间复杂度增大,可扩展性难以保... 学习索引是破解海量高维数据近似最近邻搜索问题的关键。然而,现有学习索引技术结果仅局限于单个分区中,且依赖于近邻图的构建。随着数据维度和规模的增长,索引难以对分区边界数据进行精确判断,并且构建时间复杂度增大,可扩展性难以保障。针对上述问题,提出了基于分区层次图的学习索引方法PBO-HNSW。该方法对分区边界数据进行重新分配,并行构建分布式图索引结构,从而有效应对近似最近邻搜索问题所面临的挑战。实验结果表明,该方法能够在百万级海量高维数据上实现毫秒级的索引构建。当召回率为0.93时,PBO-HNSW方法构建时间仅为基线方法的36.4%。 展开更多
关键词 近似最近邻搜索 学习索引 层次可导航小世界图 分区学习 索引结构
在线阅读 下载PDF
GDLIN:一种利用梯度下降的学习索引 被引量:2
6
作者 陈珊珊 高隽 马振禹 《计算机科学》 CSCD 北大核心 2023年第S01期527-532,共6页
在大数据时代,数据访问速度是衡量大规模存储系统性能的一个重要指标,而索引是用于提升数据库系统中数据存取性能的主要技术之一。近几年,使用机器学习模型代替B+树等传统索引,拟合数据分布规律,将数据的间接查找优化为函数直接计算的... 在大数据时代,数据访问速度是衡量大规模存储系统性能的一个重要指标,而索引是用于提升数据库系统中数据存取性能的主要技术之一。近几年,使用机器学习模型代替B+树等传统索引,拟合数据分布规律,将数据的间接查找优化为函数直接计算的学习索引(Learned Index,LI)被提出,LI提高了查询的速度,减少了索引空间开销。但是LI的拟合误差较大,不支持插入等修改性操作。文中提出了一种利用梯度下降算法拟合数据的学习索引模型GDLIN(A Learned Index By Gradient Descent)。GDLIN利用梯度下降算法更好地拟合数据,减少拟合误差,缩短本地查找的时间;同时递归调用数据拟合算法,充分利用键的分布规律,构建上层结构,避免索引结构随着数据量而增大。另外,GDLIN利用链表解决LI不支持数据插入的问题。实验结果表明,GDLIN在无新数据插入的情况下,吞吐量是B+树的2.1倍;在插入操作占比为50%的情况下,是LI的1.08倍。 展开更多
关键词 学习索引 梯度下降 拟合数据模型 链表
在线阅读 下载PDF
基于中间层的可扩展学习索引技术 被引量:15
7
作者 高远宁 叶金标 +2 位作者 杨念祖 高晓沨 陈贵海 《软件学报》 EI CSCD 北大核心 2020年第3期620-633,共14页
在大数据与云计算时代,数据访问速度是衡量大规模存储系统性能的一个重要指标.因此,如何设计一种轻量、高效的数据索引结构,从而满足系统高吞吐率、低内存占用的需求,是当前数据库领域的研究热点之一.Kraska等人提出使用机器学习模型代... 在大数据与云计算时代,数据访问速度是衡量大规模存储系统性能的一个重要指标.因此,如何设计一种轻量、高效的数据索引结构,从而满足系统高吞吐率、低内存占用的需求,是当前数据库领域的研究热点之一.Kraska等人提出使用机器学习模型代替传统的B树索引,并在真实数据集上取得了不错的效果,但其提出的模型假设工作负载是静态的、只读的,对于索引更新问题没有提出很好的解决办法.提出了基于中间层的可扩展的学习索引模型Dabble,用来解决索引更新引发的模型重训练问题.首先,Dabble模型利用K-Means聚类算法将数据集划分为K个区域,并训练K个神经网络分别学习不同区域的数据分布.在模型训练阶段,创新性地把数据的访问热点信息融入到神经网络中,从而提高模型对热点数据的预测精度.在数据插入时,借鉴了LSM树延迟更新的思想,提高了数据写入速度.在索引更新阶段,提出一种基于中间层的机制将模型解耦,从而缓解由于数据插入带来的模型更新问题.分别在Lognormal数据集以及Weblogs数据集上进行实验验证,结果表明,与当前先进的方法相比,Dabble模型在查询以及索引更新方面都取得了非常好的效果. 展开更多
关键词 学习索引 聚类 神经网络 动态更新
在线阅读 下载PDF
基于大页内存的学习索引内存分配策略 被引量:2
8
作者 官嘉林 朱艳 +2 位作者 吴庭亮 陈艳 张敬伟 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第2期73-81,共9页
大数据时代,数据信息的不断膨胀给数据的快速存取带来了巨大挑战.因此,设计一种高效的索引结构具有重要意义. ALEX (updatable adaptive learned index)是一种利用机器学习模型代替传统B-树索引结构的学习索引,具有较好的时间、空间性能... 大数据时代,数据信息的不断膨胀给数据的快速存取带来了巨大挑战.因此,设计一种高效的索引结构具有重要意义. ALEX (updatable adaptive learned index)是一种利用机器学习模型代替传统B-树索引结构的学习索引,具有较好的时间、空间性能,但存在频繁的缺页中断问题.为解决此问题,进一步提升ALEX性能,在ALEX基础上提出了一种基于大页内存的内存预分配策略,较好地降低了内存缺页中断率,提升了ALEX性能.在内存分配阶段,采用预分配策略;在内存回收阶段,则采用延迟释放策略.在Longitudes数据集上的实验表明,该策略具有良好的效果. 展开更多
关键词 学习索引 大页内存 数据存取
在线阅读 下载PDF
基于学习索引的图式区块链高效可验证查询机制 被引量:1
9
作者 常健 林立成 +2 位作者 李彬弘 肖江 金海 《计算机研究与发展》 EI CSCD 北大核心 2023年第11期2455-2468,共14页
区块链技术近年来受到了广泛关注,并应用于各个领域,数据查询是其在应用过程的一个重要技术,如物流链中的数据溯源等.随着区块链系统中交易数据量的持续增长,支持高并发事务处理的图式区块链成为区块链技术的研究热点.图式区块链的高并... 区块链技术近年来受到了广泛关注,并应用于各个领域,数据查询是其在应用过程的一个重要技术,如物流链中的数据溯源等.随着区块链系统中交易数据量的持续增长,支持高并发事务处理的图式区块链成为区块链技术的研究热点.图式区块链的高并发区块使得数据查询难以像传统链式结构依次遍历,可以根据图式结构采用广度优先或深度优先遍历策略,但这种查询方式存在效率低、验证难等问题.针对图式区块链数据查询的效率和可验证性问题,提出了一种基于学习索引的高效可验证的图式区块链查询机制Lever.该机制通过引入学习索引技术对图式区块链中时序数据分布特征进行学习以实现对索引过程的优化,旨在提高图式区块链查询的效率和可验证性.学习索引是通过学习数据分布来减少索引存储空间和查询时间的新型索引技术,将学习索引应用于图式区块链的纪元高度与时间戳的映射关系中,通过函数运算的方式定位查询数据,提高查询速度和效率.同时,为了加快纪元内多个区块数据的过滤速度,在每个区块头部添加布隆过滤器,并为每个纪元生成一个聚合布隆过滤器,从而提高纪元内的数据遍历速度.此外,为保证查询结果的正确性和完整性,该机制结合布隆过滤器和排序默克尔树生成可验证对象,通过部分默克尔树分支实现对布隆过滤器假阳性的不存在证明,有效减小验证对象的规模,从而提高图式区块链查询过程的数据传输效率.实验结果表明,Lever能有效提高基于DAG的图式区块链查询效率和可验证性,与Conflux的基本查询机制相比,该机制的查询性能最高提升了10倍,可验证对象大小开销可以降低90%. 展开更多
关键词 图式区块链 可验证查询 学习索引 聚合布隆过滤器 排序默克尔树
在线阅读 下载PDF
LI-Tree:一个基于非易失性内存和轻量级B+树的学习索引 被引量:1
10
作者 王中华 舒碧华 +3 位作者 陈书宁 刘瀚阳 崔秋 万继光 《小型微型计算机系统》 CSCD 北大核心 2023年第6期1329-1337,共9页
大数据背景下剧增的数据给经典的内存索引技术带来了巨大挑战,为了实现对海量数据的高性能索引,工业界和学术界分别从设备和结构角度推出了高性能大容量的非易失型内存(Non-Volatile Memory,NVM)和受机器学习启发的学习索引(Learned Ind... 大数据背景下剧增的数据给经典的内存索引技术带来了巨大挑战,为了实现对海量数据的高性能索引,工业界和学术界分别从设备和结构角度推出了高性能大容量的非易失型内存(Non-Volatile Memory,NVM)和受机器学习启发的学习索引(Learned Index,LI).然而目前基于NVM的学习索引结构的相关研究非常稀少,在如何结合NVM和LI来高效地索引海量数据方面还有许多问题需要解决.本文提出了一种基于NVM的新型智能索引结构LI-Tree,充分发挥了两者的优势.具体的,LI-Tree可分为三层:由机器学习模型组成的能够提高LI-Tree单点性能的模型层、由静态数组构成的减少NVM写的数据索引层和由一系列轻量级B+树组成以避免模型层插入时频繁重训练的数据层.在真实设备上评估表明,LI-Tree相比传统B+树,插入、查询和删除性能分别提高了70%、30%和130%.另外,LI-Tree与学习索引结构ALEX,PGM-Index和XIndex对比,插入性能分别提升了80%,130%和150%. 展开更多
关键词 非易失内存 索引结构 学习索引 B+树 键值存储
在线阅读 下载PDF
学习索引研究综述 被引量:1
11
作者 王艺潭 王一舒 袁野 《计算机科学》 CSCD 北大核心 2023年第1期1-8,共8页
大数据时代数据呈爆发式增长,传统索引结构难以处理庞大复杂的数据,为解决这一问题,学习索引应运而生,并成为当前数据库领域的研究热点之一。学习索引利用机器学习模型进行索引构建,通过对数据和物理位置之间的关系进行训练和学习得到... 大数据时代数据呈爆发式增长,传统索引结构难以处理庞大复杂的数据,为解决这一问题,学习索引应运而生,并成为当前数据库领域的研究热点之一。学习索引利用机器学习模型进行索引构建,通过对数据和物理位置之间的关系进行训练和学习得到学习模型,掌握二者之间的分布特点和规律,从而实现对传统索引的改进和优化。大量实验表明,与传统索引相比,学习索引可以适应大规模数据集,提供更好的搜索性能,具有更低的空间要求。文中详细介绍了学习索引的应用背景,梳理了现有的学习索引模型;根据数据类型的不同,将学习索引分为一维和多维两种类别,并对每种类别中学习索引模型的优缺点和可以支持的查询进行了详细的介绍和分析;最后对学习索引的未来研究方向进行了展望,以期为相关研究提供参考。 展开更多
关键词 学习索引 机器学习 索引构建 数据结构 数据库
在线阅读 下载PDF
基于细粒度缓存与学习型索引的LSM树键值存储系统性能优化
12
作者 许睿达 李永坤 许胤龙 《计算机科学》 北大核心 2025年第2期33-41,共9页
在数据量飞速增长的大数据时代背景下,基于日志结构合并树的(Log-Structured Merge-Tree-based,LSM-Tree-based)键值存储系统因其优秀的灵活性与扩展性被广泛应用于NoSQL系统。但是,传统的LSM-Tree结构键值存储系统在查询数据时,因搜索... 在数据量飞速增长的大数据时代背景下,基于日志结构合并树的(Log-Structured Merge-Tree-based,LSM-Tree-based)键值存储系统因其优秀的灵活性与扩展性被广泛应用于NoSQL系统。但是,传统的LSM-Tree结构键值存储系统在查询数据时,因搜索多个SSTable引起的读放大问题会产生额外的I/O开销,影响系统性能。针对这一问题,提出了一种新型键值存储系统优化设计方案——FCLI-LSM。FCLI-LSM结合了细粒度键值对缓存和学习型索引的优化方法,旨在提升基于LSM-Tree结构的键值存储系统的查询性能。通过对数据访问热点的分析,FCLI-LSM对数据进行热、温、冷数据的三级分级。FCLI-LSM为热数据设计了基于键值分离的细粒度缓存机制,有效减少了读放大问题带来的额外I/O开销;此外,还设计了一种针对学习型索引的缓存亲和优化,进一步提高了存储系统对温数据的查询效率。实验结果表明,与现有的查询优化方案相比,FCLI-LSM能带来超过40%的平均查询时延下降以及超过1.7倍的系统吞吐率提升。 展开更多
关键词 大数据 键值存储系统 日志结构合并树 学习索引 缓存
在线阅读 下载PDF
DRAMA:更新分布感知的学习型索引
13
作者 郭娜 王雅琪 +2 位作者 姜皓南 谷峪 夏秀峰 《软件学报》 北大核心 2025年第8期3769-3786,共18页
学习型索引因其低内存占用和高查询性能的特点,正辅助或逐步取代传统的索引结构.然而,数据更新导致的在线重新训练使其无法适应数据频繁更新的场景.为了在不过多消耗内存的前提下尽量避免由于数据频繁更新导致的索引重构,提出了一种自... 学习型索引因其低内存占用和高查询性能的特点,正辅助或逐步取代传统的索引结构.然而,数据更新导致的在线重新训练使其无法适应数据频繁更新的场景.为了在不过多消耗内存的前提下尽量避免由于数据频繁更新导致的索引重构,提出了一种自适应的感知更新分布学习型索引结构DRAMA.使用类LSM-Tree的延迟学习方式主动学习数据更新的分布特征;利用近似拟合技术快速建立更新分布模型;采用模型合并策略代替频繁的重训练过程;采用一种混合压缩技术降低索引中模型参数的内存占用率.在真实和合成的数据集上构建了索引并进行验证.结果表明,相比于传统索引和最先进的学习型索引,该索引可以在不额外消耗过多内存的情况下,有效降低数据更新环境下的查询延迟. 展开更多
关键词 学习索引 更新分布 压缩策略 延迟学习 近似拟合 模型合并
在线阅读 下载PDF
ZFT索引:基于分段线性回归的学习型多维索引
14
作者 王小丽 陈华辉 《计算机应用与软件》 北大核心 2024年第10期24-31,共8页
传统索引方式一般是一种通用的数据结构,不特别针对数据分布和特征设计或优化其索引方式,随着数据空间维度或数据量的增加,可能会导致存储消耗大且查询效率急剧下降。针对这些问题提出ZFT索引(Z-order Fiting-tree Index),它主要分为离... 传统索引方式一般是一种通用的数据结构,不特别针对数据分布和特征设计或优化其索引方式,随着数据空间维度或数据量的增加,可能会导致存储消耗大且查询效率急剧下降。针对这些问题提出ZFT索引(Z-order Fiting-tree Index),它主要分为离线和在线两个部分。离线构造部分使用Z-order曲线将多维空间中的数据点映射到一维空间中,构建线性回归模型学习映射后数据的分布与特征;在线部分完成点查询和范围查询。实验结果表明,ZFT索引的空间效率和查询效率明显优于传统的R树以及UB树,并且在范围查询和模型训练速度上都优于ZM索引。 展开更多
关键词 多维数据 学习索引 ZFT索引
在线阅读 下载PDF
机器学习赋能的多维数据查询处理研究综述 被引量:4
15
作者 马超红 郝新丽 +1 位作者 孟小峰 张旭康 《计算机学报》 北大核心 2025年第1期100-123,共24页
多维数据的查询和处理在数据库中普遍存在。高效的多维数据查询处理,一方面依赖于精细的索引结构,例如R-tree、KD-tree等被广泛应用;另一方面,也有诸多工作探索利用硬件优势设计高效的数据布局,即研究面向扫描的数据处理策略以及构建数... 多维数据的查询和处理在数据库中普遍存在。高效的多维数据查询处理,一方面依赖于精细的索引结构,例如R-tree、KD-tree等被广泛应用;另一方面,也有诸多工作探索利用硬件优势设计高效的数据布局,即研究面向扫描的数据处理策略以及构建数据概要,避免高代价地访问原始数据。然而,随着数字化社会的发展,网络Web服务更加普及,传感器网络无处不在,诸如网约车、电子地图等基于位置的服务愈发盛行,使得多维数据正在以前所未有的速度产生,对查询处理提出新的要求,包括更快的查询响应、更低的存储占用。近年来,机器学习包括深度学习算法不断优化,且计算机等硬件环境持续发展,为多维数据查询处理带来更多的优化契机,不仅降低查询执行时间,同时能够节省存储资源,取得显著性优势。因此,机器学习被广泛应用于构建更好的数据管理和数据分析任务解决方案。该文提出机器学习赋能的多维数据查询处理研究框架,一方面介绍机器学习模型对多维索引结构的优化和改进;另一方面,介绍机器学习对不依赖索引结构的查询处理任务的赋能研究,包括数据布局策略和数据概要研究。在总结已有研究现状的基础上,指出该领域面临的挑战和未来研究方向。 展开更多
关键词 查询处理 多维学习索引 数据布局 数据概要 机器学习
在线阅读 下载PDF
一种满足动态数据高频读写的高性能学习型索引
16
作者 郭娜 孙文礼 +3 位作者 王雅琪 蔡飞 姜皓南 夏秀峰 《小型微型计算机系统》 CSCD 北大核心 2024年第11期2808-2816,共9页
在诸多应用如目标跟踪定位服务和工厂生产线中的数据往往是大量且频繁变化的,这些数据需要被实时存储在数据库中并能够快速响应高频率读写,以备在后续环节中被及时处理.学习型索引由于其“低耗高效”的特点而被广泛应用,但现有的学习型... 在诸多应用如目标跟踪定位服务和工厂生产线中的数据往往是大量且频繁变化的,这些数据需要被实时存储在数据库中并能够快速响应高频率读写,以备在后续环节中被及时处理.学习型索引由于其“低耗高效”的特点而被广泛应用,但现有的学习型索引结构并不能很好地处理频繁变化的动态数据.针对此类频繁更新的动态数据,设计了一种新的高性能学习型索引HPLI,采用一种懒惰式内存释放策略来加速索引的更新;采用子区间独立的键值管理方法用于减少写放大;构建了一个分布转换模型来均衡学习型索引的查询性能与内存占用.对分布转换模型的参数进行压缩,用极少参数的非线性函数作为回归目标模型,可有效降低计算开销对索引性能的影响.实验结果表明,与目前最优的学习型索引结构相比,HPLI可在内存开销更小的情况下具备更好的性能. 展开更多
关键词 学习索引 内存释放策略 子区间独立 分布转换模型 非线性变换 参数压缩
在线阅读 下载PDF
双粒度空间存储位置调整的历史轨迹索引
17
作者 李彩云 韩京宇 +3 位作者 缪祝青 王彦之 毛毅 张怡婷 《小型微型计算机系统》 北大核心 2025年第8期1838-1846,共9页
为了支持历史轨迹数据的查询,通过学习型索引取代传统索引以减小索引存储代价和提升查询效率受到广泛关注.时空轨迹数据的分布不均匀,单粒度的模型不能兼容疏密不一致的轨迹数据;如果为每个周期数据分别构建一个模型,模型总存储大小线... 为了支持历史轨迹数据的查询,通过学习型索引取代传统索引以减小索引存储代价和提升查询效率受到广泛关注.时空轨迹数据的分布不均匀,单粒度的模型不能兼容疏密不一致的轨迹数据;如果为每个周期数据分别构建一个模型,模型总存储大小线性增长;如果只维护一个模型,模型性能通常会随着历史轨迹的增多而恶化.因此,提出一种双粒度空间存储位置调整的历史轨迹索引,包括嵌入空间识别、初始周期模型构建和后期存储位置调整3个阶段:首先,利用密度峰值聚类算法将所有轨迹数据根据其稀疏性划分到粗细粒度层,在每个粒度层上,利用希尔伯特曲线获取轨迹点的一维排序,保证时空邻近的轨迹点排序值也接近;接着,在初始周期数据上构建分段线性模型;最后,后期数据利用初始周期构建的分段线性模型预测存储位置,采用Kuhn-Munkres算法解决模型预测存储位置产生位置冲突的问题.模拟和真实数据集上的实验表明,与其它的学习型索引相比,不仅提升了查询性能,而且显著降低了索引大小和模型维护成本,有效地支持以读为主的历史轨迹数据查询. 展开更多
关键词 学习索引 密度峰值聚类 希尔伯特 Kuhn-Munkres算法
在线阅读 下载PDF
非易失内存的数据库索引结构综述
18
作者 蒋一赫 彭泽顺 +1 位作者 张岩峰 于戈 《小型微型计算机系统》 北大核心 2025年第9期2291-2304,共14页
非易失存储(Non-Volatile Memory,NVM)结合了动态随机访问存储器(DRAM)的高速存取特性和硬盘驱动器(HDD)或固态硬盘(SSD)的数据持久性,为传统存储和内存架构带来了革命性的变化.本文对NVM索引技术进行了综述,重点分析了NVM的关键特性和... 非易失存储(Non-Volatile Memory,NVM)结合了动态随机访问存储器(DRAM)的高速存取特性和硬盘驱动器(HDD)或固态硬盘(SSD)的数据持久性,为传统存储和内存架构带来了革命性的变化.本文对NVM索引技术进行了综述,重点分析了NVM的关键特性和各种主流索引结构的研究进展.首先,介绍了NVM的基本概念、工作原理以及其在数据中心和高性能计算中的应用.接着,详细探讨了几种主要的NVM索引结构,包括基于哈希、B+-Tree和Radix-Tree的索引结构,以及几种基于NVM的学习型索引和混合索引,分析了它们的设计特点、操作机制和应用场景.此外,本文还介绍了用于测试NVM索引性能的benchmark工具PiBench,包括其设计原理、测试指标和实际应用效果.通过这些分析,本文希望为NVM相关领域的研究人员和技术开发者提供有价值的参考,推动NVM技术在实际应用中的发展和普及,最终实现更高效、更可靠的数据存储系统. 展开更多
关键词 非易失存储 索引结构 哈希索引 B+-Tree Radix-Tree 学习索引 混合索引
在线阅读 下载PDF
智能数据库学习型索引研究综述 被引量:7
19
作者 蔡盼 张少敏 +3 位作者 刘沛然 孙路明 李翠平 陈红 《计算机学报》 EI CAS CSCD 北大核心 2023年第1期51-69,共19页
建立高效的索引结构是提升数据库存取性能的关键技术之一.在数据呈爆发式增长、海量聚集、高维复杂的大数据环境下,传统索引结构(例如B+树)处理海量数据时面临空间代价高、查询效率低、存取开销大等难题.学习型索引技术通过对底层数据... 建立高效的索引结构是提升数据库存取性能的关键技术之一.在数据呈爆发式增长、海量聚集、高维复杂的大数据环境下,传统索引结构(例如B+树)处理海量数据时面临空间代价高、查询效率低、存取开销大等难题.学习型索引技术通过对底层数据分布、查询负载等特征进行建模和学习,有效的提升了索引性能,并减少了访存空间开销.本文从学习型索引技术的基础模型入手,对RMI基础模型实现原理、构造和查询过程进行了分析,并总结了基础模型的优点和存在的问题;以此为基础,按照索引结构特点对学习型索引技术进行分类,从索引创建方式和更新策略两方面对学习型索引技术进行了系统梳理,并对比分析了典型学习型索引技术的优点及不足之处.另外,本文总结了学习型索引技术的扩展研究.最后,对学习型索引的未来研究方向进行了展望. 展开更多
关键词 机器学习 学习索引 索引结构 RMI模型 智能数据库
在线阅读 下载PDF
ALERT:基于Radix Tree的工作负载自适应学习型索引 被引量:2
20
作者 陈井爽 陈珂 +2 位作者 寿黎但 江大伟 陈刚 《软件学报》 EI CSCD 北大核心 2022年第12期4688-4703,共16页
学习型索引通过学习数据分布可以准确地预测数据存取的位置,在保持高效稳定的查询下,显著降低索引的内存占用.现有的学习型索引主要针对只读查询进行优化,而对插入和更新支持不足.针对上述挑战,设计了一种基于Radix Tree的工作负载自适... 学习型索引通过学习数据分布可以准确地预测数据存取的位置,在保持高效稳定的查询下,显著降低索引的内存占用.现有的学习型索引主要针对只读查询进行优化,而对插入和更新支持不足.针对上述挑战,设计了一种基于Radix Tree的工作负载自适应学习型索引ALERT.ALERT使用Radix Tree来管理不定长的分段,段内采用具有最大误差界的线性插值模型进行预测.同时,ALERT使用一种高效的插入缓冲来降低数据插入更新的代价.针对点查询和范围查询提出两种自适应重组优化方法,通过对工作负载进行感知,动态地调整插入缓冲的组织结构.经实验验证,ALERT与业界流行的学习型索引相比,构建时间平均降低了81%,内存占用平均降低了75%,在保持了优秀读性能的同时,使插入延迟平均降低了50%;此外,ALERT使用自适应重组优化能有效感知查询工作负载特征,与不使用自适应重组优化相比,查询延迟平均降低了15%. 展开更多
关键词 学习索引 自适应索引 机器学习 数据库
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部