期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于细粒度缓存与学习型索引的LSM树键值存储系统性能优化
1
作者 许睿达 李永坤 许胤龙 《计算机科学》 北大核心 2025年第2期33-41,共9页
在数据量飞速增长的大数据时代背景下,基于日志结构合并树的(Log-Structured Merge-Tree-based,LSM-Tree-based)键值存储系统因其优秀的灵活性与扩展性被广泛应用于NoSQL系统。但是,传统的LSM-Tree结构键值存储系统在查询数据时,因搜索... 在数据量飞速增长的大数据时代背景下,基于日志结构合并树的(Log-Structured Merge-Tree-based,LSM-Tree-based)键值存储系统因其优秀的灵活性与扩展性被广泛应用于NoSQL系统。但是,传统的LSM-Tree结构键值存储系统在查询数据时,因搜索多个SSTable引起的读放大问题会产生额外的I/O开销,影响系统性能。针对这一问题,提出了一种新型键值存储系统优化设计方案——FCLI-LSM。FCLI-LSM结合了细粒度键值对缓存和学习型索引的优化方法,旨在提升基于LSM-Tree结构的键值存储系统的查询性能。通过对数据访问热点的分析,FCLI-LSM对数据进行热、温、冷数据的三级分级。FCLI-LSM为热数据设计了基于键值分离的细粒度缓存机制,有效减少了读放大问题带来的额外I/O开销;此外,还设计了一种针对学习型索引的缓存亲和优化,进一步提高了存储系统对温数据的查询效率。实验结果表明,与现有的查询优化方案相比,FCLI-LSM能带来超过40%的平均查询时延下降以及超过1.7倍的系统吞吐率提升。 展开更多
关键词 大数据 键值存储系统 日志结构合并树 学习型索引 缓存
在线阅读 下载PDF
DRAMA:更新分布感知的学习型索引
2
作者 郭娜 王雅琪 +2 位作者 姜皓南 谷峪 夏秀峰 《软件学报》 北大核心 2025年第8期3769-3786,共18页
学习型索引因其低内存占用和高查询性能的特点,正辅助或逐步取代传统的索引结构.然而,数据更新导致的在线重新训练使其无法适应数据频繁更新的场景.为了在不过多消耗内存的前提下尽量避免由于数据频繁更新导致的索引重构,提出了一种自... 学习型索引因其低内存占用和高查询性能的特点,正辅助或逐步取代传统的索引结构.然而,数据更新导致的在线重新训练使其无法适应数据频繁更新的场景.为了在不过多消耗内存的前提下尽量避免由于数据频繁更新导致的索引重构,提出了一种自适应的感知更新分布学习型索引结构DRAMA.使用类LSM-Tree的延迟学习方式主动学习数据更新的分布特征;利用近似拟合技术快速建立更新分布模型;采用模型合并策略代替频繁的重训练过程;采用一种混合压缩技术降低索引中模型参数的内存占用率.在真实和合成的数据集上构建了索引并进行验证.结果表明,相比于传统索引和最先进的学习型索引,该索引可以在不额外消耗过多内存的情况下,有效降低数据更新环境下的查询延迟. 展开更多
关键词 学习型索引 更新分布 压缩策略 延迟学习 近似拟合 模型合并
在线阅读 下载PDF
一种满足动态数据高频读写的高性能学习型索引
3
作者 郭娜 孙文礼 +3 位作者 王雅琪 蔡飞 姜皓南 夏秀峰 《小型微型计算机系统》 CSCD 北大核心 2024年第11期2808-2816,共9页
在诸多应用如目标跟踪定位服务和工厂生产线中的数据往往是大量且频繁变化的,这些数据需要被实时存储在数据库中并能够快速响应高频率读写,以备在后续环节中被及时处理.学习型索引由于其“低耗高效”的特点而被广泛应用,但现有的学习型... 在诸多应用如目标跟踪定位服务和工厂生产线中的数据往往是大量且频繁变化的,这些数据需要被实时存储在数据库中并能够快速响应高频率读写,以备在后续环节中被及时处理.学习型索引由于其“低耗高效”的特点而被广泛应用,但现有的学习型索引结构并不能很好地处理频繁变化的动态数据.针对此类频繁更新的动态数据,设计了一种新的高性能学习型索引HPLI,采用一种懒惰式内存释放策略来加速索引的更新;采用子区间独立的键值管理方法用于减少写放大;构建了一个分布转换模型来均衡学习型索引的查询性能与内存占用.对分布转换模型的参数进行压缩,用极少参数的非线性函数作为回归目标模型,可有效降低计算开销对索引性能的影响.实验结果表明,与目前最优的学习型索引结构相比,HPLI可在内存开销更小的情况下具备更好的性能. 展开更多
关键词 学习型索引 内存释放策略 子区间独立 分布转换模型 非线性变换 参数压缩
在线阅读 下载PDF
ALERT:基于Radix Tree的工作负载自适应学习型索引 被引量:3
4
作者 陈井爽 陈珂 +2 位作者 寿黎但 江大伟 陈刚 《软件学报》 EI CSCD 北大核心 2022年第12期4688-4703,共16页
学习型索引通过学习数据分布可以准确地预测数据存取的位置,在保持高效稳定的查询下,显著降低索引的内存占用.现有的学习型索引主要针对只读查询进行优化,而对插入和更新支持不足.针对上述挑战,设计了一种基于Radix Tree的工作负载自适... 学习型索引通过学习数据分布可以准确地预测数据存取的位置,在保持高效稳定的查询下,显著降低索引的内存占用.现有的学习型索引主要针对只读查询进行优化,而对插入和更新支持不足.针对上述挑战,设计了一种基于Radix Tree的工作负载自适应学习型索引ALERT.ALERT使用Radix Tree来管理不定长的分段,段内采用具有最大误差界的线性插值模型进行预测.同时,ALERT使用一种高效的插入缓冲来降低数据插入更新的代价.针对点查询和范围查询提出两种自适应重组优化方法,通过对工作负载进行感知,动态地调整插入缓冲的组织结构.经实验验证,ALERT与业界流行的学习型索引相比,构建时间平均降低了81%,内存占用平均降低了75%,在保持了优秀读性能的同时,使插入延迟平均降低了50%;此外,ALERT使用自适应重组优化能有效感知查询工作负载特征,与不使用自适应重组优化相比,查询延迟平均降低了15%. 展开更多
关键词 学习型索引 自适应索引 机器学习 数据库
在线阅读 下载PDF
智能数据库学习型索引研究综述 被引量:9
5
作者 蔡盼 张少敏 +3 位作者 刘沛然 孙路明 李翠平 陈红 《计算机学报》 EI CAS CSCD 北大核心 2023年第1期51-69,共19页
建立高效的索引结构是提升数据库存取性能的关键技术之一.在数据呈爆发式增长、海量聚集、高维复杂的大数据环境下,传统索引结构(例如B+树)处理海量数据时面临空间代价高、查询效率低、存取开销大等难题.学习型索引技术通过对底层数据... 建立高效的索引结构是提升数据库存取性能的关键技术之一.在数据呈爆发式增长、海量聚集、高维复杂的大数据环境下,传统索引结构(例如B+树)处理海量数据时面临空间代价高、查询效率低、存取开销大等难题.学习型索引技术通过对底层数据分布、查询负载等特征进行建模和学习,有效的提升了索引性能,并减少了访存空间开销.本文从学习型索引技术的基础模型入手,对RMI基础模型实现原理、构造和查询过程进行了分析,并总结了基础模型的优点和存在的问题;以此为基础,按照索引结构特点对学习型索引技术进行分类,从索引创建方式和更新策略两方面对学习型索引技术进行了系统梳理,并对比分析了典型学习型索引技术的优点及不足之处.另外,本文总结了学习型索引技术的扩展研究.最后,对学习型索引的未来研究方向进行了展望. 展开更多
关键词 机器学习 学习型索引 索引结构 RMI模型 智能数据库
在线阅读 下载PDF
基于区域划分与降维的高维学习型索引 被引量:3
6
作者 张少敏 蔡盼 +1 位作者 李翠平 陈红 《软件学报》 EI CSCD 北大核心 2023年第5期2413-2426,共14页
在数据量与数据复杂度不断增加的时代,大数据处理与分析成为当前的热门研究内容,高维空间数据的使用越来越频繁,数据检索和访问速度成了衡量数据处理系统性能的重要指标.因此,如何设计实现一种高效的高维索引结构,提高查询访问速率、降... 在数据量与数据复杂度不断增加的时代,大数据处理与分析成为当前的热门研究内容,高维空间数据的使用越来越频繁,数据检索和访问速度成了衡量数据处理系统性能的重要指标.因此,如何设计实现一种高效的高维索引结构,提高查询访问速率、降低内存占用,变得至关重要.近年,Kraska等人提出了学习型索引的方法.实验证明该方法在真实数据集上表现良好.之后机器学习与深度学习在数据库系统中的运用越来越广泛.众多研究者尝试在高维数据上构建学习型索引,来提升高维数据的查询速度.但是目前的高维学习型索引采用的方法并不能将数据分布的信息有效利用起来,而且过于复杂的深度学习模型使得索引初始化开销过大.结合空间区域划分与降维两种技术,提出一种新颖的高维学习型索引.它能更有效地利用数据分布信息提高索引的查询效率,并利用多段线性模型在保证查找精确度的前提下尽可能减少索引初始化的开销.分别在随机生成的数据集和开源街区地图数据集上进行实验验证.结果表明,与现有的高维索引相比,其在索引构建、查询效率、以及内存占用方面都有显著提高. 展开更多
关键词 学习型索引 高维数据 希尔伯特曲线 机器学习
在线阅读 下载PDF
PLTree:一个高性能持久化内存学习索引
7
作者 张志国 谢钟乐 +1 位作者 陈珂 寿黎但 《软件学报》 北大核心 2025年第5期2321-2341,共21页
持久化内存(persistent memory,PM)作为主存的补充和替代,为数据存储提供了相对较低的价格成本,并且保证了数据的持久化.为PM设计的传统结构索引(如B+树等)未能充分利用数据分布特点来发挥索引在PM上的读写性能.最近的研究尝试利用学习... 持久化内存(persistent memory,PM)作为主存的补充和替代,为数据存储提供了相对较低的价格成本,并且保证了数据的持久化.为PM设计的传统结构索引(如B+树等)未能充分利用数据分布特点来发挥索引在PM上的读写性能.最近的研究尝试利用学习索引的数据分布感知能力提升索引在PM上的读写性能并实现持久化.但在面对真实世界的数据时,现有基于PM的持久化学习索引的数据结构设计会导致额外的内存访问,从而影响读写性能.针对PM学习索引在面对真实数据时读写性能下降的问题,提出一种DRAM/PM混合架构的学习索引PLTree.它通过以下方法提升在PM上的读写性能并减轻数据分布颠簸对性能的影响:(1)使用两阶段方法构建索引消除内部节点的局部搜索,减少PM的访问.(2)利用模型搜索来优化PM上的查找性能并通过在DRAM存储元数据加速查找.(3)根据PM的特性设计了日志式分层溢出缓存结构,优化写入性能.实验结果表明,在不同数据集上,与现有的持久化内存索引(APEX,FPTree,uTree,NBTree和DPTree)相比,PLTree在索引构建性能上平均提升了约1.9–34倍;单线程查询/插入性能平均提升了约1.26–4.45倍和2.63–6.83倍;在多线程场景,查询/插入性能最高提升了约10.2倍和23.7倍. 展开更多
关键词 学习型索引 持久化内存 持久化内存索引 数据库
在线阅读 下载PDF
基于道格拉斯-普克算法的路网轨迹学习索引结构
8
作者 缪祝青 韩京宇 +3 位作者 李彩云 王彦之 毛毅 张怡婷 《计算机科学》 北大核心 2025年第8期136-145,共10页
近年来,基于位置服务的技术迅猛发展,产生了海量的路网轨迹数据。而路径范围查询作为一种路网轨迹查询类型,是支持其他查询类型的基础。为了实现对海量路网轨迹数据的高效索引,同时提供精确的路径范围查询服务,提出了一种基于道格拉斯-... 近年来,基于位置服务的技术迅猛发展,产生了海量的路网轨迹数据。而路径范围查询作为一种路网轨迹查询类型,是支持其他查询类型的基础。为了实现对海量路网轨迹数据的高效索引,同时提供精确的路径范围查询服务,提出了一种基于道格拉斯-普克算法的学习型索引结构(Douglas-Peuker Based Learned Index Structure,DPLI)。首先将轨迹数据分为多个轨迹段,然后取轨迹段中的点作为轨迹数据的表征,利用映射函数将其映射为一维映射值序列,而后根据键值数量将其划分为多个数据分片。在分片内将首尾数据组成一条线段,然后计算其余数据点距离线段的拟合误差,将超过误差阈值的数据点作为新的线段端点,递归分割原有的直线段,直到所有数据点的拟合误差小于阈值,从而拟合分段线性函数。采用多个路网数据和轨迹数据进行了充分的实验,实验结果表明:与传统索引方法相比,DPLI具有更快的构建效率和磁盘访问效率;与学习索引方法相比,DPLI保持了构建效率的优势,并且达到了100%查询召回率。 展开更多
关键词 位置服务 路网轨迹 学习型索引 范围查询 道格拉斯-普克算法
在线阅读 下载PDF
ZFT索引:基于分段线性回归的学习型多维索引
9
作者 王小丽 陈华辉 《计算机应用与软件》 北大核心 2024年第10期24-31,共8页
传统索引方式一般是一种通用的数据结构,不特别针对数据分布和特征设计或优化其索引方式,随着数据空间维度或数据量的增加,可能会导致存储消耗大且查询效率急剧下降。针对这些问题提出ZFT索引(Z-order Fiting-tree Index),它主要分为离... 传统索引方式一般是一种通用的数据结构,不特别针对数据分布和特征设计或优化其索引方式,随着数据空间维度或数据量的增加,可能会导致存储消耗大且查询效率急剧下降。针对这些问题提出ZFT索引(Z-order Fiting-tree Index),它主要分为离线和在线两个部分。离线构造部分使用Z-order曲线将多维空间中的数据点映射到一维空间中,构建线性回归模型学习映射后数据的分布与特征;在线部分完成点查询和范围查询。实验结果表明,ZFT索引的空间效率和查询效率明显优于传统的R树以及UB树,并且在范围查询和模型训练速度上都优于ZM索引。 展开更多
关键词 多维数据 学习型索引 ZFT索引
在线阅读 下载PDF
双粒度空间存储位置调整的历史轨迹索引
10
作者 李彩云 韩京宇 +3 位作者 缪祝青 王彦之 毛毅 张怡婷 《小型微型计算机系统》 北大核心 2025年第8期1838-1846,共9页
为了支持历史轨迹数据的查询,通过学习型索引取代传统索引以减小索引存储代价和提升查询效率受到广泛关注.时空轨迹数据的分布不均匀,单粒度的模型不能兼容疏密不一致的轨迹数据;如果为每个周期数据分别构建一个模型,模型总存储大小线... 为了支持历史轨迹数据的查询,通过学习型索引取代传统索引以减小索引存储代价和提升查询效率受到广泛关注.时空轨迹数据的分布不均匀,单粒度的模型不能兼容疏密不一致的轨迹数据;如果为每个周期数据分别构建一个模型,模型总存储大小线性增长;如果只维护一个模型,模型性能通常会随着历史轨迹的增多而恶化.因此,提出一种双粒度空间存储位置调整的历史轨迹索引,包括嵌入空间识别、初始周期模型构建和后期存储位置调整3个阶段:首先,利用密度峰值聚类算法将所有轨迹数据根据其稀疏性划分到粗细粒度层,在每个粒度层上,利用希尔伯特曲线获取轨迹点的一维排序,保证时空邻近的轨迹点排序值也接近;接着,在初始周期数据上构建分段线性模型;最后,后期数据利用初始周期构建的分段线性模型预测存储位置,采用Kuhn-Munkres算法解决模型预测存储位置产生位置冲突的问题.模拟和真实数据集上的实验表明,与其它的学习型索引相比,不仅提升了查询性能,而且显著降低了索引大小和模型维护成本,有效地支持以读为主的历史轨迹数据查询. 展开更多
关键词 学习型索引 密度峰值聚类 希尔伯特 Kuhn-Munkres算法
在线阅读 下载PDF
非易失内存的数据库索引结构综述
11
作者 蒋一赫 彭泽顺 +1 位作者 张岩峰 于戈 《小型微型计算机系统》 北大核心 2025年第9期2291-2304,共14页
非易失存储(Non-Volatile Memory,NVM)结合了动态随机访问存储器(DRAM)的高速存取特性和硬盘驱动器(HDD)或固态硬盘(SSD)的数据持久性,为传统存储和内存架构带来了革命性的变化.本文对NVM索引技术进行了综述,重点分析了NVM的关键特性和... 非易失存储(Non-Volatile Memory,NVM)结合了动态随机访问存储器(DRAM)的高速存取特性和硬盘驱动器(HDD)或固态硬盘(SSD)的数据持久性,为传统存储和内存架构带来了革命性的变化.本文对NVM索引技术进行了综述,重点分析了NVM的关键特性和各种主流索引结构的研究进展.首先,介绍了NVM的基本概念、工作原理以及其在数据中心和高性能计算中的应用.接着,详细探讨了几种主要的NVM索引结构,包括基于哈希、B+-Tree和Radix-Tree的索引结构,以及几种基于NVM的学习型索引和混合索引,分析了它们的设计特点、操作机制和应用场景.此外,本文还介绍了用于测试NVM索引性能的benchmark工具PiBench,包括其设计原理、测试指标和实际应用效果.通过这些分析,本文希望为NVM相关领域的研究人员和技术开发者提供有价值的参考,推动NVM技术在实际应用中的发展和普及,最终实现更高效、更可靠的数据存储系统. 展开更多
关键词 非易失存储 索引结构 哈希索引 B+-Tree Radix-Tree 学习型索引 混合索引
在线阅读 下载PDF
一种基于分段线性回归树的轨迹索引 被引量:1
12
作者 武凡 韩京宇 +4 位作者 刘阳 李彩云 缪祝青 王彦之 毛毅 《小型微型计算机系统》 CSCD 北大核心 2024年第9期2055-2062,共8页
处理多维数据查询时,为了减少存储消耗,采用学习型索引替代传统索引受到关注.轨迹点会在时间或者空间维度上的某些区间聚集,数据分布倾斜,从而扭曲学习模型预测精度,导致较高的磁盘访问次数.提出一种基于分段线性回归树的轨迹索引,以降... 处理多维数据查询时,为了减少存储消耗,采用学习型索引替代传统索引受到关注.轨迹点会在时间或者空间维度上的某些区间聚集,数据分布倾斜,从而扭曲学习模型预测精度,导致较高的磁盘访问次数.提出一种基于分段线性回归树的轨迹索引,以降低存储代价并减少磁盘访问次数,包括数据排序和模型训练两个阶段.在第一个阶段,沿着时间维度划分轨迹点以形成一系列时空子区域,在每个时空子区域根据映射函数对轨迹点进行空间维度的存储,从而确定轨迹点的全局序号.在第二个阶段,使用初始数据构建分段线性回归树作为预测模型,并基于该模型预测位置来存储未来数据.模拟和真实的数据集上的实验表明,该方法在保证查询性能优于学习型索引的前提下,存储消耗和构建时间大幅度降低. 展开更多
关键词 轨迹点 学习型索引 分段线性回归树 范围查询 点查询
在线阅读 下载PDF
路网时窗排序的回归模型树轨迹索引 被引量:3
13
作者 韩京宇 陆维 +4 位作者 武凡 刘阳 葛康 朱曼 陈伟 《小型微型计算机系统》 CSCD 北大核心 2022年第6期1245-1253,共9页
最近,通过学习型索引取代传统索引以减少索引大小和提高查询效率受到广泛关注.轨迹点在路网和时间维度的连续性难以刻画,数据分布倾斜普遍存在,现存的学习型索引不能有效地支持其查询.提出一种基于路网时窗排序的回归模型树,以支持点和... 最近,通过学习型索引取代传统索引以减少索引大小和提高查询效率受到广泛关注.轨迹点在路网和时间维度的连续性难以刻画,数据分布倾斜普遍存在,现存的学习型索引不能有效地支持其查询.提出一种基于路网时窗排序的回归模型树,以支持点和范围查询,含数据排序和模型训练两个阶段:首先,结合希尔伯特曲线和模拟退火寻找保持道路临近性的路段排序,进而采用两层划分获取轨迹点的一维排序,保证时空近邻点排序后彼此靠近;其次,引入回归模型树映射轨迹点和存储位置,提出批量加载和周期更新两种训练模式.真实和模拟数据集上的实验表明,在保证和传统索引可比的查询性能前提下,大幅度降低索引大小,有效地支持以读为主的历史轨迹数据查询. 展开更多
关键词 轨迹点 学习型索引 点查询 回归模型树 希尔伯特 模拟退火
在线阅读 下载PDF
基于历史信息的高效近似查询系统
14
作者 韩雨钢 马廷淮 荣欢 《计算机工程与设计》 北大核心 2025年第2期578-586,共9页
近似查询处理技术是提高数据库聚合查询效率的重要方法,针对海量二维数据提出一种基于历史查询负载的近似查询系统,引入历史查询信息,通过在历史查询空间中进行命中性检测,提高查询区域偏斜等情况时的效率。针对全局查询,通过空间数据... 近似查询处理技术是提高数据库聚合查询效率的重要方法,针对海量二维数据提出一种基于历史查询负载的近似查询系统,引入历史查询信息,通过在历史查询空间中进行命中性检测,提高查询区域偏斜等情况时的效率。针对全局查询,通过空间数据划分方法将完整数据集划分为子区域,组织为树状分片索引结构,实现采样和数据摘要方法的结合,提高查询准确性。实验结果表明,当历史查询记录量达到10~4量级时,查询响应时间仅为传统方法的40%。与传统方法相比,该系统平均相对误差降低了63%。随分片数的增加效果有更大提升,当分片数达64时,其平均相对误差仅为传统方法的10%。 展开更多
关键词 数据库系统 近似查询处理 空间索引 历史查询 分片索引 学习型索引 空间填充曲线
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部