期刊文献+
共找到87篇文章
< 1 2 5 >
每页显示 20 50 100
基于机器学习的数据库多表连接顺序选择研究综述
1
作者 王浩 高锦涛 王杰 《计算机工程》 北大核心 2025年第7期31-46,共16页
多表连接顺序选择是指在进行查询优化时为查询语句中涉及的多个表选择最优的连接顺序以提升查询性能。在复杂查询中,不同的表连接顺序能够显著影响查询执行效率。在大数据时代,面对庞大的数据集、多样的应用环境以及复杂的查询语句,基... 多表连接顺序选择是指在进行查询优化时为查询语句中涉及的多个表选择最优的连接顺序以提升查询性能。在复杂查询中,不同的表连接顺序能够显著影响查询执行效率。在大数据时代,面对庞大的数据集、多样的应用环境以及复杂的查询语句,基于启发式规则的传统多表连接顺序算法无法根据环境动态适应和自我学习,缺乏泛化能力,因此选择次优的多表连接顺序,甚至会严重影响查询性能。随着机器学习技术的蓬勃发展,面向数据库的人工智能(AI4DB)技术逐渐引领查询优化领域。机器学习技术能够解决传统连接顺序选择算法存在的问题,在自我学习以及场景适应方面具有较好表现。首先介绍连接顺序的传统选择算法,挖掘其存在的问题,然后总结当前主流的针对多表连接的机器学习模型,并分别介绍它们的核心技术方案,在效果、可用场景等方面对它们进行横向对比,为该领域后续科研工作者提供有价值的参考。 展开更多
关键词 数据库 查询优化 机器学习 连接顺序 面向数据库的人工智能
在线阅读 下载PDF
基于机器学习的数据库系统参数优化方法综述 被引量:7
2
作者 石磊 李天 +3 位作者 高宇飞 卫琳 李翠霞 陶永才 《郑州大学学报(工学版)》 北大核心 2024年第1期1-11,28,共12页
参数优化是影响数据库性能和适应性的关键技术,合理的参数配置对于保障数据库系统的高效运行至关重要,但由于参数较多且参数间具有强关联性,传统参数优化方法难以在高维连续的参数空间中寻找最优配置,机器学习的发展为解决这一难题带来... 参数优化是影响数据库性能和适应性的关键技术,合理的参数配置对于保障数据库系统的高效运行至关重要,但由于参数较多且参数间具有强关联性,传统参数优化方法难以在高维连续的参数空间中寻找最优配置,机器学习的发展为解决这一难题带来新的机遇。通过总结和分析相关工作,将已有工作按照发展时间和特性分为专家决策、静态规则、启发式算法、传统机器学习方法和深度强化学习方法。对数据库参数优化问题进行定义,并说明启发式算法在参数优化问题上的局限性。介绍基于传统机器学习的参数优化方法,包括随机森林、支持向量机、决策树等,描述机器学习方法解决参数优化问题的一般流程并给出一般实现。由于需要大量带标注的数据,传统机器学习模型在适应性和调优能力等方面存在不足。侧重介绍深度强化学习模型的工作原理,定义参数优化问题与深度强化学习模型的映射关系,比较基于深度强化学习的相关工作对数据库性能提升、模型训练时间和涉及的技术,描述基于深度神经网络构建和训练智能体的具体流程。最后,总结已有工作的特点,对当前机器学习在数据库参数优化方面的研究热点和发展方向进行展望,指出多粒度调优、自适应算法和自运维是未来的研究趋势。 展开更多
关键词 数据库系统 参数优化 性能优化 机器学习 强化学习 数据库运维
在线阅读 下载PDF
HL-2A装置低频漂移波模数据库与机器学习初步研究
3
作者 沈勇 董家齐 +6 位作者 李佳 韩明昆 沈煜航 张晓然 刘嘉言 王占辉 李继全 《核聚变与等离子体物理》 CAS CSCD 北大核心 2024年第2期141-148,共8页
本文探索建立了HL-2A/3装置实验漂移波模数据库,并以此作为样本数据库,通过机器学习方法,利用人工神经网络预测托卡马克放电中漂移波模不稳定性的发生及其强度,为实现HL-2A/3等离子体实时参数控制提供参考。首先基于电子/离子温度梯度(... 本文探索建立了HL-2A/3装置实验漂移波模数据库,并以此作为样本数据库,通过机器学习方法,利用人工神经网络预测托卡马克放电中漂移波模不稳定性的发生及其强度,为实现HL-2A/3等离子体实时参数控制提供参考。首先基于电子/离子温度梯度(η)、俘获电子份额(ε)、局域安全因子q和磁剪切s等4个基本参数构成的参数数据组(η,ε,q,s)作为变量,其他参数取有效的常数值,利用HD7代码计算相应模特征值数据,构建了一个低频漂移波模基本数据库。然后,基于BP神经网络与支持向量机(SVM)模型,分别进行了机器学习建模与编程实验,验证了对HL-2A装置离子温度梯度(ITG)\俘获电子模(TEM)不稳定性进行智能预测的可行性。研究结果表明,通过将参数集与数据集进一步扩充成完备数据库、并加快BP神经网络训练速度、或采用深度学习等更复杂模型,可以最终实现前述漂移波模预测目标。 展开更多
关键词 HL-2A托卡马克 漂移波模 数据库 机器学习 人工神经网络 可行性研究
在线阅读 下载PDF
利用机器学习算法构建浸润性乳腺癌预后模型:基于SEER数据库 被引量:3
4
作者 陆春伟 马骏 《海军军医大学学报》 CAS CSCD 北大核心 2024年第7期858-864,共7页
目的利用机器学习算法分析浸润性乳腺癌预后的影响因素并构建预后模型。方法采集美国监测、流行病学和终点事件(SEER)数据库中2010-2015年24584例浸润性乳腺癌患者的临床和病理资料。利用单因素分析和logistic回归分析筛选预后变量,使用... 目的利用机器学习算法分析浸润性乳腺癌预后的影响因素并构建预后模型。方法采集美国监测、流行病学和终点事件(SEER)数据库中2010-2015年24584例浸润性乳腺癌患者的临床和病理资料。利用单因素分析和logistic回归分析筛选预后变量,使用logistic回归、决策树、支持向量机、随机森林、人工神经网络5种机器学习分类算法建立生存预后的预测模型,评价各建模方法的预测能力,以灵敏度、特异度、准确度及ROC曲线的AUC作为模型的评价指标。结果在21个模型输入变量中,组织分级、T分期、N分期、M分期、脑转移、人表皮生长因子受体2表达状态、手术治疗等因素对浸润性乳腺癌患者生存预后具有较大影响,5种机器学习算法构建的预后模型中随机森林和人工神经网络模型预测效果较好。结论利用机器学习算法构建的浸润性乳腺癌预后模型的预测效果较好,可辅助医师判断浸润性乳腺癌患者的预后情况和治疗效果。 展开更多
关键词 SEER数据库 浸润性乳腺癌 机器学习 预后 预测模型
在线阅读 下载PDF
面向机器学习的数据库参数调优技术综述 被引量:3
5
作者 姜璐璐 高锦涛 《计算机工程与应用》 CSCD 北大核心 2024年第3期1-16,共16页
大数据时代,数据规模庞大、应用场景复杂,为满足苛刻的性能要求,面对庞杂的数据库参数,给出高质量的参数调优结果挑战巨大。传统启发式调优算法或者人工干预方法很难普适地满足各类调优需求。机器学习因其强大的学习和泛化能力被广泛应... 大数据时代,数据规模庞大、应用场景复杂,为满足苛刻的性能要求,面对庞杂的数据库参数,给出高质量的参数调优结果挑战巨大。传统启发式调优算法或者人工干预方法很难普适地满足各类调优需求。机器学习因其强大的学习和泛化能力被广泛应用于各种复杂场景,包括数据库参数调优。经过充分调研,给出学习式数据库参数调优技术的演化路线、依据路线,按照研究内容-存在问题-解决问题的思路,叙述传统参数调优技术、基于BO模型的参数调优技术以及基于RL的参数调优技术,展望未来的研究方向和所面临的挑战,希望为这一领域科研工作者提供有价值的参考。 展开更多
关键词 数据库系统 参数调优 机器学习
在线阅读 下载PDF
机器学习化数据库系统研究综述 被引量:33
6
作者 孟小峰 马超红 杨晨 《计算机研究与发展》 EI CSCD 北大核心 2019年第9期1803-1820,共18页
数据库系统经过近50年的发展,虽然已经普遍商用,但随着大数据时代的到来,数据库系统在2个方面面临挑战.首先数据量持续增大期望单个查询任务具有更快的处理速度;其次查询负载的快速变化及其多样性使得基于DBA经验的数据库配置和查询优... 数据库系统经过近50年的发展,虽然已经普遍商用,但随着大数据时代的到来,数据库系统在2个方面面临挑战.首先数据量持续增大期望单个查询任务具有更快的处理速度;其次查询负载的快速变化及其多样性使得基于DBA经验的数据库配置和查询优化偏好不能实时地调整为最佳运行时状态.而数据库系统的性能优化进入瓶颈期,优化空间收窄,进一步优化只能依托新的硬件加速器来实现,传统的数据库系统不能够有效利用现代的硬件加速器;数据库系统具有成百个可调参数,面对工作负载频繁变化,大量繁琐的参数配置已经超出DBA的能力,这使得数据库系统面对快速而又多样性的变化缺乏实时响应能力.当下机器学习技术恰好同时符合这2个条件:应用现代加速器以及从众多参数调节经验中学习.机器学习化数据库系统将机器学习技术引入到数据库系统设计中.一方面将顺序扫描转化为计算模型,从而能够利用现代硬件加速平台;另一方面将DBA的经验转化为预测模型,从而使得数据库系统更加智能地动态适应工作负载的快速多样性变化.将对机器学习化数据库系统当前的研究工作进行总结与归纳,主要包括存储管理、查询优化的机器学习化研究以及自动化的数据库管理系统.在对已有技术分析的基础上,指出了机器学习化数据库系统的未来研究方向及可能面临的问题与挑战. 展开更多
关键词 数据库系统 机器学习 学习化索引 自动化数据库系统
在线阅读 下载PDF
基于机器学习的数据库技术综述 被引量:56
7
作者 李国良 周煊赫 +4 位作者 孙佶 余翔 袁海涛 刘佳斌 韩越 《计算机学报》 EI CSCD 北大核心 2020年第11期2019-2049,共31页
大数据时代下,面对不断膨胀的数据信息、复杂多样的应用场景、异构的硬件架构和参差不齐的用户使用水平,传统数据库技术很难适应这些新的场景和变化.机器学习技术因其较强的学习能力,逐渐在数据库领域展现出了潜力和应用前景.论文首先... 大数据时代下,面对不断膨胀的数据信息、复杂多样的应用场景、异构的硬件架构和参差不齐的用户使用水平,传统数据库技术很难适应这些新的场景和变化.机器学习技术因其较强的学习能力,逐渐在数据库领域展现出了潜力和应用前景.论文首先给出一个高效、高可靠、高可用、自适应性强的数据库系统需要涵盖的方面,包括数据库运维、数据存储、查询优化等.其次,讨论机器学习算法与数据库技术结合过程中可能面临的挑战,包括训练数据少、训练时间长、泛化能力有限、适应性差四个方面.然后,综述数据库技术与机器学习结合的现状以及具体技术.其中,重点介绍数据库自动调参、查询基数估计、查询计划选择、索引和视图自动选择五个方向.自动调参技术包括启发式算法、传统机器学习、深度强化学习三类.启发式算法从离散的参数空间中通过抽样探索最优子空间,可以有效提高调参效率,但是难以保证在有效资源限制内找到合适配置;传统机器学习算法在经过降维的参数空间中学习系统状态到指定负载模板的映射关系,一定程度上提升模型的适应性;深度强化学习在高维参数空间中迭代的学习调优策略,并利用神经网络提升对高维数据的处理能力,有效降低训练数据的需求.查询基数估计包括面向查询和面向执行计划两类.面向查询方法利用卷积神经网络学习表数据、查询条件、连接条件之间的关系,然而在不同场景下需要大量训练而且泛化能力差;面向执行计划方法在物理算子层面做级联的代价估计,一定程度上提高对不同查询的适应能力.查询计划选择包括深度学习和强化学习两类.深度学习方法融合数据库估计器的代价值和数据特征,提高对每种计划代价估计的精度,但是结果严重依赖估计器的表现;强化学习基于最终目标迭代生成查询计划,降低方法对查询代价的依赖性.自动索引推荐包括分类器、强化学习、遗传算法三类.分类算法根据离散的表特征分析不同索引的创建开销和效率,通过结合遗传算法,提高对复合索引的推荐效率;强化学习进一步提供增量式索引推荐的效率,实现在线索引选择.自动视图选择包括启发式算法、概率统计、强化学习三类.启发式算法通过在视图构建的有向无环图上做贪心探索,提高选择效率,然而适应性差;基于概率统计的算法将视图选择形式化成一个0-1选择问题,有效降低图的探索开销;强化学习方法将视图的创建和删除统一成动态选择过程,基于强化学习的训练策略进一步提高选择效率.最后,从八个方面展望机器学习将给数据库带来的革命性突破. 展开更多
关键词 数据库 机器学习 强化学习 深度学习 查询优化
在线阅读 下载PDF
基于机器学习的数据库小数据集并行集成方法 被引量:7
8
作者 王俊 程显生 王寿东 《科学技术与工程》 北大核心 2019年第16期239-244,共6页
为了解决传统方法不能按照训练样本量设计最优网络模型,集成效率低的弊端,通过机器学习方法研究数据库小数据集并行集成方法。机器学习选用朴素贝叶斯算法,依据条件独立性假设,通过计算目标先验概率,采用贝叶斯定理求出其后验概率,对后... 为了解决传统方法不能按照训练样本量设计最优网络模型,集成效率低的弊端,通过机器学习方法研究数据库小数据集并行集成方法。机器学习选用朴素贝叶斯算法,依据条件独立性假设,通过计算目标先验概率,采用贝叶斯定理求出其后验概率,对后验概率进行比较,完成决策分类,对基分类器进行训练,把不同朴素贝叶斯基分类器当成集成分类器,在原始数据库上对基分类器进行训练,依据分类结果对数据库中小数据集样本分布进行调整,将其当成新数据集对基分类器进行训练,按照基分类器的表现,通过加权将其组合在一起,产生强分类器,实现对数据库小数据集的集成处理。通过MapReduce并行处理完成并行数据集成,输出并行集成结果。通过仿真实验与实例分析验证所提方法的有效性,结果表明:所提方法在训练样本规模相同的情况下有最高的分类精度和最小的波动,在不同集成规模下的分类精度一直最高,波动最小;所提方法可达到数据的最优集成,数据失效比降低,合成比提高。可见所提方法集成精度高,计算稳定性强,集成效果好,效率优。 展开更多
关键词 机器学习 数据库 数据 并行集成
在线阅读 下载PDF
可解释机器学习模型预测心脏骤停患者院内死亡风险:基于MIMIC-Ⅳ2.0数据库 被引量:5
9
作者 龚欢欢 柯晓伟 +1 位作者 王爱民 李湘民 《协和医学杂志》 CSCD 2023年第3期528-535,共8页
目的构建可预测心脏骤停患者住院期间死亡风险的机器学习模型,并对其进行解释。方法提取美国重症监护医学信息数据库Ⅳ(Medical Information Mart for Intensive Care databaseⅣ,MIMIC-Ⅳ)2.0中心脏骤停患者转入ICU 24 h内首次临床资... 目的构建可预测心脏骤停患者住院期间死亡风险的机器学习模型,并对其进行解释。方法提取美国重症监护医学信息数据库Ⅳ(Medical Information Mart for Intensive Care databaseⅣ,MIMIC-Ⅳ)2.0中心脏骤停患者转入ICU 24 h内首次临床资料及住院期间转归,基于机器学习算法构建6种可预测心脏骤停患者院内死亡风险的模型,包括XGBoost模型、轻量级梯度提升机(light gradient boosting machine,LGBM)模型、决策树(decision tree,DT)模型、K近邻(K-nearest neighbor,KNN)模型、Logistic回归模型、随机森林(random forest,RF)模型。采用受试者操作特征(receiver operator characteristic,ROC)曲线、临床决策曲线及校准曲线对模型进行评价,并采用Shapley加性解释(Shapley additive explanation,SHAP)算法评估不同临床特征对最优模型的影响,以增加模型的可解释性。结果共1465例符合纳入与排除标准的心脏骤停患者入选本研究。其中住院期间存活773例、死亡692例。经筛选,共纳入82个临床特征用于机器学习模型构建。模型评价结果显示,相较于其余5种模型,LGBM模型预测心脏骤停患者院内死亡的曲线下面积(area under the curve,AUC)更高[0.834(95%CI:0.688~0.894)],且相对于Logistic回归模型、XGBoost模型,其对死亡风险的预测准确性更高(校准度:0.166),临床决策性能更优,整体性能最佳。SHAP算法分析显示,对LGBM模型输出结果影响最大的3个临床特征分别为格拉斯哥睁眼反应评分、碳酸氢盐水平、白细胞计数。结论基于大型公共医疗卫生数据库建立的可预测心脏骤停患者住院期间死亡风险的机器学习模型中,LGBM模型性能最优,其可辅助临床进行更高效的疾病管理和更精准的医疗干预。 展开更多
关键词 心脏骤停 预测模型 机器学习 SHAP算法 美国重症监护医学信息数据库
在线阅读 下载PDF
结合机器学习和强化学习的润滑油分子集生成方法 被引量:1
10
作者 周康 魏朝良 +4 位作者 汤仲平 王栋 车昕昊 王建新 张磊 《石油学报(石油加工)》 北大核心 2025年第3期804-816,共13页
基于从分子层面更理性化指导润滑油品改性实验、构建充分详实的基础油分子结构和物性数据库的目的,采用了一种结合机器学习和强化学习的润滑油矿物型基础油分子集生成方法,按个性化地生成满足目标结构或性质要求的理想分子集。通过利用... 基于从分子层面更理性化指导润滑油品改性实验、构建充分详实的基础油分子结构和物性数据库的目的,采用了一种结合机器学习和强化学习的润滑油矿物型基础油分子集生成方法,按个性化地生成满足目标结构或性质要求的理想分子集。通过利用随机森林模型快速预测分子物性和神经网络模型智能探索分子化学空间的双重优势,该方法能够在数小时内生成数千个满足设计要求的基础油分子,并且可同时考虑熔点、沸点、油品黏度、分子结构等多方面的设计需求,针对油品数据库构建时探究理想分子组成和辅助油品分子表征2种应用场景,分别通过以探究理想分子组成为目的的基础油分子生成和以辅助油品分子表征为目的的基础油分子生成2个案例来说明提出的技术路线的可行性和有效性。 展开更多
关键词 润滑油 基础油 分子数据库 机器学习 强化学习 随机森林
在线阅读 下载PDF
数据库参数配置智能调优研究综述 被引量:3
11
作者 李奕言 田季坤 +2 位作者 蒲照 李翠平 陈红 《计算机学报》 EI CAS CSCD 北大核心 2024年第8期1901-1921,共21页
数据库系统具有大量的参数,这些参数控制了系统的内存分配、I/O优化、备份与恢复等诸多方面,极大地影响着数据库的性能.随着数据库和应用程序的规模和复杂性的增长,传统依靠数据库管理员手动配置参数的方式已经越来越难以满足用户需求.... 数据库系统具有大量的参数,这些参数控制了系统的内存分配、I/O优化、备份与恢复等诸多方面,极大地影响着数据库的性能.随着数据库和应用程序的规模和复杂性的增长,传统依靠数据库管理员手动配置参数的方式已经越来越难以满足用户需求.数据库参数配置智能调优将机器学习技术应用到参数调优领域,依据负载信息、数据库参数和性能,借助机器学习算法推荐一组最优的参数.本文针对现有参数配置智能调优技术,从调优方法、应用情况和未来挑战三个方面依次进行梳理和总结.首先将现有参数调优方法依据所用算法不同分为五类,从原理、技术、优缺点等方面对各类方法进行详细介绍和总结.之后介绍当前工业界主流的参数调优工具,分析参数配置智能调优在实际应用过程中遇到的问题及原因.最后,本文对数据库参数配置智能调优的未来研究方向进行了展望.本文旨在帮助研究者掌握当前数据库参数配置智能调优领域主流方法及面临的问题,以推动后续研究工作的开展. 展开更多
关键词 机器学习 参数调优 贝叶斯优化 强化学习 智能数据库
在线阅读 下载PDF
基于机器学习的不同地幔端元来源玄武岩判别及其元素地球化学特征研究
12
作者 崔岩 王彦飞 +2 位作者 孟凡超 刘浩毅 刘展飞 《岩石学报》 SCIE EI CAS 北大核心 2025年第1期339-350,共12页
地幔地球化学是固体地球科学研究的重要组成部分,认识和识别地幔不均一性对于探讨地幔内部物质循环、揭示地球演化规律具有重要意义。目前国际上公认的地幔端元划分方案主要依赖于幔源岩浆岩的同位素数据,但在实际应用中具有一定的局限... 地幔地球化学是固体地球科学研究的重要组成部分,认识和识别地幔不均一性对于探讨地幔内部物质循环、揭示地球演化规律具有重要意义。目前国际上公认的地幔端元划分方案主要依赖于幔源岩浆岩的同位素数据,但在实际应用中具有一定的局限性。相较于同位素数据,主、微量元素数据的数量更大,实际应用前景更广阔。从数据分析的角度看,幔源岩浆岩的主微量元素有27个指标,远多于常用的Sr、Nd、Pb同位素指标,变量数目的增加可能会提高分类判断的精度,但是也会给分类带来两个问题:一是建模所需的样本数量大大增加;二是传统的二维、三维图版法不再适用。针对上述问题,本文从数据和方法两个层面入手:首先从全球共享地球化学数据库GEOROC和PetDb获取数据;然后采用机器学习方法建立判别模型,最终获得了基于元素特征的玄武岩地幔端元类型逻辑回归模型。该模型不仅具有很好的分类效果,而且有助于分析和总结来自不同地幔端元的玄武岩的元素地球化学特征。该研究对地幔不均一性的精细识别及与其相关的研究工作具有一定的促进作用。 展开更多
关键词 玄武岩 地幔端元划分 主、微量元素 地球化学数据库 机器学习
在线阅读 下载PDF
基于机器学习算法的非饱和土水特征曲线预测
13
作者 张夏阳 高游 +1 位作者 于响 何伟 《防灾减灾工程学报》 北大核心 2025年第1期104-109,118,共7页
土水特征曲线(SWCC)是研究非饱和土渗透、强度预测与本构关系的基础。机器学习算法具有高效处理大量数据和特征提取等特点。采用六种机器学习算法(四种集成学习和两种传统机器学习算法)对美国非饱和土数据库中的154条SWCC包含1976个数... 土水特征曲线(SWCC)是研究非饱和土渗透、强度预测与本构关系的基础。机器学习算法具有高效处理大量数据和特征提取等特点。采用六种机器学习算法(四种集成学习和两种传统机器学习算法)对美国非饱和土数据库中的154条SWCC包含1976个数据点进行模拟;并使用四个性能评价指标(R^(2)、EVS、MAE和RMSE)评价算法的性能。选取两种数据输入的方式:对压力水头进行对数处理和未处理两类。结果表明,在两种输入情况下,对LightGBM、XGB、RF和AdaBoost算法的影响很小;但是对GPR和SVM两种传统机器学习算法的影响很大,在未进行对数处理情况下,R2降低明显甚至会出现无法模拟SWCC的情况。此外,LightGBM对SWCC测试集的模拟效果上均优于其他模型,拥有高的趋势评价指标(R2和EVS)和低的误差测量指标(MAE和RMSE);六种算法对SWCC模拟的优劣的排列顺序依次为:LightGBM、GPR、XGB、RF、AdaBoost和SVM。最后,利用已训练好的LightGBM模型对9条不包含在数据库内的SWCC数据进行预测,结果显示LightGBM能够较好地预测非饱和土的土水特性。研究结果对提升不同类型土的SWCC预测具有重要的指导意义。 展开更多
关键词 非饱和土 数据库 土水特征曲线 机器学习 预测
在线阅读 下载PDF
数据库索引调优技术综述
14
作者 赖思超 吴小莹 +1 位作者 彭煜玮 彭智勇 《计算机研究与发展》 EI CSCD 北大核心 2024年第4期929-954,共26页
索引调优是数据库调优的重要组成部分,一直受到广泛关注.由于索引调优问题的理论复杂性和大数据时代的到来,通过DBA手动调优的方案已经无法满足现代数据库的发展需求,调优方案逐渐开始向自动化、智能化的方向发展.随着机器学习技术的发... 索引调优是数据库调优的重要组成部分,一直受到广泛关注.由于索引调优问题的理论复杂性和大数据时代的到来,通过DBA手动调优的方案已经无法满足现代数据库的发展需求,调优方案逐渐开始向自动化、智能化的方向发展.随着机器学习技术的发展,越来越多的索引选择方案开始引入机器学习技术,并取得了一定的研究成果.将索引调优问题的解决方案归结为一种基于搜索的调优范式,归纳了其研究内容,阐述了其面临的挑战,对调优范式内的索引配置空间的生成、索引配置的评价以及索引配置的枚举与搜索3方面的研究成果进行了归纳、总结和对比.对动态工作负载下的索引选择问题(index selection problem,ISP)所面临的新挑战进行了分析,并基于在线反馈控制回路框架对其解决方案进行梳理.讨论了索引调优工具的发展与现状,通过对现有研究的分析论述,为后来研究者提供参考和研究思路,并对索引选择方案的未来进行了展望. 展开更多
关键词 数据库索引 索引选择 索引调优 性能调优 机器学习
在线阅读 下载PDF
基于知识的数据库设计的学习算法
15
作者 张一立 孙杰 《计算机研究与发展》 EI CSCD 北大核心 1992年第5期31-36,共6页
本文将机器学习引入数据库设计中,因此,在与用户交互过程中能获取知识,并能引导非计算机专业用户设计他所需要的高质量的数据库.
关键词 数据库 设计 知识 机器学习
在线阅读 下载PDF
学习型数据库索引推荐技术综述 被引量:6
16
作者 杨国平 乔少杰 +3 位作者 屈露露 韩楠 魏盛杰 元昌安 《重庆理工大学学报(自然科学)》 CAS 北大核心 2022年第6期189-199,共11页
数据库技术是现代计算机软件技术中不可或缺的一部分,在各个行业中都发挥着十分重要的作用。但是,伴随着时代的发展,互联网和云计算要求数据库能够有效地存储和处理大数据,使传统的关系型数据库软件工具能力难以应对新的应用场景。其中... 数据库技术是现代计算机软件技术中不可或缺的一部分,在各个行业中都发挥着十分重要的作用。但是,伴随着时代的发展,互联网和云计算要求数据库能够有效地存储和处理大数据,使传统的关系型数据库软件工具能力难以应对新的应用场景。其中,索引对于提升复杂数据集上检索任务的效率有着非常重要的意义。机器学习近年来取得了长足的发展,为数据库索引推荐技术提供了新的机遇。首先叙述了索引推荐的研究背景与挑战;然后,将索引推荐分为索引生成与索引选择2个阶段,分别对这2个阶段的相关技术进行论述;最后,对基于学习的数据库索引推荐技术做了介绍与展望,其中,重点介绍了索引生成与索引选择。索引生成阶段包含基于学习的范围索引、哈希索引、布隆过滤器等,总结了基于学习的索引生成技术的优缺点;对于索引选择阶段,将传统方法与基于学习的方法进行对比与分析,重点叙述强化学习解决索引选择问题。 展开更多
关键词 机器学习 数据库 索引推荐 索引生成 索引选择 强化学习
在线阅读 下载PDF
智能数据库学习型索引研究综述 被引量:7
17
作者 蔡盼 张少敏 +3 位作者 刘沛然 孙路明 李翠平 陈红 《计算机学报》 EI CAS CSCD 北大核心 2023年第1期51-69,共19页
建立高效的索引结构是提升数据库存取性能的关键技术之一.在数据呈爆发式增长、海量聚集、高维复杂的大数据环境下,传统索引结构(例如B+树)处理海量数据时面临空间代价高、查询效率低、存取开销大等难题.学习型索引技术通过对底层数据... 建立高效的索引结构是提升数据库存取性能的关键技术之一.在数据呈爆发式增长、海量聚集、高维复杂的大数据环境下,传统索引结构(例如B+树)处理海量数据时面临空间代价高、查询效率低、存取开销大等难题.学习型索引技术通过对底层数据分布、查询负载等特征进行建模和学习,有效的提升了索引性能,并减少了访存空间开销.本文从学习型索引技术的基础模型入手,对RMI基础模型实现原理、构造和查询过程进行了分析,并总结了基础模型的优点和存在的问题;以此为基础,按照索引结构特点对学习型索引技术进行分类,从索引创建方式和更新策略两方面对学习型索引技术进行了系统梳理,并对比分析了典型学习型索引技术的优点及不足之处.另外,本文总结了学习型索引技术的扩展研究.最后,对学习型索引的未来研究方向进行了展望. 展开更多
关键词 机器学习 学习型索引 索引结构 RMI模型 智能数据库
在线阅读 下载PDF
学习式数据库系统:挑战与机遇 被引量:12
18
作者 柴茗珂 范举 杜小勇 《软件学报》 EI CSCD 北大核心 2020年第3期806-830,共25页
通用的数据库系统为不同的应用需求与数据类型提供统一的处理方式,在取得了巨大成功的同时,也暴露了一定的局限性:由于没有结合具体应用的数据分布与工作负载,系统往往难以保证性能的最优.为了解决这一问题,“学习式数据库系统”成为了... 通用的数据库系统为不同的应用需求与数据类型提供统一的处理方式,在取得了巨大成功的同时,也暴露了一定的局限性:由于没有结合具体应用的数据分布与工作负载,系统往往难以保证性能的最优.为了解决这一问题,“学习式数据库系统”成为了目前数据库领域的研究热点,它利用机器学习技术有效捕获负载与数据的特性,从而对数据库系统进行优化.围绕这一方向,近些年工业界与学术界涌现出了大量的研究工作.首先提出了细粒度的分类体系,从数据库架构出发,将现有工作进行了梳理;其次,系统地介绍了学习式数据库各组件的研究动机、基本思路与关键技术;最后,对学习式数据库系统未来的研究方向进行了展望. 展开更多
关键词 数据库系统 机器学习 数据驱动 系统优化
在线阅读 下载PDF
从数据库中发掘定量型关联规则 被引量:11
19
作者 梁曼君 张瑞 熊范纶 《计算机科学》 CSCD 北大核心 1999年第8期71-73,共3页
一、引言随着数据库技术和机器学习技术的发展,在数据库中发现新颖的、具有潜在效用的知识,简称KDD(Knowledge Discovery in Database)是近年来的一个新兴研究领域。KDD中的关联规则是描述数据库中数据项(属性,变量)之间所存在的(... 一、引言随着数据库技术和机器学习技术的发展,在数据库中发现新颖的、具有潜在效用的知识,简称KDD(Knowledge Discovery in Database)是近年来的一个新兴研究领域。KDD中的关联规则是描述数据库中数据项(属性,变量)之间所存在的(潜在)关系的规则。我们作如下形式化定义: 令I={i1,i2……,im}为项目集(itemset),D为事务数据库,其中每个事务T是一个项目子集(TI),并具有一个唯一的标识符ID。关联规则是形如XY的逻辑蕴含式,其中XT,YT,且X∩Y=φ。有两个因子与这条规则相关;如果事务数据库中有s%的事务包含X∪Y,那么我们说关联规则XY的支持度(support)为s;如果事务数据库里包含X的事务中有c%的事务同时也包含Y,那么我们说关联规则XY的置信度(confidence)为c。 展开更多
关键词 数据库 关联规则 机器学习 知识发现
在线阅读 下载PDF
动态数据库规则获取和更新的粗糙集方法 被引量:12
20
作者 张学民 安利平 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2001年第4期529-532,共4页
随着客观世界的发展变化 ,新模式会不断地增加到数据库中 ,在已有的模式中也会增加新成员 ,这就导致以前得到的规则集需要随之更新 .在利用粗糙集方法获取规则的基础上 ,提出两种规则更新方法 ,并提出规则获取和更新的一般理论模型 ,强... 随着客观世界的发展变化 ,新模式会不断地增加到数据库中 ,在已有的模式中也会增加新成员 ,这就导致以前得到的规则集需要随之更新 .在利用粗糙集方法获取规则的基础上 ,提出两种规则更新方法 ,并提出规则获取和更新的一般理论模型 ,强调充分发挥决策者和分析人员的主观能动性的重要性 ,根据客观实际提出新模式和原有模式中的新成员 ,以满足不断变化的外部情况 ,而不只是单纯依赖机器决策 ,并以实例说明 . 展开更多
关键词 粗糙集 数据挖掘 决策规则 机器学习 数据库 人工智能
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部