期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
基于大规模流式车牌识别数据的即时伴随车辆发现 被引量:4
1
作者 朱美玲 王雄斌 +2 位作者 张守利 刘晨 韩燕波 《中国科学技术大学学报》 CAS CSCD 北大核心 2016年第1期47-55,共9页
提出了一种基于流式大规模车牌识别数据集的伴随车辆(伴随车辆是指在一段持续的时间内一起移动的车辆组群)即时发现方法,可实现即时发现疑似伴随车辆并将其按伴随概率排序.该方法充分利用了云基础设施的并行计算能力,基于整数划分思想... 提出了一种基于流式大规模车牌识别数据集的伴随车辆(伴随车辆是指在一段持续的时间内一起移动的车辆组群)即时发现方法,可实现即时发现疑似伴随车辆并将其按伴随概率排序.该方法充分利用了云基础设施的并行计算能力,基于整数划分思想建立并行发现的负载均衡模型,优化了伴随车辆的发现性能,可用于对时间敏感的交通应用场景,如发现并监控运钞车等特殊车辆的跟踪车辆等.实验证明,该方法能够有效处理大规模的流式车牌识别数据,并实时地输出发现结果. 展开更多
关键词 伴随车辆 车牌识别数据 流数据 即时性 点伴随
在线阅读 下载PDF
基于服务的云边端协同流数据处理体系结构研究 被引量:2
2
作者 张守利 刘晨 《山东农业大学学报(自然科学版)》 北大核心 2024年第3期385-395,共11页
物联网相关技术的快速发展产生了大规模传感流数据和对流数据的高并发处理需求,云边端协同计算正成为低延迟、高可靠的流数据处理的有效途径。为了提升流数据处理系统的灵活性和可扩展性,降低流数据处理延迟,本文提出一种基于服务的分... 物联网相关技术的快速发展产生了大规模传感流数据和对流数据的高并发处理需求,云边端协同计算正成为低延迟、高可靠的流数据处理的有效途径。为了提升流数据处理系统的灵活性和可扩展性,降低流数据处理延迟,本文提出一种基于服务的分散式云边端协同流数据处理体系结构,设计了面向大规模流数据的主动式数据服务模型,流数据及流数据处理被抽象为合适粒度、可被独立部署和动态调度的服务,解耦数据与计算。引入事件驱动机制,提出了基于事件驱动的云边端服务动态协作机制,有效提升了系统的灵活性。基于真实的电能质量传感流数据验证了本文所提出架构的正确性和有效性。 展开更多
关键词 流数据处理 云边端协同 服务计算 事件驱动 服务协作
在线阅读 下载PDF
基于JDBC的数据访问优化技术 被引量:14
3
作者 韩兵 江燕敏 方英兰 《计算机工程与设计》 北大核心 2017年第8期1991-1996,2031,共7页
为使Web应用系统能够有效、快速地访问数据,分析当前Web系统三层框架有关数据缓存和访问优化的技术,通过对JDBC接口原理及实现技术的深入研究,提出基于JDBC的数据自主识别、前置驻留与快速访问的策略和实现方案。使用key-value存储机制... 为使Web应用系统能够有效、快速地访问数据,分析当前Web系统三层框架有关数据缓存和访问优化的技术,通过对JDBC接口原理及实现技术的深入研究,提出基于JDBC的数据自主识别、前置驻留与快速访问的策略和实现方案。使用key-value存储机制,通过客户端-应用层的快照数据快速访问机制提升Web系统综合性能。测试结果表明,该方案能够有效提高Web系统在数据访问的响应速度,实现多客户端的数据共享,具有一定的普适性和推广价值。 展开更多
关键词 JAVA数据库连接 数据识别 数据前置 访问过滤 快照数据
在线阅读 下载PDF
支持探索式研判分析的动态ETL流程服务 被引量:3
4
作者 张硕 赵卓峰 +1 位作者 王桂玲 刘杰 《小型微型计算机系统》 CSCD 北大核心 2019年第1期176-180,共5页
ETL(Extract-Transformation-Loading)作为一种将不同来源的原始数据转换为有效信息的数据集成手段,可为基于综合信息的研判分析提供支持.然而,在当前信息共享和大数据等发展趋势下,各行业研判分析活动表现出多样化、动态性的特征,往往... ETL(Extract-Transformation-Loading)作为一种将不同来源的原始数据转换为有效信息的数据集成手段,可为基于综合信息的研判分析提供支持.然而,在当前信息共享和大数据等发展趋势下,各行业研判分析活动表现出多样化、动态性的特征,往往需要面对大量动态、突发的数据抽取、转换及加载需求,传统预定义式的ETL方式难以快速实现.为此,提出一种支持探索式研判分析的动态ETL流程服务,包括探索式研判分析的基本思路、动态ETL流程服务的实现及ETL处理并发性能优化方法,并结合某公安联合作战指挥应用案例对动态ETL流程服务进行了验证,实际应用表明该服务能够支持以"边构造边执行"的方式实现用于研判分析的ETL流程. 展开更多
关键词 探索式研判分析 动态ETL流程 服务 并发性能优化
在线阅读 下载PDF
SDaaS:一种传感流数据的服务化封装方法 被引量:5
5
作者 张仲妹 刘晨 +2 位作者 苏申 张守利 韩燕波 《计算机学报》 EI CSCD 北大核心 2017年第2期445-463,共19页
来自不同传感器网络的流数据共享和集成对于带动相关业务和行业的创新具有重要意义.现有的传感网络往往是任务导向或领域专用的,仅适用于特定的应用场景,难以有效地在不同应用间共享和重用其数据资源.传感流数据的服务化是一种有效解决... 来自不同传感器网络的流数据共享和集成对于带动相关业务和行业的创新具有重要意义.现有的传感网络往往是任务导向或领域专用的,仅适用于特定的应用场景,难以有效地在不同应用间共享和重用其数据资源.传感流数据的服务化是一种有效解决物理传感网络数据资源共享和重用的方法.针对已有服务化方法在应对大规模传感流数据共享和用户并发访问方面存在的局限性,该文提出了一种面向传感流数据的服务化封装方法——SDaaS(Stream Data as a Service),该方法使用事件的方式驱动传感流数据的处理和传输,通过对传感数据的融合操作实现服务对传感流数据的深层次加工,并基于Pub/Sub机制实现传感流数据的按需分发.文中基于Spark Streaming实现对大规模流数据加工操作的封装,并通过对传统的基于匹配树的事件匹配算法进行改进实现了高效的流数据内容分发,以保障将传感数据实时的分发给相应需求.该文通过实验验证了流数据服务的性能,印证了流数据服务能够响应不同的数据需求,在毫秒级别将数据流分发给不同应用. 展开更多
关键词 传感流数据 流数据服务 Pub/Sub机制 事件驱动 事件匹配 云计算
在线阅读 下载PDF
面向流数据的实时处理及服务化系统 被引量:3
6
作者 狄程 杨中国 +1 位作者 韩燕波 刘晨 《重庆大学学报(自然科学版)》 EI CAS CSCD 北大核心 2020年第7期75-83,共9页
流数据的处理需求复杂多变,业务人员要进行相应的算法定制,不仅需要相关的编程知识,更要应对繁琐的处理流程和冗长的开发周期。为解决上述问题,文中设计并实现了基于流程建模的流数据处理及服务化系统,提供了对于多源流数据的实时接入,... 流数据的处理需求复杂多变,业务人员要进行相应的算法定制,不仅需要相关的编程知识,更要应对繁琐的处理流程和冗长的开发周期。为解决上述问题,文中设计并实现了基于流程建模的流数据处理及服务化系统,提供了对于多源流数据的实时接入,流数据服务化以及流数据处理服务化的能力。该系统将流数据处理过程封装为服务提供给用户,允许用户拖拽组合流数据处理和服务化模块、配置相关参数,定义流数据处理及服务化的过程,快速又自然地实现流数据处理及服务化的任务,将处理结果经由服务路由实时推送到其他应用系统,满足不同的业务需求。案例分析表明,与传统的流数据处理系统相比,本系统具有高效、灵活、可配置等特点,在实用性、可用性和伸缩性方面都更有优势。 展开更多
关键词 流数据 视图驱动 实时处理 规则引擎 服务化
在线阅读 下载PDF
基于关系图谱的科技数据分析算法 被引量:3
7
作者 张寒烁 杨冬菊 《计算机科学》 CSCD 北大核心 2021年第3期174-179,共6页
随着科技数据量的不断增长,各科技部门积累了大量科技项目的科技管理数据。对于大量结构化数据,需要针对分散数据进行整理、分析,最终按需求提供数据查询与抽取服务。由于在关系数据库中关联关系的分析效果不佳,为了提高分析效率,文中... 随着科技数据量的不断增长,各科技部门积累了大量科技项目的科技管理数据。对于大量结构化数据,需要针对分散数据进行整理、分析,最终按需求提供数据查询与抽取服务。由于在关系数据库中关联关系的分析效果不佳,为了提高分析效率,文中引入了关系图谱进行数据处理。首先,提出了一种基于词频的实体搜索与定位算法来提取实体和关系,并构建关系图谱;其次,对关系图谱进行分析,提出了一种基于改进FP-growth的图数据频繁项挖掘算法;然后,设计了基于图数据的数据筛选流程,进行数据的筛选、分析,并定义评分矩阵,对待筛选数据情况进行评价,最终给出分析意见,且数据筛选的评价标准可以进行自定义;最后,结合构建的关系图谱,将算法进行了实际应用,并将其封装为服务。实验结果表明,提出的基于改进FP-growth的频繁项挖掘算法相比传统FP-growth算法在时间上有10%~12%的提升,数据筛选过程的准确率达到97%左右。 展开更多
关键词 关系图谱 数据分析 图谱构建 人员关系图谱 数据挖掘 服务应用
在线阅读 下载PDF
数据驱动的自动化机器学习流程生成方法 被引量:2
8
作者 陈高建 王菁 +2 位作者 栗倩文 袁云静 曹嘉琛 《广西师范大学学报(自然科学版)》 CAS 北大核心 2022年第3期185-193,共9页
自动化机器学习是机器学习前沿的一个重要问题,自动化机器学习工具根据数据集及任务需求组合机器学习算子来构造流程,使领域用户在不具备专业机器学习知识的情况下也能完成相应数据分析工作,但目前的自动化机器学习工具普遍存在耗时长... 自动化机器学习是机器学习前沿的一个重要问题,自动化机器学习工具根据数据集及任务需求组合机器学习算子来构造流程,使领域用户在不具备专业机器学习知识的情况下也能完成相应数据分析工作,但目前的自动化机器学习工具普遍存在耗时长和精度低的问题。本文基于数据集相似性和强化学习原理,提出一种数据驱动的自动化机器学习流程的生成方法,利用相似数据集的历史知识,将神经网络与MCTS相结合,指导机器学习流程的生成。实验结果表明:该方法在耗时方面缩短至分钟级别,流程性能也得到提升。 展开更多
关键词 AutoML 数据集相似性 MCTS 强化学习
在线阅读 下载PDF
面向云边端协同的计算卸载策略生成方法
9
作者 李寒 许晨曦 刘孟媛 《计算机工程与设计》 北大核心 2025年第6期1632-1639,共8页
针对智能终端无法满足计算密集型应用程序任务高效、低延时需求的问题,研究一种基于深度强化学习算法的计算卸载策略生成方法。构建均衡考虑执行延时、终端能耗以及系统资源均衡的云边端资源协同的任务调度模型;构建迁移模型,根据终端... 针对智能终端无法满足计算密集型应用程序任务高效、低延时需求的问题,研究一种基于深度强化学习算法的计算卸载策略生成方法。构建均衡考虑执行延时、终端能耗以及系统资源均衡的云边端资源协同的任务调度模型;构建迁移模型,根据终端实时位置动态选择最优迁移策略以完成任务;引入优先经验重放策略,提出一种改进的双层竞争深度网络算法PER-D3QN求解计算卸载最优策略。仿真结果表明,相较于基线算法,PER-D3QN有效降低了执行延时、终端能耗以及系统资源均衡方差。 展开更多
关键词 边缘计算 云边端协同 计算卸载 卸载策略 深度强化学习 优先经验重放 竞争网络
在线阅读 下载PDF
面向海量交通数据的HBase时空索引 被引量:9
10
作者 房俊 李冬 +1 位作者 郭会云 王嘉怡 《计算机应用》 CSCD 北大核心 2017年第2期311-315,共5页
针对HBase无法直接建立时空索引所带来的交通数据查询性能问题,基于HBase行键设计了面向海量交通数据的HBase时空索引。首先利用Geohash降维方法将二维空间位置数据转化为一维编码,再与时间维度进行组合;然后根据组合顺序的不同,提出了... 针对HBase无法直接建立时空索引所带来的交通数据查询性能问题,基于HBase行键设计了面向海量交通数据的HBase时空索引。首先利用Geohash降维方法将二维空间位置数据转化为一维编码,再与时间维度进行组合;然后根据组合顺序的不同,提出了四种结构模型,分别讨论了模型的具体构成以及交通数据查询中的适应面;最后提出了相应的时空索引管理算法及基于Hbase时空索引的交通数据查询方法。通过实验验证了提出的HBase时空索引结构能有效提升海量交通数据的区域查询性能,并比较了四种时空索引结构在不同数据规模、不同查询半径以及不同时间范围的查询性能,量化验证了不同索引结构在交通数据查询中的适应场景。 展开更多
关键词 海量交通数据 HBASE Geohash 时空索引 区域查询
在线阅读 下载PDF
面向发电设备预测性维护的传感数据特征抽取方法 被引量:11
11
作者 张守利 苏申 +1 位作者 刘晨 韩燕波 《太原理工大学学报》 CAS 北大核心 2018年第1期79-85,共7页
针对发电厂海量传感器数据,基于相关系数最大化的曲线排齐算法,提出了一种面向多传感序列的特征抽取方法,此方在尽量避免信息丢失的前提下,实现高维传感数据的特征抽取,建立轻量级预测模型。通过实验表明,本文方法能够在保证预测准确度... 针对发电厂海量传感器数据,基于相关系数最大化的曲线排齐算法,提出了一种面向多传感序列的特征抽取方法,此方在尽量避免信息丢失的前提下,实现高维传感数据的特征抽取,建立轻量级预测模型。通过实验表明,本文方法能够在保证预测准确度的前提下,减少预测模型的训练时间,降低模型的计算开销。 展开更多
关键词 预测性维护 特征提取 延迟相关 轻量级模型
在线阅读 下载PDF
基于历史车牌识别数据的套牌车并行检测方法 被引量:12
12
作者 李悦 刘晨 《计算机应用》 CSCD 北大核心 2016年第3期864-870,共7页
针对现有套牌车检测方法中所具有的成本高及检测效率低等缺点,提出一种基于历史车牌识别数据(ANPR)集的套牌车并行检测方法 TP-Finder,实现了基于整数划分的数据分块策略,能有效求解大规模数据并行处理时的数据倾斜问题,显著提升套牌车... 针对现有套牌车检测方法中所具有的成本高及检测效率低等缺点,提出一种基于历史车牌识别数据(ANPR)集的套牌车并行检测方法 TP-Finder,实现了基于整数划分的数据分块策略,能有效求解大规模数据并行处理时的数据倾斜问题,显著提升套牌车辆的发现性能。此外,实现了基于TP-Finder方法的套牌车辆查询系统,可准确呈现所有疑似套牌车辆的历史行车轨迹。最后,在某市真实交通数据集上对TP-Finder方法的性能进行了实验验证。实验结果表明,与缺省的MapReduce分块策略相比较,TP-Finder的分块策略能够带来最大20%的性能提升。 展开更多
关键词 套牌车 车牌识别数据集 数据倾斜 数据划分 MAPREDUCE
在线阅读 下载PDF
基于运动特征的多目标航迹生成方法
13
作者 张浩然 王桂玲 《计算机科学》 北大核心 2025年第8期154-161,共8页
在空间跟踪船海上多目标跟踪场景中,目标船的航迹关联一直是严峻的挑战。由于海洋表面是一个高度动态的环境,海杂波的存在有很强的不规则性和随机性,使得探测到的目标点中夹杂着大量的不真实点。对此,提出了一种基于运动特征的多目标航... 在空间跟踪船海上多目标跟踪场景中,目标船的航迹关联一直是严峻的挑战。由于海洋表面是一个高度动态的环境,海杂波的存在有很强的不规则性和随机性,使得探测到的目标点中夹杂着大量的不真实点。对此,提出了一种基于运动特征的多目标航迹生成方法,该方法包括预处理和航迹段关联两个关键环节。在预处理阶段,通过目标船数据的经纬度、速度和航向角的阈值剔除轨迹异常点,并采用基于B-spline的采样-分段-插值方法,增强目标轨迹的完整性、连续性和平滑性;在航迹段关联阶段,设计了一种结合运动特征和时间约束的多目标航迹关联策略。实际海域实验结果表明,该方法能够有效提高航迹生成的准确性和鲁棒性。 展开更多
关键词 雷达航迹关联 航迹插值 航迹生成 运动特征 多目标
在线阅读 下载PDF
一种大数据估价算法 被引量:3
14
作者 赵会群 吴凯锋 《计算机科学》 CSCD 北大核心 2020年第9期110-116,共7页
“大数据”已经成为计算机领域使用频率最高的专业词汇之一,而且已经逐渐变成了一个商品名称。无论是从学术研究角度,还是从数据交易需求角度,对大数据集的可用性进行评价都是一个新的问题。文中提出了一个大数据可用性评价模型,为学术... “大数据”已经成为计算机领域使用频率最高的专业词汇之一,而且已经逐渐变成了一个商品名称。无论是从学术研究角度,还是从数据交易需求角度,对大数据集的可用性进行评价都是一个新的问题。文中提出了一个大数据可用性评价模型,为学术和流通领域提供参考。结合大数据的4V(Volume,Variety,Velocity,Value)特性,分段统计样本数据的4V特性分布,从而给出基于分段分布的大数据特性概率模型,以及大数据可用性加权评价模型。文中还提出了实现大数据分块抽样的算法,以及大数据评价模型的各个特性加权系数的估计算法。结合视频大数据的可用性评价需求,展示所提模型和算法的具体应用。大数据可用性评价模型可以用于数据科学实验的数据评价,也可以用于大数据交易市场的数据集定价。给出了实际评价工作中,标准化(商品化)数据集以及确定数据评价基准等具体操作方面的解决方案。应用案例对所提模型有支持作用,进一步检验了模型的可行性。 展开更多
关键词 大数据可用性评价 概率模型 大数据分块算法 视频大数据
在线阅读 下载PDF
DANCE:一种面向云-端动态集成的服务适配方法 被引量:7
15
作者 张守利 刘晨 +1 位作者 韩燕波 李晓红 《计算机学报》 EI CSCD 北大核心 2020年第3期423-439,共17页
边缘计算可以通过将计算移到边缘设备上来提高大型物联网流数据处理质量以及降低网络运行成本.对于流数据处理,边缘设备通常只有有限的计算能力和存储能力,显然不能支持所有的实时流数据查询和处理.本文尝试引入服务并在边缘和云之间灵... 边缘计算可以通过将计算移到边缘设备上来提高大型物联网流数据处理质量以及降低网络运行成本.对于流数据处理,边缘设备通常只有有限的计算能力和存储能力,显然不能支持所有的实时流数据查询和处理.本文尝试引入服务并在边缘和云之间灵活地划分服务来实现云-端集成,云服务和端服务之间通过事件机制进行服务适配.物联网动态环境中,云-端服务的动态适配是使云基础设施和端设备间无缝集成的关键.动态集成背景下的服务适配需要把握适配时机来应对端服务适配请求的不确定性和非完全适配等难题.针对这一问题,论文提出了一种面向云-端动态集成的服务适配方法(Dynamic Adaption cloud Services with Edge Services,DANCE).这种方法的主要贡献在于:将云服务实例和端服务实例之间的适配问题建模为二分图顶点之间的动态匹配问题,同时结合排队论中的M/M/c/∞模型对二分图最优匹配Kuhn-Munkres算法进行了优化改进,保障适配过程中端服务实例的全局平均请求响应时间最小.最后,基于真实的电能质量监控案例和数据,验证了本文方法的有效性. 展开更多
关键词 云-端集成 云服务 端服务 流数据处理 服务适配
在线阅读 下载PDF
基于数字指纹的智能终端缓存一致性技术的研究 被引量:4
16
作者 张艳飞 王菁 韩燕波 《小型微型计算机系统》 CSCD 北大核心 2017年第1期40-43,共4页
针对智能终端存在与服务器数据不一致的问题,提出基于数字指纹的数据一致性保障方法.数字指纹又叫hash指纹,采用改进的BKDR哈希算法将消息数据和实体文件数据映射成相应的哈希码.将需要进行一致性处理的数据集按合适的粒度进行划分,并在... 针对智能终端存在与服务器数据不一致的问题,提出基于数字指纹的数据一致性保障方法.数字指纹又叫hash指纹,采用改进的BKDR哈希算法将消息数据和实体文件数据映射成相应的哈希码.将需要进行一致性处理的数据集按合适的粒度进行划分,并在SOAP消息中附带hash指纹提取协议,智能终端通过Web服务从服务器端获取需要的hash指纹信息文件,然后通过比较智能终端和服务器的hash指纹信息文件消除差异,从而保障智能终端缓存与服务器数据的一致性. 展开更多
关键词 智能终端 数据一致性 数字指纹 数据缓存 WEB服务
在线阅读 下载PDF
时序数据多维聚合查询服务的实现 被引量:4
17
作者 盛家 房俊 +1 位作者 郭晓乾 王承栋 《重庆大学学报(自然科学版)》 EI CAS CSCD 北大核心 2020年第7期121-128,共8页
随着电能质量监测点不断扩大,产生海量具有时序特性的多维电能质量数据,当前的诸多数据查询方法不能适应电网电能质量监测数据的交互式多维聚合查询需求。研究提出时序数据多维聚合服务的实现方法,为内存中预聚合后的任务结果建立哈希... 随着电能质量监测点不断扩大,产生海量具有时序特性的多维电能质量数据,当前的诸多数据查询方法不能适应电网电能质量监测数据的交互式多维聚合查询需求。研究提出时序数据多维聚合服务的实现方法,为内存中预聚合后的任务结果建立哈希存储结构,对实时数据建立位图索引存储结构,将历史数据的预聚合数据尽量存储于内存中,改进随机读写的低性能问题,提升查询效率,解决交互式查询问题。同时运用最优聚合任务算法选择出尽量多的预聚合任务数,提高交互式查询命中率。实验验证了该算法的可行性,与分组二维背包算法相比,在预聚合任务数量选择方面具有一定优势。 展开更多
关键词 时序数据 聚合查询 预聚合 交互式查询
在线阅读 下载PDF
面向高速乱序流的top-k连续查询方法 被引量:3
18
作者 武守晓 房俊 《郑州大学学报(理学版)》 北大核心 2021年第3期93-99,共7页
提出一种面向高速乱序流的top-k连续查询方法。使用基于缓存的方法等待迟到元组,但不对缓冲区内数据进行排序,通过统计运行信息实现缓存时长自适应,然后使用改造的MinTopk算法计算当前窗口的top-k结果集。实验结果表明,该方法在高速乱... 提出一种面向高速乱序流的top-k连续查询方法。使用基于缓存的方法等待迟到元组,但不对缓冲区内数据进行排序,通过统计运行信息实现缓存时长自适应,然后使用改造的MinTopk算法计算当前窗口的top-k结果集。实验结果表明,该方法在高速乱序流上实现了高效的top-k查询,在保证用户允许的最小正确率的情况下计算出最小缓存时长,减少了查询时延。 展开更多
关键词 高速乱序流 top-k连续查询 缓存时长自适应 查询时延
在线阅读 下载PDF
iBelt:一种事件日志的可解释聚类分析方法 被引量:2
19
作者 刘雯 王桂玲 《计算机集成制造系统》 EI CSCD 北大核心 2022年第10期3175-3186,共12页
鉴于当前大多数方法因在日志聚类结果上缺乏可解释性而影响应用,提出一种事件日志的可解释聚类分析方法iBelt。该方法定义“过程连接带”描述事件日志的分析结果,基于聚类树思想设计了提升聚类树模型,并采用方差和判别特征分析的无监督... 鉴于当前大多数方法因在日志聚类结果上缺乏可解释性而影响应用,提出一种事件日志的可解释聚类分析方法iBelt。该方法定义“过程连接带”描述事件日志的分析结果,基于聚类树思想设计了提升聚类树模型,并采用方差和判别特征分析的无监督特征选择方法提升已有方法的聚类效果和拟合度,解决了高维数据影响过程连接带可解释性的弊端。通过公开数据集上的实验结果表明,所提方法分析得到的过程连接带具有简洁易懂的可解释规则,提升了对应过程模型的质量。 展开更多
关键词 过程挖掘 轨迹聚类 可解释性聚类 决策树
在线阅读 下载PDF
基于数据集元特征的超参数优化方法 被引量:1
20
作者 焦博扬 王菁 +2 位作者 朱峰 郭浩浩 杨中国 《燕山大学学报》 CAS 北大核心 2023年第3期273-282,共10页
超参数优化问题一直是自动化机器学习研究的重点问题,针对特定的需求建立机器学习模型,需要调整大量的超参数。其中,超参数组合形成了大规模的超参数搜索空间,从而需要大量的运行时间。然而,有效探索大量超参数组合具有一定的挑战,现有... 超参数优化问题一直是自动化机器学习研究的重点问题,针对特定的需求建立机器学习模型,需要调整大量的超参数。其中,超参数组合形成了大规模的超参数搜索空间,从而需要大量的运行时间。然而,有效探索大量超参数组合具有一定的挑战,现有的自动化超参数优化方法时间复杂度很高。为此,利用相似数据集的最优超参数区间的历史知识,提出了一种基于数据集元特征的超参数优化方法。首先,使用自动化机器学习系统寻找最优超参数的区间范围,然后对历史数据集元特征采用递归特征消除法进行特征提取作为特征向量,将此特征向量与最优超参数区间的对应关系利用XGBoost算法建立预测模型,并使用该模型预测新数据集的最优超参数区间。对OpenML平台的数据集进行实验,结果表明该方法预测的最优超参数区间的精度达87%。同时,把此预测区间作为自动化机器学习系统的搜索空间范围,在很大程度上缩短了运行时间,且确保一定的性能。 展开更多
关键词 超参数优化 自动化机器学习 数据集元特征 递归特征消除 特征向量
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部