期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
基于分层强化学习的低过载比拦截制导律
1
作者 王旭 蔡远利 +2 位作者 张学成 张荣良 韩成龙 《空天防御》 2024年第1期40-47,共8页
为解决低过载比和纯角度量测等约束下的三维机动目标拦截制导问题,提出了一种基于分层强化学习的拦截制导律。首先将问题建模为马尔科夫决策过程模型,并考虑拦截能量消耗与弹目视线角速率,设计了一种启发式奖赏函数。其次通过构建具有... 为解决低过载比和纯角度量测等约束下的三维机动目标拦截制导问题,提出了一种基于分层强化学习的拦截制导律。首先将问题建模为马尔科夫决策过程模型,并考虑拦截能量消耗与弹目视线角速率,设计了一种启发式奖赏函数。其次通过构建具有双层结构的策略网络,并利用上层策略规划阶段性子目标来指导下层策略生成所需的制导指令,实现了拦截交战过程中的视线角速率收敛,以保证能成功拦截机动目标。仿真结果验证了所提出的方法较增强比例导引具有更高的拦截精度和拦截概率,且拦截过程的需用过载更低。 展开更多
关键词 末制导 机动目标拦截 低过载比 分层强化学习
在线阅读 下载PDF
基于分层强化学习的矿区无人驾驶车辆路径规划算法
2
作者 魏晓娟 李纪云 巩闯 《金属矿山》 CAS 北大核心 2024年第11期192-198,共7页
在复杂而危险的矿区环境中,矿区无人驾驶车辆的路径规划涉及如何使车辆智能地选择最佳路径,以实现安全和高效运行。然而,传统的路径规划算法难以有效应对矿区内多变的路况和环境。提出了一种基于分层强化学习的矿区无人驾驶车辆路径规... 在复杂而危险的矿区环境中,矿区无人驾驶车辆的路径规划涉及如何使车辆智能地选择最佳路径,以实现安全和高效运行。然而,传统的路径规划算法难以有效应对矿区内多变的路况和环境。提出了一种基于分层强化学习的矿区无人驾驶车辆路径规划算法,该算法通过分层强化学习技术训练图指针网络,求解矿区无人驾驶车辆路径规划问题。为将矿区无人驾驶车辆节点的向量映射成低维稠密向量,首先对图嵌入层的上下文向量进行均值化处理,用于保持网络的全局属性。再将交叉熵损失函数的范式加入分层强化学习的基准函数中,用于衡量2个不同驾驶车辆间的差异分布程度。试验结果表明:该算法在复杂的矿区环境下能够实现高效、安全、智能的路径选择,且模型收敛速度、时间花费上的优化效果优于传统算法和专业求解器,并具有良好的适应性和泛化能力。研究结果对于提高矿区无人驾驶的自主性、效率和安全性具有重要意义。 展开更多
关键词 矿区无人驾驶车辆 分层强化学习 路径规划 图指针网络
在线阅读 下载PDF
基于分层强化学习的多智能体博弈策略生成方法
3
作者 畅鑫 李艳斌 刘东辉 《无线电工程》 2024年第6期1361-1367,共7页
典型基于深度强化学习的多智能体对抗策略生成方法采用“分总”框架,各智能体基于部分可观测信息生成策略并进行决策,缺乏从整体角度生成对抗策略的能力,大大限制了决策能力。为了解决该问题,基于分层强化学习提出改进的多智能体博弈策... 典型基于深度强化学习的多智能体对抗策略生成方法采用“分总”框架,各智能体基于部分可观测信息生成策略并进行决策,缺乏从整体角度生成对抗策略的能力,大大限制了决策能力。为了解决该问题,基于分层强化学习提出改进的多智能体博弈策略生成方法。基于分层强化学习构建观测信息到整体价值的决策映射,以最大化整体价值作为目标构建优化问题,并推导了策略优化过程,为后续框架结构和方法实现的设计提供了理论依据;基于决策映射与优化问题构建,采用神经网络设计了模型框架,详细阐述了顶层策略控制模型和个体策略执行模型;基于策略优化方法,给出详细训练流程和算法流程;采用星际争霸多智能体对抗(StarCraft Multi-Agent Challenge,SMAC)环境,与典型多智能体方法进行性能对比。实验结果表明,该方法能够有效生成对抗策略,控制异构多智能体战胜预设对手策略,相比典型多智能体强化学习方法性能提升明显。 展开更多
关键词 分层强化学习 多智能体博弈 深度神经网络
在线阅读 下载PDF
基于可中断Option的在线分层强化学习方法 被引量:4
4
作者 朱斐 许志鹏 +2 位作者 刘全 伏玉琛 王辉 《通信学报》 EI CSCD 北大核心 2016年第6期65-74,共10页
针对大数据体量大的问题,在Macro-Q算法的基础上提出了一种在线更新的Macro-Q算法(MQIU),同时更新抽象动作的值函数和元动作的值函数,提高了数据样本的利用率。针对传统的马尔可夫过程模型和抽象动作均难于应对可变性,引入中断机制,提... 针对大数据体量大的问题,在Macro-Q算法的基础上提出了一种在线更新的Macro-Q算法(MQIU),同时更新抽象动作的值函数和元动作的值函数,提高了数据样本的利用率。针对传统的马尔可夫过程模型和抽象动作均难于应对可变性,引入中断机制,提出了一种可中断抽象动作的Macro-Q无模型学习算法(IMQ),能在动态环境下学习并改进控制策略。仿真结果验证了MQIU算法能加快算法收敛速度,进而能解决更大规模的问题,同时也验证了IMQ算法能够加快任务的求解,并保持学习性能的稳定性。 展开更多
关键词 大数据 强化学习 分层强化学习 OPTION 在线学习
在线阅读 下载PDF
基于分层强化学习的无人机空战多维决策 被引量:10
5
作者 张建东 王鼎涵 +3 位作者 杨啟明 史国庆 陆屹 张耀中 《兵工学报》 EI CAS CSCD 北大核心 2023年第6期1547-1563,共17页
针对无人机空战过程中面临的智能决策问题,基于分层强化学习架构建立无人机智能空战的多维决策模型。将空战自主决策由单一维度的机动决策扩展到雷达开关、主动干扰、队形转换、目标探测、目标追踪、干扰规避、武器选择等多个维度,实现... 针对无人机空战过程中面临的智能决策问题,基于分层强化学习架构建立无人机智能空战的多维决策模型。将空战自主决策由单一维度的机动决策扩展到雷达开关、主动干扰、队形转换、目标探测、目标追踪、干扰规避、武器选择等多个维度,实现空战主要环节的自主决策;为解决维度扩展后决策模型状态空间复杂度、学习效率低的问题,结合Soft Actor-Critic算法和专家经验训练和建立元策略组,并改进传统的Option-Critic算法,设计优化策略终止函数,提高策略的切换的灵活性,实现空战中多个维度决策的无缝切换。实验结果表明,该模型在无人机空战全流程的多维度决策问题中具有较好的对抗效果,能够控制智能体根据不同的战场态势灵活切换干扰、搜索、打击、规避等策略,达到提升传统算法性能和提高解决复杂决策效率的目的。 展开更多
关键词 无人机空战 多维决策 分层强化学习 Soft Actor-Critic算法 Option-Critic算法
在线阅读 下载PDF
基于免疫聚类的自动分层强化学习方法研究 被引量:2
6
作者 沈晶 顾国昌 刘海波 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2007年第4期423-428,共6页
为解决分层强化学习中现有的自动分层方法对环境和状态空间特性依赖过强的问题,提出了一种基于免疫聚类的自动分层强化学习方法.该方法以Sutton提出的Option框架为基础,在学习的初始阶段,每个Option仅包含一个入口状态且执行平坦策略,... 为解决分层强化学习中现有的自动分层方法对环境和状态空间特性依赖过强的问题,提出了一种基于免疫聚类的自动分层强化学习方法.该方法以Sutton提出的Option框架为基础,在学习的初始阶段,每个Option仅包含一个入口状态且执行平坦策略,经过若干个学习周期对环境进行充分探测后,应用免疫聚类方法对状态空间进行聚类,同时生成每个聚类空间下的Option,并在学习过程中完成内部策略的学习,从而实现自动分层.以二维有障碍栅格空间内路径规划为问题背景进行了仿真实验,仿真结果表明该方法不受状态空间的结构性和可分割性以及强化信号延迟的影响. 展开更多
关键词 分层强化学习 自动分层 免疫聚类
在线阅读 下载PDF
基于分层强化学习的AUV路径跟踪技术研究 被引量:2
7
作者 潘昕 冯国利 侯新国 《海军工程大学学报》 CAS 北大核心 2021年第3期106-112,共7页
针对传统的欠驱动无人自主水下航行器路径跟踪技术依赖于精确的运动模型,且在三维空间中的应用存在着理论推导复杂、实际应用价值不高的缺点,首先将路径跟踪看作部分马尔科夫决策过程,通过在Soft Actor Critic框架中引入LSTM网络,提出LS... 针对传统的欠驱动无人自主水下航行器路径跟踪技术依赖于精确的运动模型,且在三维空间中的应用存在着理论推导复杂、实际应用价值不高的缺点,首先将路径跟踪看作部分马尔科夫决策过程,通过在Soft Actor Critic框架中引入LSTM网络,提出LSTM-SAC算法解决二维路径跟踪问题;然后,将三维空间的跟踪问题利用分层思想划分到xOy和xOz两个子平面求解,在子平面中以较少的状态变量训练网络。仿真结果表明:所提算法具有更好的鲁棒性和更快的收敛速度,能够有效解决三维环境下的路径跟踪问题。 展开更多
关键词 AUV 路径跟踪 部分马尔科夫决策过程 分层强化学习
在线阅读 下载PDF
稀疏奖励环境中的分层强化学习 被引量:1
8
作者 欧阳名三 冯舒心 《佳木斯大学学报(自然科学版)》 CAS 2022年第2期54-57,共4页
针对强化学习的稀疏奖励问题,提出一种基于子目标的分层强化学习算法。该算法利用分层学习框架将学习任务分解为两个抽象级别,上层控制器根据策略选择子目标,底层控制器中的批判函数提供适当的内部奖励,使用神经网络训练价值函数,进行... 针对强化学习的稀疏奖励问题,提出一种基于子目标的分层强化学习算法。该算法利用分层学习框架将学习任务分解为两个抽象级别,上层控制器根据策略选择子目标,底层控制器中的批判函数提供适当的内部奖励,使用神经网络训练价值函数,进行动作的选择和策略的更新,直到完成子目标或完成整个学习任务,子目标集合由启发式异常检测结合密度峰值聚类自动创建。与传统强化学习算法以及基于k-means的分层强化学习算法在路径导航仿真问题中进行了对比实验,实验表明,该算法在稀疏延时反馈的环境中具有较高的稳定性和学习效率。 展开更多
关键词 分层强化学习 稀疏奖励 密度峰值聚类 路径导航
在线阅读 下载PDF
用于分层强化学习的最小k-聚类算法
9
作者 王本年 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2006年第5期533-535,共3页
在学习过程中自动发现有用的Subgoal,对于分层强化学习有着重要的意义。文章提出了一种最小k-聚类算法,该算法能通过对在线获取的少量路径数据进行聚类的方法,抽取出有用的Subgoal;实验表明,该算法能有效地发现所有符合要求的Subgoal,... 在学习过程中自动发现有用的Subgoal,对于分层强化学习有着重要的意义。文章提出了一种最小k-聚类算法,该算法能通过对在线获取的少量路径数据进行聚类的方法,抽取出有用的Subgoal;实验表明,该算法能有效地发现所有符合要求的Subgoal,较多样性密度算法和FD算法有更强的Subgoal发现能力。 展开更多
关键词 k-聚类算法 分层强化学习 子目标
在线阅读 下载PDF
基于分层强化学习的联合作战仿真作战决策算法 被引量:7
10
作者 于博文 吕明 张捷 《火力与指挥控制》 CSCD 北大核心 2021年第10期140-146,共7页
如何对复杂装备体系进行有效的认知决策,一直以来都是联合作战研究领域中的热点与难点,采用一种具有较强适应性的决策算法,对于应对战场突发状况具有重要意义。通过结合近端策略优化和分层强化学习,提出了一种基于分层强化学习的联合作... 如何对复杂装备体系进行有效的认知决策,一直以来都是联合作战研究领域中的热点与难点,采用一种具有较强适应性的决策算法,对于应对战场突发状况具有重要意义。通过结合近端策略优化和分层强化学习,提出了一种基于分层强化学习的联合作战仿真作战决策算法,以空地一体化联合作战为背景进行作战想定,结合自主设计的作战原型系统,分析了武器装备体系作战决策流程,对分层强化学习的层次结构、奖励函数的设计、决策网络结构和训练方法进行了详细说明。通过自主开发的仿真平台对算法的有效性进行验证,为联合作战中指挥决策的适应性机制问题提供较为有效的解决方法和辅助参考价值。 展开更多
关键词 联合作战 作战仿真 作战决策 分层强化学习 近端优化
在线阅读 下载PDF
基于分层强化学习的机械臂复杂操作技能学习方法 被引量:1
11
作者 孟子晗 高翔 +1 位作者 刘元归 马陈昊 《现代电子技术》 2023年第19期116-124,共9页
在面对复杂任务时,传统强化学习方法存在状态空间庞大、奖励函数稀疏等问题,导致机械臂不能学习到复杂的操作技能。针对上述问题,提出一种基于分层强化学习的机械臂复杂操作技能学习方法。首先,底层运用基于Beta过程的自回归隐马尔可夫... 在面对复杂任务时,传统强化学习方法存在状态空间庞大、奖励函数稀疏等问题,导致机械臂不能学习到复杂的操作技能。针对上述问题,提出一种基于分层强化学习的机械臂复杂操作技能学习方法。首先,底层运用基于Beta过程的自回归隐马尔可夫模型,将复杂操作任务分解为多个简单的子任务;其次,对每个子任务运用SAC算法进行技能学习,得到每个子任务的最优策略;最后,根据底层得到的子任务最优策略,上层通过基于最大熵目标的改进强化学习算法学习复杂操作技能。实验结果表明,所提方法能有效实现机械臂复杂操作技能的学习、再现与泛化,并在性能上优于其他传统强化学习算法。 展开更多
关键词 机械臂 复杂操作任务 分层强化学习 子目标 自回归隐马尔可夫模型 SAC算法
在线阅读 下载PDF
基于MAXQ分层强化学习的有人机/无人机协同路径规划研究 被引量:5
12
作者 程先峰 严勇杰 《信息化研究》 2020年第1期13-19,共7页
针对有人机/无人机混合运行的复杂任务和环境下,很难为无人机协调行为设计合适的控制策略和控制参数的问题,文章设计了基于对策论的无人机强化学习模型与算法。针对无人机/有人机协调的特点,结合MAXQ分层强化学习和Multi-agent的优点,... 针对有人机/无人机混合运行的复杂任务和环境下,很难为无人机协调行为设计合适的控制策略和控制参数的问题,文章设计了基于对策论的无人机强化学习模型与算法。针对无人机/有人机协调的特点,结合MAXQ分层强化学习和Multi-agent的优点,采用了一种基于MAXQ的Multi-agent分层强化学习的无人机协调方法,增强了无人机在混合运行复杂环境下适应环境和自协调的能力。 展开更多
关键词 有人机/无人机协同 分层强化学习 协同路径规划
在线阅读 下载PDF
基于分层式强化学习的移动机器人导航控制 被引量:2
13
作者 陈春林 陈宗海 +1 位作者 卓睿 周光明 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2006年第1期70-75,共6页
针对未知环境下的移动机器人导航问题,本文提出了一种基于分层式强化学习的混合式控制方法。利用栅格-拓扑相结合的环境表示及地图学习方法,通过分层式强化学习在不同控制层次的扩展设计移动机器人的反应式和慎思式导航控制,实现了全局... 针对未知环境下的移动机器人导航问题,本文提出了一种基于分层式强化学习的混合式控制方法。利用栅格-拓扑相结合的环境表示及地图学习方法,通过分层式强化学习在不同控制层次的扩展设计移动机器人的反应式和慎思式导航控制,实现了全局导航和局部导航控制的协调优化。实验及测试结果证明,该控制方法能实现导航任务的全局优化,避免陷入局部极小,并对未知动态环境具有较强的适应性。 展开更多
关键词 分层强化学习 栅格-拓扑地图 移动机器人 导航控制
在线阅读 下载PDF
强化学习算法在超视距空战辅助决策上的应用研究 被引量:14
14
作者 吴宜珈 赖俊 +2 位作者 陈希亮 曹雷 徐鹏 《航空兵器》 CSCD 北大核心 2021年第2期55-61,共7页
针对近端策略优化算法在空战智能决策过程中面临的动作空间过大、难收敛等问题,提出基于option的近端策略分层优化算法,构建了基于强化学习的空战智能决策模型框架,并在超视距空战仿真模型中进行了对抗性实验并可视化。实验结果表明,近... 针对近端策略优化算法在空战智能决策过程中面临的动作空间过大、难收敛等问题,提出基于option的近端策略分层优化算法,构建了基于强化学习的空战智能决策模型框架,并在超视距空战仿真模型中进行了对抗性实验并可视化。实验结果表明,近端策略分层优化算法能够驱动智能体在对抗过程中产生迂回攻击等战术行为,达到提升传统算法性能和提高空战博弈决策效率的目的。 展开更多
关键词 超视距空战 智能决策 人工智能 强化学习 近端策略优化算法 分层强化学习
在线阅读 下载PDF
基于改进H-AC算法的冷源系统节能优化控制策略
15
作者 周璇 莫浩华 闫军威 《华南理工大学学报(自然科学版)》 北大核心 2025年第1期21-31,共11页
中央空调冷源设备台数与运行参数的优化是一类离散与连续变量的协同优化问题,而经典强化学习算法难以优化此类问题。为此,该文提出了一种结合选项-评论者与演员-评论者框架的中央空调冷源系统节能优化控制策略。首先,采用分层演员-评论... 中央空调冷源设备台数与运行参数的优化是一类离散与连续变量的协同优化问题,而经典强化学习算法难以优化此类问题。为此,该文提出了一种结合选项-评论者与演员-评论者框架的中央空调冷源系统节能优化控制策略。首先,采用分层演员-评论者(H-AC)算法分层优化设备台数与运行参数,且高层和底层模型共用Q网络评估状态价值,以解决多时间尺度下的优化难题;然后,在智能体架构、策略与网络更新方式等方面对H-AC算法进行改进,以加速智能体的收敛;最后,以夏热冬暖地区某科研办公建筑中央空调冷源系统为研究对象,基于冷源系统TRNSYS仿真平台进行实验。结果表明:在平均室内舒适时间占比分别增加14.08、11.23、29.70、9.07个百分比的前提下,基于改进H-AC算法的系统能耗分别比其他4种常规深度强化学习算法减少了32.28%、28.55%、28.63%、11.53%;虽然基于改进H-AC算法的系统能耗比基于选项-评论者框架的算法增加了0.27%,但获得了更平稳的学习过程且平均室内舒适时间占比增加了4.8个百分点。该文算法可为各类建筑中央空调冷源系统节能优化提供有效的技术手段,助力建筑“双碳”目标的实现。 展开更多
关键词 冷源系统 TRNSYS仿真平台 深度分层强化学习 选项-评论者框架 协同优化
在线阅读 下载PDF
考虑威胁区通行概率的变体飞行器轨迹规划 被引量:1
16
作者 王翰桐 禹春梅 程晓明 《航天控制》 CSCD 2024年第2期35-41,共7页
针对威胁区交叉重叠且全覆盖飞行路径的变体飞行器轨迹规划问题,提出了一种考虑威胁区通行概率和变外形参数优化的轨迹规划方法。基于分层强化学习思想,通过设置飞行环境集合、决策选项、代价函数、Q函数以及选项内的策略等,建立了变体... 针对威胁区交叉重叠且全覆盖飞行路径的变体飞行器轨迹规划问题,提出了一种考虑威胁区通行概率和变外形参数优化的轨迹规划方法。基于分层强化学习思想,通过设置飞行环境集合、决策选项、代价函数、Q函数以及选项内的策略等,建立了变体飞行器路径决策的分层强化学习模型;通过训练得到的评价网络,能够结合威胁区通行概率对实际的场景进行路径决策;根据飞行器可变外形的特点,优化所得决策结果的参数,得到全过程的通行轨迹和外形形态。仿真结果表明,该方法能够根据实际情况实时决策飞行路径,经过优化后得到全过程的优化轨迹和飞行形态。 展开更多
关键词 变体飞行器 威胁区 路径决策 轨迹规划 分层强化学习
在线阅读 下载PDF
基于近似动态规划的多级火箭全程任务决策
17
作者 李超兵 包为民 +2 位作者 李忠奎 禹春梅 程晓明 《宇航学报》 EI CAS CSCD 北大核心 2024年第8期1251-1260,共10页
针对火箭发生推力下降故障下的任务决策问题,提出了一种基于近似动态规划的多级火箭全程任务决策方法。首先,通过设置初始状态集合、决策选项、奖励函数、Q函数迭代方法等,建立了火箭任务决策分层强化学习模型,得到对火箭后续飞行进行... 针对火箭发生推力下降故障下的任务决策问题,提出了一种基于近似动态规划的多级火箭全程任务决策方法。首先,通过设置初始状态集合、决策选项、奖励函数、Q函数迭代方法等,建立了火箭任务决策分层强化学习模型,得到对火箭后续飞行进行评价的“评价网络”;然后利用基于凸优化的在线能力评估和轨迹规划方法,得到近似动态规划原理中的“决策生成”模块;最后,通过两者结合完成对火箭故障下后续飞行中连续轨迹和各级飞行段离散轨道根数等的决策。仿真结果表明该方法能够在非致命推力下降故障下实现火箭全程飞行任务决策并给出飞行轨迹。 展开更多
关键词 运载火箭 推力故障 任务决策 近似动态规划 分层强化学习
在线阅读 下载PDF
海空跨域协同兵棋AI架构设计及关键技术分析 被引量:1
18
作者 苏炯铭 罗俊仁 +1 位作者 陈少飞 项凤涛 《指挥控制与仿真》 2024年第2期35-43,共9页
以深度强化学习为核心的智能博弈技术在游戏领域内的突破和进展为海空兵棋AI的研究提供了借鉴。智能体架构设计是需要解决的关键问题,良好的架构能够降低算法训练的复杂度和难度,加快策略收敛。提出基于随机博弈的海空跨域协同决策博弈... 以深度强化学习为核心的智能博弈技术在游戏领域内的突破和进展为海空兵棋AI的研究提供了借鉴。智能体架构设计是需要解决的关键问题,良好的架构能够降低算法训练的复杂度和难度,加快策略收敛。提出基于随机博弈的海空跨域协同决策博弈模型,分析了相关的均衡解概念;在分析典型智能体框架基础上,针对海空兵棋推演决策博弈过程,提出基于多智能体分层强化学习的智能体双层架构,能够有效解决智能体间协作和维度灾难问题;从兵力协同、智能体网络设计、对手建模和训练机制共4个方面分析了关键技术。期望为海空兵棋AI设计实现提供架构指导。 展开更多
关键词 海空兵棋 跨域协同 兵棋推演 多智能体 智能博弈 模型架构 分层强化学习
在线阅读 下载PDF
基于脉冲神经网络的指挥智能体技术
19
作者 王栋 赵彦东 陈希飞 《火力与指挥控制》 CSCD 北大核心 2024年第5期36-43,51,共9页
针对现有智能体技术应用于军事指挥控制领域中时存在计算资源需求高、奖励值稀疏、收敛速度慢、推理效果差的问题,提出了一种基于脉冲神经网络(spiking neural network,SNN)和分层强化学习的指挥智能体技术。基于分层强化学习思想对军... 针对现有智能体技术应用于军事指挥控制领域中时存在计算资源需求高、奖励值稀疏、收敛速度慢、推理效果差的问题,提出了一种基于脉冲神经网络(spiking neural network,SNN)和分层强化学习的指挥智能体技术。基于分层强化学习思想对军事指挥智能体进行建模,利用SNN构建智能体决策模型;通过ANN-SNN转换的学习算法获得基于SNN的指挥智能体;基于“墨子”兵棋推演软件开展对比试验,与现有智能体技术相比,提出方法对计算资源的需求较低,且具有较高的博弈对抗胜率。 展开更多
关键词 脉冲神经网络 分层强化学习 指挥智能体 ANN-SNN
在线阅读 下载PDF
基于启发式奖赏塑形方法的智能化攻击路径发现
20
作者 曾庆伟 张国敏 +1 位作者 邢长友 宋丽华 《信息安全学报》 CSCD 2024年第3期44-58,共15页
渗透测试作为一种评估网络系统安全性能的重要手段,是以攻击者的角度模拟真实的网络攻击,找出网络系统中的脆弱点。而自动化渗透测试则是利用各种智能化方法实现渗透测试过程的自动化,从而大幅降低渗透测试的成本。攻击路径发现作为自... 渗透测试作为一种评估网络系统安全性能的重要手段,是以攻击者的角度模拟真实的网络攻击,找出网络系统中的脆弱点。而自动化渗透测试则是利用各种智能化方法实现渗透测试过程的自动化,从而大幅降低渗透测试的成本。攻击路径发现作为自动化渗透测试中的关键技术,如何快速有效地在网络系统中实现智能化攻击路径发现,一直受到学术界的广泛关注。现有的自动化渗透测试方法主要基于强化学习框架实现智能化攻击路径发现,但还存在奖赏稀疏、学习效率低等问题,导致算法收敛速度慢,攻击路径发现难以满足渗透测试的高时效性需求。为此,提出一种基于势能的启发式奖赏塑形函数的分层强化学习算法(HRL-HRSF),该算法首先利用渗透测试的特性,根据网络攻击的先验知识提出了一种基于深度横向渗透的启发式方法,并利用该启发式方法设计出基于势能的启发式奖赏塑形函数,以此为智能体前期探索提供正向反馈,有效缓解了奖赏稀疏的问题;然后将该塑形函数与分层强化学习算法相结合,不仅能够有效减少环境状态空间与动作空间大小,还能大幅度提高智能体在攻击路径发现过程中的奖赏反馈,加快智能体的学习效率。实验结果表明,HRL-HRSF相较于没有奖赏塑形的分层强化学习算法、DQN及其改进算法更加快速有效,并且随着网络规模和主机漏洞数目的增大,HRL-HRSF均能保持更好地学习效率,拥有良好的鲁棒性和泛化性。 展开更多
关键词 自动化渗透测试 奖赏塑形 分层强化学习 攻击路径发现 DQN算法
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部