期刊文献+
共找到91篇文章
< 1 2 5 >
每页显示 20 50 100
Hierarchical reinforcement learning guidance with threat avoidance 被引量:1
1
作者 LI Bohao WU Yunjie LI Guofei 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2022年第5期1173-1185,共13页
The guidance strategy is an extremely critical factor in determining the striking effect of the missile operation.A novel guidance law is presented by exploiting the deep reinforcement learning(DRL)with the hierarchic... The guidance strategy is an extremely critical factor in determining the striking effect of the missile operation.A novel guidance law is presented by exploiting the deep reinforcement learning(DRL)with the hierarchical deep deterministic policy gradient(DDPG)algorithm.The reward functions are constructed to minimize the line-of-sight(LOS)angle rate and avoid the threat caused by the opposed obstacles.To attenuate the chattering of the acceleration,a hierarchical reinforcement learning structure and an improved reward function with action penalty are put forward.The simulation results validate that the missile under the proposed method can hit the target successfully and keep away from the threatened areas effectively. 展开更多
关键词 guidance law deep reinforcement learning(DRL) threat avoidance hierarchical reinforcement learning
在线阅读 下载PDF
基于深度强化学习的高速列车驾驶策略优化 被引量:1
2
作者 徐凯 张皓桐 +2 位作者 张淼 张洋 吴仕勋 《铁道科学与工程学报》 北大核心 2025年第1期25-37,共13页
深度强化学习(DRL)是提高高速列车能源效率和运行质量最有前途的技术之一,但目前仍然存在着一些问题,限制了其在实际应用中的效果。现有解决方案存在以下两方面问题:首先,在高速列车运行环境下,DRL在处理庞大状态空间时表现不佳;其次,... 深度强化学习(DRL)是提高高速列车能源效率和运行质量最有前途的技术之一,但目前仍然存在着一些问题,限制了其在实际应用中的效果。现有解决方案存在以下两方面问题:首先,在高速列车运行环境下,DRL在处理庞大状态空间时表现不佳;其次,由于固定奖励函数难以适应不同调度运行时刻下的能效差异,智能体将受到不准确信号的干扰,通常采用手动方式调整。鉴于此,本研究在极大值原理基础上,综合考虑影响列车能效的诸多因素,提出一种高速列车智能驾驶策略的分层次优化的深度强化学习算法(HODRL)。该算法从结构上分为分层优化层和强化学习层。分层优化层利用先验知识降低智能体的探索复杂度,并根据能效场景重塑奖励函数,以实现对能效和时间等多个目标探索的有效平衡;而强化学习层则采取双延迟深度确定性策略梯度(TD3)算法,将其用于连续的动作空间,以提高列车操控的精确度。通过实验验证了HODRL算法在提升能效和准时性等方面的有效性,该算法平均减少79.68%的无效状态空间,并让智能体获得正确的奖励信号,预计节能和智能体实际节能相比均值误差为1.99kWh,方差为0.91kWh。所提算法仅需要TD3算法15.26%的训练时间即可收敛,并与其他基线算法相比较,在时间误差为±0.1%并保证乘客舒适度时,相比PPO、DDPG、TD3、PMP算法分别能耗减少了1.29%,5.70%,1.69%,3.27%。研究结果可为进一步优化高速列车驾驶策略和保障高速列车安全运营提供有效参考。 展开更多
关键词 高速列车 分层次优化 深度强化学习 状态空间约束 奖励重塑
在线阅读 下载PDF
基于改进H-AC算法的冷源系统节能优化控制策略 被引量:1
3
作者 周璇 莫浩华 闫军威 《华南理工大学学报(自然科学版)》 北大核心 2025年第1期21-31,共11页
中央空调冷源设备台数与运行参数的优化是一类离散与连续变量的协同优化问题,而经典强化学习算法难以优化此类问题。为此,该文提出了一种结合选项-评论者与演员-评论者框架的中央空调冷源系统节能优化控制策略。首先,采用分层演员-评论... 中央空调冷源设备台数与运行参数的优化是一类离散与连续变量的协同优化问题,而经典强化学习算法难以优化此类问题。为此,该文提出了一种结合选项-评论者与演员-评论者框架的中央空调冷源系统节能优化控制策略。首先,采用分层演员-评论者(H-AC)算法分层优化设备台数与运行参数,且高层和底层模型共用Q网络评估状态价值,以解决多时间尺度下的优化难题;然后,在智能体架构、策略与网络更新方式等方面对H-AC算法进行改进,以加速智能体的收敛;最后,以夏热冬暖地区某科研办公建筑中央空调冷源系统为研究对象,基于冷源系统TRNSYS仿真平台进行实验。结果表明:在平均室内舒适时间占比分别增加14.08、11.23、29.70、9.07个百分比的前提下,基于改进H-AC算法的系统能耗分别比其他4种常规深度强化学习算法减少了32.28%、28.55%、28.63%、11.53%;虽然基于改进H-AC算法的系统能耗比基于选项-评论者框架的算法增加了0.27%,但获得了更平稳的学习过程且平均室内舒适时间占比增加了4.8个百分点。该文算法可为各类建筑中央空调冷源系统节能优化提供有效的技术手段,助力建筑“双碳”目标的实现。 展开更多
关键词 冷源系统 TRNSYS仿真平台 深度分层强化学习 选项-评论者框架 协同优化
在线阅读 下载PDF
基于动态分层强化学习的知识图谱推理 被引量:1
4
作者 杨旭华 高良煜 《小型微型计算机系统》 北大核心 2025年第5期1081-1088,共8页
强化学习可以将知识图谱多跳推理建模成马尔科夫序列决策过程,提高预测实体的准确性和可解释性,是当前的研究热点.现有的强化知识推理任务经常涉及庞大的状态和动作空间,容易造成维度灾难,从而导致算法在解决复杂的动作选择问题时表现不... 强化学习可以将知识图谱多跳推理建模成马尔科夫序列决策过程,提高预测实体的准确性和可解释性,是当前的研究热点.现有的强化知识推理任务经常涉及庞大的状态和动作空间,容易造成维度灾难,从而导致算法在解决复杂的动作选择问题时表现不佳;同时大多数知识图谱存在不完整的问题,导致模型在推理时无法高效地搜索路径.为了应对上述挑战,本文提出一种基于动态分层强化学习的知识图谱推理模型,将知识推理分解成三级分层决策任务,每一级都有一个智能体从各自的动作空间中做出选择,从而降低了问题的复杂度.具体地,首先选择关系,其次选择与关系相连的预聚类的实体簇,最后采用动态选择机制从实体簇中选择相应的尾实体.此外,本文设计一个同时考虑答案准确性和路径合理性的的奖励重塑函数,指导智能体选择更为合理的路径,同时缓解奖励稀疏的问题.本文在3个基准数据集上将所提出的模型与7种知名推理方法进行比较,实验结果表明本文所提方法取得了非常具有竞争力的结果. 展开更多
关键词 知识图谱推理 动态分层强化学习 动态选择 奖励重塑
在线阅读 下载PDF
缓存辅助的移动边缘计算任务卸载与资源分配
5
作者 李致远 陈品润 《计算机工程与设计》 北大核心 2025年第5期1248-1255,共8页
针对边缘计算网络环境下的计算任务卸载与资源分配问题,提出一种基于分层强化学习的联合优化缓存、卸载与资源分配(HRLJCORA)算法。以时延和能耗为优化目标,将原优化问题分解为两个子问题,下层利用深度Q-learning网络算法进行缓存决策,... 针对边缘计算网络环境下的计算任务卸载与资源分配问题,提出一种基于分层强化学习的联合优化缓存、卸载与资源分配(HRLJCORA)算法。以时延和能耗为优化目标,将原优化问题分解为两个子问题,下层利用深度Q-learning网络算法进行缓存决策,上层使用软动作评价算法进行计算任务卸载与资源分配决策。仿真实验结果表明,HRLJCORA算法与现有基线算法相比,有效降低了总开销,相较于联合优化计算任务卸载与资源分配(JORA)算法,卸载决策奖励值提高了13.11%,为用户提供了更优质的服务。 展开更多
关键词 移动边缘计算 缓存辅助 卸载决策 资源分配 分层强化学习 深度Q-learning网络算法 软动作评价算法
在线阅读 下载PDF
基于分层强化学习的多无人机协同围捕方法
6
作者 孙懿豪 闫超 +3 位作者 相晓嘉 唐邓清 周晗 姜杰 《控制理论与应用》 北大核心 2025年第1期96-108,共13页
针对复杂障碍环境下的动态目标围捕问题,本文提出一种基于分层强化学习的多无人机协同围捕方法.该方法包含两个层级的学习过程:底层的子策略学习和高层的子策略切换.具体而言,将协同围捕任务分解为导航避障和导航避碰两个子任务,独立学... 针对复杂障碍环境下的动态目标围捕问题,本文提出一种基于分层强化学习的多无人机协同围捕方法.该方法包含两个层级的学习过程:底层的子策略学习和高层的子策略切换.具体而言,将协同围捕任务分解为导航避障和导航避碰两个子任务,独立学习相应的底层子策略,分别赋予无人机协同围捕目标时所需的避障与避碰技能.在此基础上,设计带有切换惩罚的稀疏回报函数训练高层的子策略切换模块,避免了对人工定义规则的依赖,实现了底层技能的自动组合.数值仿真与软件在环实验结果表明,所提方法能够显著降低围捕策略的学习难度,相较于基线方法具有最高的围捕成功率. 展开更多
关键词 分层强化学习 避障 避碰 多无人机围捕
在线阅读 下载PDF
基于分层强化学习的新型电力系统在线稳态调度
7
作者 赵莹莹 仇越 +5 位作者 朱天晨 李凡 苏运 邰振赢 孙庆赟 凡航 《上海交通大学学报》 北大核心 2025年第3期400-412,共13页
随着新型电力系统的建设,高比例可再生能源的随机性导致电网运行方式的不确定性大幅增加,给电网的安全稳定经济运行带来严峻挑战.采用深度强化学习方法等数据驱动的人工智能方法对电网进行调控并进行辅助决策在新型电力系统中具有重要意... 随着新型电力系统的建设,高比例可再生能源的随机性导致电网运行方式的不确定性大幅增加,给电网的安全稳定经济运行带来严峻挑战.采用深度强化学习方法等数据驱动的人工智能方法对电网进行调控并进行辅助决策在新型电力系统中具有重要意义,但当前基于深度强化学习的在线调度算法仍然面临高维决策空间难建模、调度策略难优化的问题,使得模型搜索效率较低、收敛较慢.因此,提出一种基于分层强化学习的新型电力系统在线稳态调度方法,通过自适应选取关键节点调节以降低决策空间.在此基础上进一步引入基于门控循环单元的状态上下文感知模块建模高维环境状态,综合运行成本、能源消纳以及越限情况为优化目标构建模型,并考虑各种运行约束.在IEEE-118、L2RPN-WCCI-2022和SG-126算例集上验证了所提算法的有效性. 展开更多
关键词 电网运行调度 强化学习 分层决策 状态表征
在线阅读 下载PDF
基于符号知识的选项发现方法
8
作者 王麒迪 沈立炜 吴天一 《计算机科学》 北大核心 2025年第1期277-288,共12页
基于选项(Option)的层次化策略学习是分层强化学习领域的一种主要实现方式。其中,选项表示特定动作的时序抽象,一组选项以多层次组合的方式可解决复杂的强化学习任务。针对选项发现这一目标,已有的研究工作使用监督或无监督方式从非结... 基于选项(Option)的层次化策略学习是分层强化学习领域的一种主要实现方式。其中,选项表示特定动作的时序抽象,一组选项以多层次组合的方式可解决复杂的强化学习任务。针对选项发现这一目标,已有的研究工作使用监督或无监督方式从非结构化演示轨迹中自动发现有意义的选项。然而,基于监督的选项发现过程需要人为分解任务问题并定义选项策略,带来了大量的额外负担;无监督方式发现的选项则难以包含丰富语义,限制了后续选项的重用。为此,提出一种基于符号知识的选项发现方法,只需对环境符号建模,所得知识可指导环境中多种任务的选项发现,并为发现的选项赋予符号语义,从而在新任务执行时被重复使用。将选项发现过程分解为轨迹切割和行为克隆两阶段步骤:轨迹切割旨在从演示轨迹提取具备语义的轨迹片段,为此训练一个面向演示轨迹的切割模型,引入符号知识定义强化学习奖励评价切割的准确性;行为克隆根据切割得到的数据监督训练选项,旨在使选项模仿轨迹行为。使用所提方法在多个包括离散和连续空间的领域环境中分别进行了选项发现和选项重用实验。选项发现中轨迹切割部分的实验结果显示,所提方法在离散和连续空间环境中的切割准确率均高出基线方法数个百分点,并在复杂环境任务的切割中提高到20%。另外,选项重用实验的结果证明,相较于基线方法,赋予符号语义增强的选项在新任务重用上拥有更快的训练速度,并在基线方法无法完成的复杂任务中仍然得到良好收敛。 展开更多
关键词 分层强化学习 演示学习 选项发现 马尔可夫决策过程
在线阅读 下载PDF
基于分层多智能体强化学习的雷达协同抗干扰策略优化
9
作者 王子怡 傅雄军 +1 位作者 董健 冯程 《系统工程与电子技术》 北大核心 2025年第4期1108-1114,共7页
雷达协同抗干扰决策过程中奖励存在稀疏性,导致强化学习算法难以收敛,协同训练困难。为解决该问题,提出一种分层多智能体深度确定性策略梯度(hierarchical multi-agent deep deterministic policy gradient,H-MADDPG)算法,通过稀疏奖励... 雷达协同抗干扰决策过程中奖励存在稀疏性,导致强化学习算法难以收敛,协同训练困难。为解决该问题,提出一种分层多智能体深度确定性策略梯度(hierarchical multi-agent deep deterministic policy gradient,H-MADDPG)算法,通过稀疏奖励的累积提升训练过程的收敛性能,引入哈佛结构思想分别存储多智能体的训练经验以消除经验回放混乱问题。在2部和4部雷达组网仿真中,在某种强干扰条件下,雷达探测成功率比多智能体深度确定性梯度(multi-agent deep deterministic policy gradient,MADDPG)算法分别提高了15%和30%。 展开更多
关键词 雷达抗干扰策略 分层强化学习 多智能体系统 深度确定性策略梯度 稀疏奖励
在线阅读 下载PDF
边缘计算中动态服务器部署与任务卸载联合优化算法
10
作者 白文超 卢先领 《计算机应用研究》 北大核心 2025年第6期1830-1837,共8页
在移动边缘计算中,边缘服务器部署位置的固定性容易产生边缘服务器资源利用率不平衡的问题,从而导致任务卸载过程中时延与能耗的增加。针对该问题,提出了一种基于分层强化学习的联合优化算法。首先,将边缘服务器放置与任务卸载问题分解... 在移动边缘计算中,边缘服务器部署位置的固定性容易产生边缘服务器资源利用率不平衡的问题,从而导致任务卸载过程中时延与能耗的增加。针对该问题,提出了一种基于分层强化学习的联合优化算法。首先,将边缘服务器放置与任务卸载问题分解并转换为双马尔可夫决策过程。然后,利用深度Q网络构建上层边缘服务器部署的全局智能体模型,通过引入K-means算法为上层策略提供高质量样本加速模型收敛。利用多智能体近端策略优化算法构建下层任务卸载多智能体模型,通过引入状态归一化减少下层策略状态的特征尺度差异,提高训练稳定性,最后,通过上下层策略的交替优化达到最终的优化目标。仿真实验结果表明,所提算法能够获得最优服务器部署与任务卸载策略,相比随机策略与其他强化学习算法,该算法在模型训练效率、目标奖励和负载均衡指标方面具有更高效益。 展开更多
关键词 边缘计算 任务卸载 边缘服务器部署 分层强化学习
在线阅读 下载PDF
分布式强化学习实践教学平台
11
作者 董帅 梁晓滢 李悦乔 《实验技术与管理》 北大核心 2025年第3期161-166,共6页
强化学习是一种通过智能体与环境交互来学习策略的机器学习方法,在自动驾驶、机器人控制、游戏智能NPC等多个领域展现出强大的应用潜力。针对这些强化学习实践教学中存在的算法理解难度大、硬件需求高、训练时间长等问题,该文开发了一... 强化学习是一种通过智能体与环境交互来学习策略的机器学习方法,在自动驾驶、机器人控制、游戏智能NPC等多个领域展现出强大的应用潜力。针对这些强化学习实践教学中存在的算法理解难度大、硬件需求高、训练时间长等问题,该文开发了一个分布式强化学习实践教学平台,分别在教师机和学生机上进行策略模型更新和策略采样。该平台具有三个方面的优点:首先,基于Lanstar教学软件和FTP协议建立主从式数据交换机制,对电脑硬件和网络要求低,能够部署在现有的编程教学实验室;其次,训练框架基于Gym库和PyTorch进行二次开发,统一state和action接口,整合训练数据采样接口,可以兼容DQN、PPO等多种强化学习算法;最后,可以兼容强化学习和逆强化学习两种学习范式。在三个典型任务上的对比实验表明,该平台能够有效降低任务训练时间,能够在算力资源不足情况下支撑强化学习的实践教学。 展开更多
关键词 模型训练 强化学习范式 编程实践 分布式平台 多级模型发布
在线阅读 下载PDF
面向不同粗糙程度地面的四足机器人自适应控制方法
12
作者 张楠杰 陈玉全 +2 位作者 季茂沁 孙运康 王冰 《自动化学报》 北大核心 2025年第7期1585-1598,共14页
针对四足机器人在复杂环境中的高速稳定运动问题,提出一种融合模型和学习的分层运动控制框架.首先,提出基于单次落足点偏差的惩罚机制,实现对连续滑动状态的有效评估.其次,构建基于双曲正切函数的连续接触状态描述,显著改善了传统离散... 针对四足机器人在复杂环境中的高速稳定运动问题,提出一种融合模型和学习的分层运动控制框架.首先,提出基于单次落足点偏差的惩罚机制,实现对连续滑动状态的有效评估.其次,构建基于双曲正切函数的连续接触状态描述,显著改善了传统离散方法中的相位切换冲击问题.然后,设计基于LSTM的地面特性实时估计网络,实现质心位置的自适应调整.最后,提出基于执行层和决策层的分层控制框架,提高系统的环境适应能力.在Isaac Gym仿真环境中的实验表明,该控制方法能够适应不同摩擦系数和运动速度条件.特别是在极低摩擦环境(μ=0.05)下,自适应控制策略通过0.061 0 m的质心高度调整,在维持1.428 4 m/s运动速度的同时,将足端滑动距离控制在0.308±0.005 0 cm,充分验证了所提控制方法的有效性和实用价值. 展开更多
关键词 四足机器人 强化学习 自适应控制策略 奖励函数优化 分层控制框架
在线阅读 下载PDF
基于分层强化学习的在线三维装箱模型
13
作者 亓明凯 王迪 张立晔 《计算机工程》 北大核心 2025年第6期136-145,共10页
在过去的一些研究中,人工智能如何以一种分层的方式在多个抽象级别和多个时间尺度上表示感知和行动规划逐渐成为一个研究热点。受限于技术手段,多数工作都局限在人工分解任务阶段,如在三维装箱问题(3D-BPP)中,通过启发式规则指导神经网... 在过去的一些研究中,人工智能如何以一种分层的方式在多个抽象级别和多个时间尺度上表示感知和行动规划逐渐成为一个研究热点。受限于技术手段,多数工作都局限在人工分解任务阶段,如在三维装箱问题(3D-BPP)中,通过启发式规则指导神经网络解析打包点帮助智能体分解状态空间,将原本庞大、复杂的空间转换为一个个子空间,为神经网络提供更好的备选解决方案。然而这种方式受限于规则本身,若规则不能完美地拆解问题,则这种固定规则的辅助会限制神经网络的性能,使得更好的解决方案被规则本身忽略。针对这种情况,提出一种基于启发式规则融合策略的改进装箱配置树(PCT)模型,通过分层强化学习的思想将问题分层,引入图注意力分类模型来判断在当前情况下最优的空间点拓展方案,由此为拆解箱体内部空间点与探寻可行性位置提供更多的排列组合方式。实验结果表明,基于启发式规则融合策略的改进模型在多个数据集上表现优于原始模型,在包含额外密度信息的数据集中平均装箱利用率高达77.2%,较原始模型提升1.7百分点,能够在合理的时间内给出性能更优的解决方案。 展开更多
关键词 分层强化学习 三维装箱 图注意力网络 启发式空间拓展 深度强化学习
在线阅读 下载PDF
异构边缘环境下自适应分层联邦学习协同优化方法
14
作者 冯奕铭 钱珍 +1 位作者 李光辉 代成龙 《计算机研究与发展》 北大核心 2025年第6期1416-1433,共18页
传统联邦学习在应用中面临设备异构、数据异构、通信资源约束等挑战.终端设备异构导致训练过程中过低的协作效率,而数据异构所包括的数据量和数据特征分布异构则导致全局模型精度损失以及模型缺少泛化性.为了有效利用终端的计算、通信... 传统联邦学习在应用中面临设备异构、数据异构、通信资源约束等挑战.终端设备异构导致训练过程中过低的协作效率,而数据异构所包括的数据量和数据特征分布异构则导致全局模型精度损失以及模型缺少泛化性.为了有效利用终端的计算、通信以及数据资源,提出了一种自适应优化的分层联邦学习方法.该方法在考虑设备硬件资源约束、通信资源约束以及数据非独立同分布(Non-IID)特性下,结合模型分割和客户端选择技术加速联邦学习训练,提高模型准确率以及其在不同异构环境下的适应性.为了反映各客户端数据对全局模型的一致性影响,引入数据贡献度以度量本地模型对全局模型的影响.通过深度强化学习方法,在每一轮训练前智能体根据系统的资源分布以及本地数据贡献度来学习如何选择合理的训练客户端集合及相应边端协同模型划分方案,以加速本地训练及全局模型收敛.仿真结果表明,与基线方法相比,所提算法在模型准确率与训练效率2个方面均表现出显著优势,且在不同异构环境配置下显示出良好的鲁棒性及适应性. 展开更多
关键词 分层联邦学习 异构边缘计算 模型分割 客户端选择 深度强化学习
在线阅读 下载PDF
基于分级知识嵌入与强化学习的时序知识图谱推理方法
15
作者 黄勇萍 李春青 李熙春 《计算机工程与应用》 北大核心 2025年第13期235-244,共10页
针对时序知识图谱推理方法中未能充分捕捉语义依赖、时间演变信息以及缺乏可解释性等问题,提出一种基于分级知识嵌入与强化学习的时序知识图谱推理方法,命名为THKERL。THKERL包含两个关键组件:分级知识嵌入模型(HKEM)以及强化学习推理模... 针对时序知识图谱推理方法中未能充分捕捉语义依赖、时间演变信息以及缺乏可解释性等问题,提出一种基于分级知识嵌入与强化学习的时序知识图谱推理方法,命名为THKERL。THKERL包含两个关键组件:分级知识嵌入模型(HKEM)以及强化学习推理模型(RLRM)。HKEM通过两个级别知识嵌入以获得更准确的知识图谱特征表示:子图级别旨在建模每个知识图中并发事实之间的语义依赖关系,而全局图级别主要用于捕捉实体随时间演变的动态特征信息。在此基础上,RLRM使用强化学习,引入加权动作评分机制设计策略网络,充分考虑查询问题与推理路径关系进行奖励塑形,以实现更可靠的知识推理。为验证THKERL方法的有效性,在ICEWS14等数据集上进行实验,并将实验结果与TiTer等主流时序知识图谱推理方法进行对比分析。实验结果表明,THKERL在实体预测任务上的Hits@k平均提升超过5.9个百分点,MRR平均提升超过6.8个百分点。 展开更多
关键词 时序知识图谱 分级知识嵌入 知识推理 强化学习 奖励塑形
在线阅读 下载PDF
基于分层多智能体强化学习的多无人机视距内空战
16
作者 雍宇晨 李子豫 董琦 《智能系统学报》 北大核心 2025年第3期548-556,共9页
为提高无人机在视距内空战中的自主机动决策能力,本文提出一种基于自博弈理论(self-play,SP)和多智能体分层强化学习(mutil agent hierarchical reinforcement learning,MAHRL)的层次决策网络框架。该框架通过结合自身博弈和多智能体强... 为提高无人机在视距内空战中的自主机动决策能力,本文提出一种基于自博弈理论(self-play,SP)和多智能体分层强化学习(mutil agent hierarchical reinforcement learning,MAHRL)的层次决策网络框架。该框架通过结合自身博弈和多智能体强化学习算法,研究了多无人机空战缠斗场景。复杂的空战任务被分解为上层导弹打击任务和下层飞行跟踪任务,有效地减少了战术行动的模糊性,并提高了多无人机空战场景中的自主机动决策能力。此外,通过设计新颖的奖励函数和采用自博弈方法,减少了大型战场环境导致的无意义探索。仿真结果表明,该算法不仅有助于智能体学习基本的飞行战术和高级的作战战术,而且在防御和进攻能力上优于其他多智能体空战算法。 展开更多
关键词 视距内空战 缠斗 自主机动决策 自博弈 分层强化学习 多智能体博弈 分层决策网络 奖励函数设计
在线阅读 下载PDF
基于改进SNN-HRL的智能体路径规划算法
17
作者 赵钊 原培新 +1 位作者 唐俊文 陈锦林 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第11期1548-1555,共8页
针对SNN-HRL等传统Skill discovery类算法存在的探索困难问题,本文基于SNN-HRL算法提出了融合多种探索策略的分层强化学习算法MES-HRL,改进传统分层结构,算法包括探索轨迹、学习轨迹、路径规划三层.在探索轨迹层,训练智能体尽可能多地... 针对SNN-HRL等传统Skill discovery类算法存在的探索困难问题,本文基于SNN-HRL算法提出了融合多种探索策略的分层强化学习算法MES-HRL,改进传统分层结构,算法包括探索轨迹、学习轨迹、路径规划三层.在探索轨迹层,训练智能体尽可能多地探索未知环境,为后续的训练过程提供足够的环境状态信息.在学习轨迹层,将探索轨迹层的训练结果作为“先验知识”用于该层训练,提高训练效率.在路径规划层,利用智能体之前获得的skill来完成路径规划任务.通过仿真对比MES-HRL与SNN-HRL算法在不同环境下的性能表现,仿真结果显示,MES-HRL算法解决了传统算法的探索问题,具有更出色的路径规划能力. 展开更多
关键词 深度强化学习 分层强化学习 路径规划 探索策略 Skill discovery方法
在线阅读 下载PDF
基于演员-评论家框架的层次化多智能体协同决策方法 被引量:2
18
作者 傅妍芳 雷凯麟 +5 位作者 魏佳宁 曹子建 杨博 王炜 孙泽龙 李秦洁 《兵工学报》 EI CAS CSCD 北大核心 2024年第10期3385-3396,共12页
针对复杂作战环境下多智能体协同决策中出现的任务分配不合理、决策一致性较差等问题,提出一种基于演员-评论家(Actor-Critic,AC)框架的层次化多智能体协同决策方法。通过将决策过程分为不同层次,并使用AC框架来实现智能体之间的信息交... 针对复杂作战环境下多智能体协同决策中出现的任务分配不合理、决策一致性较差等问题,提出一种基于演员-评论家(Actor-Critic,AC)框架的层次化多智能体协同决策方法。通过将决策过程分为不同层次,并使用AC框架来实现智能体之间的信息交流和决策协同,以提高决策效率和战斗力。在高层次,顶层智能体制定任务决策,将总任务分解并分配给底层智能体。在低层次,底层智能体根据子任务进行动作决策,并将结果反馈给高层次。实验结果表明,所提方法在多种作战仿真场景下均取得了较好的性能,展现了其在提升军事作战协同决策能力方面的潜力。 展开更多
关键词 深度强化学习 层次化多智能体 信息共享 智能兵棋推演
在线阅读 下载PDF
基于分层约束强化学习的综合能源多微网系统优化调度 被引量:16
19
作者 董雷 杨子民 +3 位作者 乔骥 陈盛 王新迎 蒲天骄 《电工技术学报》 EI CSCD 北大核心 2024年第5期1436-1453,共18页
构建多微网系统是消纳可再生能源、提升电网稳定性的有效方式。通过各微网的协调调度,可有效提升微网的运行效益以及可再生能源的消纳水平。现有多微网优化问题场景多元,变量众多,再加上源荷不确定性及多微网主体的数据隐私保护等问题,... 构建多微网系统是消纳可再生能源、提升电网稳定性的有效方式。通过各微网的协调调度,可有效提升微网的运行效益以及可再生能源的消纳水平。现有多微网优化问题场景多元,变量众多,再加上源荷不确定性及多微网主体的数据隐私保护等问题,为模型的高效求解带来了巨大挑战。为此,该文提出了一种分层约束强化学习优化方法。首先,构建了多微网分层强化学习优化框架,上层由智能体给出各微网储能优化策略和微网间功率交互策略;下层各微网以上层策略为约束,基于自身状态信息采用数学规划法对各微网内部的分布式电源出力进行自治优化。通过分层架构,减小通信压力,保护微网内部数据隐私,充分发挥强化学习对源荷不确定性的自适应能力,大幅提升了模型求解速度,并有效兼顾了数学规划法的求解精度。此外,将拉格朗日乘子法与传统强化学习方法相结合,提出一种约束强化学习求解方法,有效地解决了传统强化学习方法难以处理的约束越限问题。最后通过算例验证了该方法的有效性和优势。 展开更多
关键词 多微网系统 分层约束强化学习 不确定性 数据隐私保护
在线阅读 下载PDF
基于近似动态规划的多级火箭全程任务决策 被引量:1
20
作者 李超兵 包为民 +2 位作者 李忠奎 禹春梅 程晓明 《宇航学报》 EI CAS CSCD 北大核心 2024年第8期1251-1260,共10页
针对火箭发生推力下降故障下的任务决策问题,提出了一种基于近似动态规划的多级火箭全程任务决策方法。首先,通过设置初始状态集合、决策选项、奖励函数、Q函数迭代方法等,建立了火箭任务决策分层强化学习模型,得到对火箭后续飞行进行... 针对火箭发生推力下降故障下的任务决策问题,提出了一种基于近似动态规划的多级火箭全程任务决策方法。首先,通过设置初始状态集合、决策选项、奖励函数、Q函数迭代方法等,建立了火箭任务决策分层强化学习模型,得到对火箭后续飞行进行评价的“评价网络”;然后利用基于凸优化的在线能力评估和轨迹规划方法,得到近似动态规划原理中的“决策生成”模块;最后,通过两者结合完成对火箭故障下后续飞行中连续轨迹和各级飞行段离散轨道根数等的决策。仿真结果表明该方法能够在非致命推力下降故障下实现火箭全程飞行任务决策并给出飞行轨迹。 展开更多
关键词 运载火箭 推力故障 任务决策 近似动态规划 分层强化学习
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部