期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
本体指导下的安全强化学习最优化策略 被引量:1
1
作者 郝嘉宁 姚永伟 叶育鑫 《吉林大学学报(理学版)》 北大核心 2025年第1期83-90,共8页
针对安全强化学习实现过程中,基于屏蔽的实现方式可能受制于没有合适的备用策略可供使用,导致判断出危险也不能阻止系统离开安全状态,结合知识的实现方式虽然能通过提取概念特征,用结构化的知识对指定状态给予安全指导,但有时知识蕴含... 针对安全强化学习实现过程中,基于屏蔽的实现方式可能受制于没有合适的备用策略可供使用,导致判断出危险也不能阻止系统离开安全状态,结合知识的实现方式虽然能通过提取概念特征,用结构化的知识对指定状态给予安全指导,但有时知识蕴含的指导可能并不是最优的策略,甚至可能不如智能体探索习得策略的问题,提出一个本体指导下的安全强化学习最优化策略,实现风险识别规避、动作生成最优化.基于该理论设计和实现了一个在无人机避障场景下的仿真系统,并使用5种不同的强化学习算法进行效果验证.实验结果表明,基于本体指导的安全强化学习最优化策略能在屏蔽风险动作的基础上,实现智能体备用策略选取,比传统强化学习方法性能更优. 展开更多
关键词 安全强化学习 屏蔽机制 本体 深度神经网络 联合查询
在线阅读 下载PDF
面向CPS时空规则验证制导的安全强化学习
2
作者 印婵 祝义 +2 位作者 王金永 陈小颖 郝国生 《计算机科学与探索》 北大核心 2025年第2期513-527,共15页
深度强化学习是目前信息物理融合系统(CPS)决策中常用的一种方法。然而,当面对未知环境和复杂任务时,基于黑盒的深度强化学习方法在系统的安全性和奖励函数设置的可解释性方面存在不足。针对上述问题,提出了一种形式化时空规则验证制导... 深度强化学习是目前信息物理融合系统(CPS)决策中常用的一种方法。然而,当面对未知环境和复杂任务时,基于黑盒的深度强化学习方法在系统的安全性和奖励函数设置的可解释性方面存在不足。针对上述问题,提出了一种形式化时空规则验证制导的安全强化学习方法。提出了时空规则通信顺序进程(CSR-TCSP)对系统进行建模,并结合时空规约语言(STSL)和模型检测工具FDR对进程代数模型进行验证。利用系统环境模型形式化奖励状态机的结构,提出了时空规则奖励状态机(STR-RM)以指导强化学习中奖励函数的设置。此外,为了监测系统的运行并确保输出决策的安全性,设计了一个监控器及安全动作决策算法以获得更安全的状态行为策略。通过一个自动驾驶系统中的避障与变道超车实例,证明所提方法的有效性。 展开更多
关键词 信息物理融合系统 形式化方法 进程代数 安全强化学习 自动驾驶
在线阅读 下载PDF
基于安全强化学习算法的电动汽车充电调度策略
3
作者 潘恒欣 贾润达 张树磊 《东北大学学报(自然科学版)》 北大核心 2025年第5期1-9,共9页
随着电动汽车数量的增加,强化学习在电动汽车充电调度中面临更多挑战,尤其是大规模应用带来的不确定性和维度灾难问题.针对上述问题,构建了一个居民区微电网模型,综合考虑电动汽车入网模式及其多种非线性充电模型.将充电调度问题建模为... 随着电动汽车数量的增加,强化学习在电动汽车充电调度中面临更多挑战,尤其是大规模应用带来的不确定性和维度灾难问题.针对上述问题,构建了一个居民区微电网模型,综合考虑电动汽车入网模式及其多种非线性充电模型.将充电调度问题建模为一个约束马尔可夫决策过程,并采用无模型的强化学习框架处理不确定性.针对维度灾难问题,设计了一种充放电策略,通过将电动汽车根据状态划分为不同集合,并由智能体向集合发送控制信号,从而减少动作空间维度.随后,利用基于拉格朗日约束的深度确定性策略梯度算法求解充电调度问题,同时引入安全过滤器以确保不违反硬性约束.数值仿真验证了该策略的有效性. 展开更多
关键词 电动汽车 充电调度 安全强化学习 电动汽车入网模式 非线性充电
在线阅读 下载PDF
基于安全强化学习的热电联产机组经济调度策略研究
4
作者 王欣 崔承刚 +1 位作者 王想想 朱平 《系统仿真学报》 北大核心 2025年第4期968-981,共14页
针对DRL算法在热电联产(combined heat and power,CHP)机组优化中缺乏安全性和稳定性保证的问题,提出了一种基于安全强化学习(SRL)的调度优化方法。在Dymola平台以CHP机组为热源建立了区域供热系统模型。设计了CHP机组经济调度的MDP模型... 针对DRL算法在热电联产(combined heat and power,CHP)机组优化中缺乏安全性和稳定性保证的问题,提出了一种基于安全强化学习(SRL)的调度优化方法。在Dymola平台以CHP机组为热源建立了区域供热系统模型。设计了CHP机组经济调度的MDP模型,并通过控制障碍函数(control barrier functions,CBF)指导DRL安全探索。仿真结果表明:CBF-DRL方法在复杂且非线性的区域供热系统中,不仅能够提升DRL算法的收敛速度,还能够有效利用供热管道的热惯性提高CHP机组的经济效益,并在安全性方面表现出优势。 展开更多
关键词 热电联产 区域供热系统 安全强化学习 控制障碍函数 经济调度 协同仿真
在线阅读 下载PDF
基于安全强化学习的电网稳控策略智能生成方法 被引量:3
5
作者 邱建 朱煜昆 +3 位作者 张建新 朱益华 徐光虎 涂亮 《电力系统保护与控制》 EI CSCD 北大核心 2024年第10期147-155,共9页
新型电力系统的“双高”趋势改变了电力系统经典稳定特性,导致稳定机理更复杂,系统稳定模式更多样,因此基于典型运行方式的在线稳定控制策略面临挑战。为解决新型电力系统的功角稳定问题,提出了基于安全强化学习的稳控策略智能生成方法... 新型电力系统的“双高”趋势改变了电力系统经典稳定特性,导致稳定机理更复杂,系统稳定模式更多样,因此基于典型运行方式的在线稳定控制策略面临挑战。为解决新型电力系统的功角稳定问题,提出了基于安全强化学习的稳控策略智能生成方法。首先,建立了电力系统稳控问题的含约束马尔可夫模型,归纳并提出了紧急控制切机动作涉及的安全约束。其次,为了提高对于电网暂态响应的时空特征提取能力,构建了基于图卷积层和长短期记忆单元的特征感知网络。然后,为了提高稳控策略智能体的训练效率,提出了基于内嵌领域知识约束的近端策略优化算法稳控策略训练框架。最后,在IEEE 39节点系统和某实际电网中进行测试验证。结果表明,所提方法能够根据系统运行状态和故障响应自适应生成切机稳控策略,其决策效果和效率均优于现有的稳控策略。 展开更多
关键词 稳控策略 安全强化学习 时空特征 领域知识
在线阅读 下载PDF
基于安全强化学习的主动配电网有功-无功协调优化调度 被引量:7
6
作者 焦昊 殷岩岩 +4 位作者 吴晨 刘建 徐春雷 徐贤 孙国强 《中国电力》 CSCD 北大核心 2024年第3期43-50,共8页
提出一种基于离线策略的安全强化学习方法,通过离线训练大量配电网历史运行数据,摆脱了传统优化方法对完备且准确模型的依赖。首先,结合配电网络参数信息,建立了基于约束马尔可夫决策过程的有功无功优化模型;其次,基于原始对偶优化法设... 提出一种基于离线策略的安全强化学习方法,通过离线训练大量配电网历史运行数据,摆脱了传统优化方法对完备且准确模型的依赖。首先,结合配电网络参数信息,建立了基于约束马尔可夫决策过程的有功无功优化模型;其次,基于原始对偶优化法设计了新型安全强化学习方法,该方法在最大化未来折扣奖励的同时最小化成本函数;最后,在配电系统上进行仿真。仿真结果表明:所提方法能够根据配电网实时观测信息,在线生成满足复杂约束条件且具有经济效益的调度策略。 展开更多
关键词 主动配电网 有功无功协调优化 安全强化学习
在线阅读 下载PDF
电力系统调度决策:一种示教学习辅助加速的安全强化学习方法 被引量:4
7
作者 仪忠凯 梁寿愚 +3 位作者 王伟 蒋蔚 杨程 辛焱 《中国电机工程学报》 EI CSCD 北大核心 2024年第13期5084-5096,I0006,共14页
随着可再生能源占比攀升和电网运行环境愈加复杂,亟需构建知识-数据融合的新型电力系统调度模式。鉴于此,首先采用模仿学习的方法对专家知识库中的案例进行拟合,构建示教学习模型,为电力系统调度运行提供示教调度引导指令。在此基础上,... 随着可再生能源占比攀升和电网运行环境愈加复杂,亟需构建知识-数据融合的新型电力系统调度模式。鉴于此,首先采用模仿学习的方法对专家知识库中的案例进行拟合,构建示教学习模型,为电力系统调度运行提供示教调度引导指令。在此基础上,提出一种基于示教学习辅助加速的安全强化学习方法,能用于支撑电力系统实时快速决策。通过引入示教学习辅助加速机制,所提方法的收敛速度显著加快,调度策略迅速趋优,降低系统运行成本,缓解潮流越限风险。案例分析验证所提方法在提升强化学习收敛效率和促进电力系统安全经济运行方面的优势。 展开更多
关键词 电力系统 经济调度 安全强化学习 示教学习
在线阅读 下载PDF
基于轨迹预测的安全强化学习自动变道决策方法
8
作者 肖海林 黄天义 +2 位作者 代秋香 张跃军 张中山 《计算机应用》 CSCD 北大核心 2024年第9期2958-2963,共6页
深度强化学习在自动变道决策问题中由于它的试错学习的特性,易在训练过程中导致不安全的行为。为此,提出一种基于轨迹预测的安全强化学习自动变道决策方法。首先,通过最大似然估计的概率建模并预测车辆的未来行驶轨迹;其次,利用得到的... 深度强化学习在自动变道决策问题中由于它的试错学习的特性,易在训练过程中导致不安全的行为。为此,提出一种基于轨迹预测的安全强化学习自动变道决策方法。首先,通过最大似然估计的概率建模并预测车辆的未来行驶轨迹;其次,利用得到的预测轨迹和安全距离指标进行驾驶风险评估,并且根据驾驶风险评估结果进行安全动作约束,将动作空间裁剪为安全动作空间,指导智能车辆避免危险动作。在仿真平台的高速公路场景中,将所提方法与深度Q网络(DQN)及其改进方法进行测试比较。实验结果表明,在智能车辆训练过程中,所提方法在保证快速收敛的同时,使碰撞发生的次数相较于对比方法降低了47%~57%,有效提高了训练过程中的安全性。 展开更多
关键词 安全强化学习 自动变道决策 轨迹预测 风险评估 动作空间裁剪
在线阅读 下载PDF
基于安全强化学习的不确定二阶系统模型参考跟踪控制 被引量:1
9
作者 胡一帆 刘克新 +1 位作者 付俊杰 温广辉 《控制工程》 CSCD 北大核心 2024年第1期80-87,共8页
针对带有不确定性动态的二阶系统模型参考轨迹跟踪控制问题,设计了一种基于鲁棒控制障碍函数的安全强化学习算法。该算法能在学习跟踪控制器的过程中保证系统避障。首先,对具有安全约束的轨迹跟踪控制强化学习问题进行建模。其次,利用... 针对带有不确定性动态的二阶系统模型参考轨迹跟踪控制问题,设计了一种基于鲁棒控制障碍函数的安全强化学习算法。该算法能在学习跟踪控制器的过程中保证系统避障。首先,对具有安全约束的轨迹跟踪控制强化学习问题进行建模。其次,利用高斯过程模型对未知系统动力学的估计,得到鲁棒的避障控制障碍函数条件,在该条件下得到概率意义下的系统安全性保证。最后,提出基于鲁棒控制障碍函数的安全强化学习算法,得到最优模型参考轨迹跟踪控制律。仿真结果验证了所提算法的有效性。 展开更多
关键词 安全强化学习 避障 鲁棒控制障碍函数 不确定系统 跟踪控制
在线阅读 下载PDF
基于受限MDP的无模型安全强化学习方法 被引量:3
10
作者 朱斐 葛洋洋 +1 位作者 凌兴宏 刘全 《软件学报》 EI CSCD 北大核心 2022年第8期3086-3102,共17页
很多强化学习方法较少地考虑决策的安全性,但研究领域和工业应用领域都要求的智能体所做决策是安全的.解决智能体决策安全问题的传统方法主要有改变目标函数、改变智能体的探索过程等,然而这些方法忽略了智能体遭受的损害和成本,因此不... 很多强化学习方法较少地考虑决策的安全性,但研究领域和工业应用领域都要求的智能体所做决策是安全的.解决智能体决策安全问题的传统方法主要有改变目标函数、改变智能体的探索过程等,然而这些方法忽略了智能体遭受的损害和成本,因此不能有效地保障决策的安全性.在受限马尔可夫决策过程的基础上,通过对动作空间添加安全约束,设计了安全Sarsa(λ)方法和安全Sarsa方法.在求解过程中,不仅要求智能体得到最大的状态-动作值,还要求其满足安全约束的限制,从而获得安全的最优策略.由于传统的强化学习求解方法不再适用于求解带约束的安全Sarsa(λ)模型和安全Sarsa模型,为在满足约束条件下得到全局最优状态-动作值函数,提出了安全强化学习的求解模型.求解模型基于线性化多维约束,采用拉格朗日乘数法,在保证状态-动作值函数和约束函数具有可微性的前提下,将安全强化学习模型转化为凸模型,避免了在求解过程中陷入局部最优解的问题,提高了算法的求解效率和精确度.同时,给出了算法的可行性证明.最后,实验验证了算法的有效性. 展开更多
关键词 受限马尔可夫决策过程 安全强化学习 多维约束 Sarsa(λ)算法 Sarsa算法
在线阅读 下载PDF
面向无人驾驶时空同步约束制导的安全强化学习 被引量:5
11
作者 王金永 黄志球 +3 位作者 杨德艳 Xiaowei Huang 祝义 华高洋 《计算机研究与发展》 EI CSCD 北大核心 2021年第12期2585-2603,共19页
无人驾驶系统综合了软件和硬件复杂的交互过程,在系统设计阶段,形式化方法可以保证系统满足逻辑规约和安全需求;在系统运行阶段,深度强化学习被广泛应用于无人驾驶系统决策中.然而,在面对没有经验的场景和复杂决策任务时,基于黑盒的深... 无人驾驶系统综合了软件和硬件复杂的交互过程,在系统设计阶段,形式化方法可以保证系统满足逻辑规约和安全需求;在系统运行阶段,深度强化学习被广泛应用于无人驾驶系统决策中.然而,在面对没有经验的场景和复杂决策任务时,基于黑盒的深度强化学习系统并不能保证系统的安全性和复杂任务奖励函数设置的可解释性.为此提出了一种形式化时空同步约束制导的安全强化学习方法.首先,提出了一种形式化时空同步约束规约语言,接近自然语言的安全需求规约使奖励函数的设置更具有解释性.其次,展示了时空同步自动机和状态动作空间迁移系统,保证强化学习的状态行为策略更加安全.然后,提出了结合形式化时空约束制导的安全强化学习方法.最后,通过无人驾驶汽车在高速场景变道超车的案例,验证所提方法的有效性. 展开更多
关键词 时空同步约束 形式化规约 安全强化学习 时序差分 智能交通仿真 无人驾驶安全
在线阅读 下载PDF
基于安全强化学习的航天器交会制导方法 被引量:2
12
作者 幸林泉 肖应民 +3 位作者 杨志斌 韦正旻 周勇 高赛军 《计算机科学》 CSCD 北大核心 2023年第8期271-279,共9页
随着航天器交会对接任务越来越复杂,对其高效性、自主性和安全性的要求急剧增加。近年来,引入强化学习技术来解决航天器交会制导问题已经成为国际前沿热点。障碍物避撞对于确保航天器安全交会对接至关重要,而一般的强化学习算法没有对... 随着航天器交会对接任务越来越复杂,对其高效性、自主性和安全性的要求急剧增加。近年来,引入强化学习技术来解决航天器交会制导问题已经成为国际前沿热点。障碍物避撞对于确保航天器安全交会对接至关重要,而一般的强化学习算法没有对探索空间进行安全限制,这使得航天器交会制导策略设计面临挑战。为此,提出了基于安全强化学习的航天器交会制导方法。首先,设计避撞场景下航天器自主交会的马尔可夫模型,提出基于障碍预警与避撞约束的奖励机制,从而建立用于求解航天器交会制导策略的安全强化学习框架;其次,在该安全强化学习框架下,基于近端策略优化算法(PPO)和深度确定性策略梯度算法(DDPG)这两种深度强化学习算法生成了制导策略。实验结果表明,该方法能有效地进行障碍物避撞并以较高的精度完成交会。另外,通过分析两种算法的性能优劣和泛化能力,进一步证明了所提方法的有效性。 展开更多
关键词 航天器交会制导 障碍物避撞 安全强化学习 近端策略优化 深度确定性策略梯度
在线阅读 下载PDF
安全强化学习及其在机器人系统中的应用综述 被引量:3
13
作者 张昌昕 张兴龙 +1 位作者 徐昕 陆阳 《控制理论与应用》 EI CAS CSCD 北大核心 2023年第12期2090-2103,共14页
强化学习是一类通过与环境交互实现序贯优化决策的机器学习方法,已经在游戏、推荐系统及自然语言处理等任务中得到了应用.然而,强化学习算法应用于真实世界中的机器人系统时,如何保证安全性仍然面临挑战.近年来,针对机器人系统的安全强... 强化学习是一类通过与环境交互实现序贯优化决策的机器学习方法,已经在游戏、推荐系统及自然语言处理等任务中得到了应用.然而,强化学习算法应用于真实世界中的机器人系统时,如何保证安全性仍然面临挑战.近年来,针对机器人系统的安全强化学习方法研究已经成为热点方向,获得了机器人和强化学习领域的广泛关注.本文结合现有的工作,综述了安全强化学习理论和方法的重要成果和发展趋势,并重点关注了现有方法在机器人领域的适用性.本文首先给出了安全强化学习的一般问题描述.其次,从方法和性能的角度重点介绍了该领域的最新重要进展,包括约束策略优化、控制障碍函数、安全过滤器和对抗性博弈训练等方法,以及安全强化学习方法在地面移动机器人系统、无人飞行器和其他机器人系统中的应用情况.最后,对该领域的未来研究方向进行了展望和探讨. 展开更多
关键词 机器人 安全强化学习 约束马尔可夫决策过程 鲁棒性
在线阅读 下载PDF
安全强化学习综述 被引量:18
14
作者 王雪松 王荣荣 程玉虎 《自动化学报》 EI CAS CSCD 北大核心 2023年第9期1813-1835,共23页
强化学习(Reinforcement learning,RL)在围棋、视频游戏、导航、推荐系统等领域均取得了巨大成功.然而,许多强化学习算法仍然无法直接移植到真实物理环境中.这是因为在模拟场景下智能体能以不断试错的方式与环境进行交互,从而学习最优策... 强化学习(Reinforcement learning,RL)在围棋、视频游戏、导航、推荐系统等领域均取得了巨大成功.然而,许多强化学习算法仍然无法直接移植到真实物理环境中.这是因为在模拟场景下智能体能以不断试错的方式与环境进行交互,从而学习最优策略.但考虑到安全因素,很多现实世界的应用则要求限制智能体的随机探索行为.因此,安全问题成为强化学习从模拟到现实的一个重要挑战.近年来,许多研究致力于开发安全强化学习(Safe reinforcement learning,SRL)算法,在确保系统性能的同时满足安全约束.本文对现有的安全强化学习算法进行全面综述,将其归为三类:修改学习过程、修改学习目标、离线强化学习,并介绍了5大基准测试平台:Safety Gym、safe-control-gym、SafeRL-Kit、D4RL、NeoRL.最后总结了安全强化学习在自动驾驶、机器人控制、工业过程控制、电力系统优化和医疗健康领域中的应用,并给出结论与展望. 展开更多
关键词 安全强化学习 约束马尔科夫决策过程 学习过程 学习目标 离线强化学习
在线阅读 下载PDF
基于安全强化学习的多智能体覆盖路径规划 被引量:1
15
作者 李松 麻壮壮 +1 位作者 张蕴霖 邵晋梁 《兵工学报》 EI CAS CSCD 北大核心 2023年第S02期101-113,共13页
覆盖路径规划的目的是为智能体找到一条安全的轨迹,其不仅可以有效覆盖任务区域,而且可以避开障碍物与邻近智能体。在执行覆盖任务时,复杂的大面积任务区域总是不可避免的。如何在保证智能体安全的前提下加强智能体之间的协同合作,以改... 覆盖路径规划的目的是为智能体找到一条安全的轨迹,其不仅可以有效覆盖任务区域,而且可以避开障碍物与邻近智能体。在执行覆盖任务时,复杂的大面积任务区域总是不可避免的。如何在保证智能体安全的前提下加强智能体之间的协同合作,以改善集群任务效率低、能力不足的缺点是值得探索的问题。为此,利用栅格地图建立离散的覆盖路径规划数学模型,提出一种基于值分解网络的安全多智能体强化学习算法,并通过理论证明论证其合理性。该算法通过分解群体价值函数以避免智能体的虚假奖励,有助于加强智能体之间协同覆盖策略的学习,以提高算法的收敛速度。通过在训练过程中引入屏蔽器以修正智能体的出界和碰撞等行为,保证智能体在整个任务过程中的安全。仿真和半实物实验结果表明,新算法不仅可以保证智能体的覆盖效率,同时还能有效维护智能体的安全。 展开更多
关键词 多智能体系统 覆盖路径规划 安全强化学习 值分解网络
在线阅读 下载PDF
基于多智能体安全深度强化学习的电压控制 被引量:2
16
作者 曾仪 周毅 +3 位作者 陆继翔 周良才 唐宁恺 李红 《中国电力》 北大核心 2025年第2期111-117,共7页
针对分布式光伏在配电网中的高比例接入带来的电压越限和波动问题,提出了一种基于多智能体安全深度强化学习的电压控制方法。将含光伏的电压控制建模为分布式部分可观马尔可夫决策过程。在深度策略网络中引入安全层进行智能体设计,同时... 针对分布式光伏在配电网中的高比例接入带来的电压越限和波动问题,提出了一种基于多智能体安全深度强化学习的电压控制方法。将含光伏的电压控制建模为分布式部分可观马尔可夫决策过程。在深度策略网络中引入安全层进行智能体设计,同时在智能体奖励函数定义时,使用基于传统优化模型电压约束的电压屏障函数。在IEEE 33节点算例上的测试结果表明:所提方法在光伏高渗透率场景下可生成符合安全约束的电压控制策略,可用于在线辅助调度员进行实时决策。 展开更多
关键词 无功电压控制 安全深度强化学习 多智能体
在线阅读 下载PDF
基于深度强化学习的铁路纵断面智能设计模型研究 被引量:1
17
作者 缪鹍 戴炎林 高鸿剑 《铁道学报》 EI CAS CSCD 北大核心 2024年第9期102-110,共9页
传统智能算法通常要求变量维度在计算过程中不变,而铁路纵断面智能设计中的变坡点数量需要根据地形等变化自适应确定。考虑到强化学习能从地面高程和已经生成的线形等环境数据中获得最优策略的特点,将深度强化学习方法应用于纵断面智能... 传统智能算法通常要求变量维度在计算过程中不变,而铁路纵断面智能设计中的变坡点数量需要根据地形等变化自适应确定。考虑到强化学习能从地面高程和已经生成的线形等环境数据中获得最优策略的特点,将深度强化学习方法应用于纵断面智能设计,研究智能体决策变坡点的方法,提出铁路纵断面设计的变坡点决策模型,确定模型中的状态、动作、奖励等表达形式。结合纵断面设计约束多的特点,引入动作屏蔽机制处理约束,加快收敛并提高模型性能。将计算期引入模型的状态,提出通过单网络产生多个多目标策略的单网络多策略的多目标处理方法。通过实际工程案例验证了本文所提模型的正确性和有效性。 展开更多
关键词 铁路 纵断面设计 深度强化学习 安全强化学习 动作屏蔽
在线阅读 下载PDF
基于双深度网络的安全深度强化学习方法 被引量:27
18
作者 朱斐 吴文 +1 位作者 伏玉琛 刘全 《计算机学报》 EI CSCD 北大核心 2019年第8期1812-1826,共15页
深度强化学习利用深度学习感知环境信息,使用强化学习求解最优决策,是当前人工智能领域的主要研究热点之一.然而,大部分深度强化学习的工作未考虑安全问题,有些方法甚至特意加入带随机性质的探索来扩展采样的覆盖面,以期望获得更好的近... 深度强化学习利用深度学习感知环境信息,使用强化学习求解最优决策,是当前人工智能领域的主要研究热点之一.然而,大部分深度强化学习的工作未考虑安全问题,有些方法甚至特意加入带随机性质的探索来扩展采样的覆盖面,以期望获得更好的近似最优解.可是,不受安全控制的探索性学习很可能会带来重大风险.针对上述问题,提出了一种基于双深度网络的安全深度强化学习(Dual Deep Network Based Secure Deep Reinforcement Learning,DDN-SDRL)方法.DDN-SDRL方法设计了危险样本经验池和安全样本经验池,其中危险样本经验池用于记录探索失败时的临界状态和危险状态的样本,而安全样本经验池用于记录剔除了临界状态和危险状态的样本.DDN-SDRL方法在原始网络模型上增加了一个深度Q网络来训练危险样本,将高维输入编码为抽象表示后再解码为特征;同时提出了惩罚项描述临界状态,并使用原始网络目标函数和惩罚项计算目标函数.DDN-SDRL方法以危险样本经验池中的样本为输入,使用深度Q网络训练得到惩罚项.由于DDN-SDRL方法利用了临界状态、危险状态及安全状态信息,因此Agent可以通过避开危险状态的样本、优先选取安全状态的样本来提高安全性.DDN-SDRL方法具有通用性,能与多种深度网络模型结合.实验验证了方法的有效性. 展开更多
关键词 强化学习 深度强化学习 深度Q网络 安全深度强化学习 安全人工智能 经验回放
在线阅读 下载PDF
面向主动配电网的安全多智能体深度强化学习电压优化控制 被引量:6
19
作者 梅铭洋 寇鹏 +1 位作者 张智豪 梁得亮 《西安交通大学学报》 EI CAS CSCD 北大核心 2023年第12期157-167,共11页
针对主动配电网电压优化控制中模型不确定性和通信代价大的问题,提出了一种基于灵敏度矩阵安全的多智能体深度强化学习(SMS-MADRL)算法。该算法利用安全深度强化学习,应对主动配电网的固有不确定性,并采用多智能体结构实现通信代价较小... 针对主动配电网电压优化控制中模型不确定性和通信代价大的问题,提出了一种基于灵敏度矩阵安全的多智能体深度强化学习(SMS-MADRL)算法。该算法利用安全深度强化学习,应对主动配电网的固有不确定性,并采用多智能体结构实现通信代价较小的分布式控制。首先,将电压优化控制问题描述为受约束的马尔可夫博弈(CMG);然后,对无功功率进行适当修改,通过分析节点电压的变化得到灵敏度矩阵,进而与主动配电网环境进行交互,训练出若干可以独立给出最优无功功率指令的智能体。与现有多智能体深度强化学习算法相比,该算法的优点在于给智能体的动作网络增添了基于灵敏度矩阵的安全层,在智能体的训练和执行阶段保证了主动配电网的电压安全性。在IEEE 33节点系统上的仿真结果表明:所提出的算法不仅能够满足电压约束,而且相较于多智能体深度确定性策略梯度(MADDPG)算法,网络损耗减少了4.18%,控制代价减少了70.5%。该研究可为主动配电网的电压优化控制提供理论基础。 展开更多
关键词 主动配电网 电压优化控制 多智能体深度强化学习 安全深度强化学习
在线阅读 下载PDF
安全约束下合作型多智能体TD3算法
20
作者 郝禹哲 王振雷 《计算机应用研究》 CSCD 北大核心 2023年第6期1692-1696,1701,共6页
合作马尔可夫博弈中,每个智能体不仅要实现共同的目标,还需要保证联合动作能够满足设定的约束条件。为此提出了安全约束下的合作型多智能体TD3算法MACTD3(multi-agent constrainted twin delayed deep deterministic policy gradient)... 合作马尔可夫博弈中,每个智能体不仅要实现共同的目标,还需要保证联合动作能够满足设定的约束条件。为此提出了安全约束下的合作型多智能体TD3算法MACTD3(multi-agent constrainted twin delayed deep deterministic policy gradient)。首先,结合注意力机制对各个智能体采取的动作与决策过程约束条件进行了协调。然后利用拉格朗日乘子构造了修正的代价函数。进而为保证算法的收敛性,保证每一个智能体能够满足预先设定的约束条件,设计了不同时间尺度分学习策略:在短时间尺度上执行Actor-Critic网络的梯度下降,在长时间尺度上对拉格朗日参数进行迭代。最后在异质和同质的合作型多智能体环境下进行实验。实验结果表明,与其他算法相比,提出的MACTD3算法始终能够获得最小的惩罚成本;通过数量的扩展性实验表明了MACTD3在不同数量智能体的情况下仍然能够满足约束条件,证明了算法的有效性与扩展性。 展开更多
关键词 安全强化学习 多智能体 拉格朗日乘子法
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部