期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
计及氢能多元需求的工业园区综合能源系统经济低碳运行
1
作者 杨家辉 闫庆友 郭红珍 《广东电力》 北大核心 2025年第1期51-62,共12页
针对日益增长且多元的氢能需求,提出一种计及氢能多元需求的工业园区综合能源系统经济低碳运行策略。首先探究工业园区中氢能需求的不同来源以及各类氢能需求用量与时间特性的差异,并建立工业园区储能系统模型;其次,构建工业园区综合能... 针对日益增长且多元的氢能需求,提出一种计及氢能多元需求的工业园区综合能源系统经济低碳运行策略。首先探究工业园区中氢能需求的不同来源以及各类氢能需求用量与时间特性的差异,并建立工业园区储能系统模型;其次,构建工业园区综合能源系统双层优化模型,并利用深度确定性策略梯度算法(deep deterministic policy gradient,DDPG)进行求解;最后,选取某地工业园区进行算例分析,比较3种场景下的运行结果。结果表明,在引入代理商调整新能源汽车充能负荷并配置储能系统后,工业园区的购电成本降低了15.8%,综合能源系统运营商的收益提高了6.85%,同时工业园区的碳排放量降低了3.99%。 展开更多
关键词 氢能多元需求 园区综合能源系统 双层优化模型 深度确定性策略梯度算法 新能源汽车
在线阅读 下载PDF
无人机辅助NOMA通信系统中的3D轨迹优化与资源分配
2
作者 朱耀辉 王涛 +1 位作者 彭振春 刘含 《应用科学学报》 北大核心 2025年第2期208-221,共14页
无人机辅助通信系统是未来无线通信系统的重要组成部分。为进一步提高无人机辅助通信系统中时频资源的利用率,本文研究了一种基于非正交多址技术的无人机辅助通信架构,并提出了一种基于双延迟深度确定性策略梯度的TD3-TOPATM(twin delay... 无人机辅助通信系统是未来无线通信系统的重要组成部分。为进一步提高无人机辅助通信系统中时频资源的利用率,本文研究了一种基于非正交多址技术的无人机辅助通信架构,并提出了一种基于双延迟深度确定性策略梯度的TD3-TOPATM(twin delayedtrajectory optimization and power allocation for total throughput maximization)算法,以最大化总吞吐量为目标,在满足最大功率约束、空间约束、最大飞行速度和服务质量(quality of service,QoS)约束的情况下,联合优化无人机的功率分配策略和3D轨迹。仿真实验分析结果表明,与随机算法相比,TD3-TOPATM算法能够实现98%的性能增益;与基于DQN(deep Q-network)的轨迹优化与资源分配算法相比,TD3-TOPATM算法获得的性能增益为19.4%;与基于深度确定性策略梯度的轨迹优化与资源分配算法相比,TD3-TOPATM算法得到的总吞吐量增加了9.7%;与基于正交多址技术的无人机辅助通信方案相比,基于非正交多址技术的无人机辅助通信方案实现了55%的性能增益。 展开更多
关键词 深度强化学习 无人机辅助通信 3D轨迹优化 非正交多址 双延迟深度确定性策略梯度
在线阅读 下载PDF
基于多智能体深度强化学习的多船协同避碰策略
3
作者 黄仁贤 罗亮 《计算机集成制造系统》 EI CSCD 北大核心 2024年第6期1972-1988,共17页
为了提高多船会遇时智能避碰策略的协同性、安全性、实用性和节能性,在中心化训练去中心化执行框架下,结合优先经验回放机制提出一种多智能体Softmax深层双确定性策略梯度PER-MASD3算法,用于解决多船协同避碰问题,该算法不仅解决了双延... 为了提高多船会遇时智能避碰策略的协同性、安全性、实用性和节能性,在中心化训练去中心化执行框架下,结合优先经验回放机制提出一种多智能体Softmax深层双确定性策略梯度PER-MASD3算法,用于解决多船协同避碰问题,该算法不仅解决了双延迟确定策略梯度(TD3)算法存在的值估计偏差问题,还在模型训练过程中引入熵正则项,以促进探索和控制随机控制策略,采用自适应噪声对不同阶段的任务进行有效探索,进一步提升了算法的学习效果和稳定性。通过实验验证,所提算法在解决多船协同避碰问题上具有较好的决策效果、更快的收敛速度和更稳定的性能。 展开更多
关键词 多智能体深度强化学习 协同避碰 中心化训练去中心化执行 优先经验回放 多智能体softmax深层双确定性策略梯度
在线阅读 下载PDF
基于双评论家的多智能体深度确定性策略梯度方法 被引量:5
4
作者 丁世飞 杜威 +2 位作者 郭丽丽 张健 徐晓 《计算机研究与发展》 EI CSCD 北大核心 2023年第10期2394-2404,共11页
在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这... 在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这一问题,分别从理论和实验上证明了多智能体深度确定性策略梯度方法存在价值函数被高估.提出基于双评论家的多智能体深度确定性策略梯度(multiagent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法,通过在双评论家网络上的最小值操作来避免价值被高估,进一步促进智能体学得最优的策略.此外,延迟行动者网络更新,保证行动者网络策略更新的效率和稳定性,提高策略学习和更新的质量.在多智能体粒子环境和交通信号控制环境上的实验结果证明了所提方法的可行性和优越性. 展开更多
关键词 强化学习 价值估计 双评论家 交通信号控制 多智能体深度确定性策略梯度
在线阅读 下载PDF
改进双延迟深度确定性策略梯度的多船协调避碰决策
5
作者 黄仁贤 罗亮 +1 位作者 杨萌 刘维勤 《计算机科学》 CSCD 北大核心 2023年第11期269-281,共13页
目前,多数海上避碰模型都是将船舶作为单智能体进行避碰决策,未考虑船舶间的协调避让,在多船会遇场景下仅靠单船进行避碰操作会导致避让效果不佳。为此,提出了一种改进双延迟深度确定性策略梯度算法(TD3)的Softmax深层双确定性策略梯度(... 目前,多数海上避碰模型都是将船舶作为单智能体进行避碰决策,未考虑船舶间的协调避让,在多船会遇场景下仅靠单船进行避碰操作会导致避让效果不佳。为此,提出了一种改进双延迟深度确定性策略梯度算法(TD3)的Softmax深层双确定性策略梯度(SD3)多船协调避碰模型。从考虑船舶航行安全的时空因素出发构建时间碰撞模型、空间碰撞模型,对船舶碰撞风险进行定量分析,在此基础上采用根据会遇态势和船速矢量动态变化的船域模型对船舶碰撞风险进行定性分析。综合船舶目标导向、航向角改变、航向保持、碰撞风险和《国际海上避碰规则》(COLREGS)的约束设计奖励函数,结合COLREGS中的典型相遇情况构造对遇、追越和交叉相遇多局面共存的会遇场景进行避碰模拟仿真。消融实验显示softmax运算符提升了SD3算法的性能,使其在船舶协调避碰中拥有更好的决策效果,并与其他强化学习算法进行学习效率和学习效果的比较。实验结果表明,SD3算法在多局面共存的复杂场景下能高效做出准确的避碰决策,并且性能优于其他强化学习算法。 展开更多
关键词 多船会遇 协调避碰 智能决策 双延迟深度确定性策略梯度(TD3) softmax深层双确定性策略梯度(SD3) 强化学习
在线阅读 下载PDF
面向工业物联网的短包安全通信资源智能分配算法 被引量:9
6
作者 李松 张继钰 陈瑞瑞 《南京邮电大学学报(自然科学版)》 北大核心 2023年第2期11-17,共7页
面向工业物联网业务的低时延与安全性需求,针对短包安全通信的设备高能耗问题,结合物理层安全技术的短包通信理论,提出了一种安全容量约束下带宽和功率的智能分配算法。考虑安全容量和总带宽约束,构建了工业物联网下短包安全通信的总功... 面向工业物联网业务的低时延与安全性需求,针对短包安全通信的设备高能耗问题,结合物理层安全技术的短包通信理论,提出了一种安全容量约束下带宽和功率的智能分配算法。考虑安全容量和总带宽约束,构建了工业物联网下短包安全通信的总功率最小化问题。根据优化目标和约束条件,设计了带宽资源决策的双深度Q网络和基于深度确定性策略梯度的功率资源分配网络。仿真结果表明,所提出的智能资源分配算法有效地降低了工业物联网下短包安全通信的总功率。 展开更多
关键词 短包安全通信 工业物联网 双深度Q网络 深度确定性策略梯度
在线阅读 下载PDF
采用双经验回放池的噪声流双延迟深度确定性策略梯度算法
7
作者 王垚儒 李俊 《武汉科技大学学报》 CAS 北大核心 2020年第2期147-154,共8页
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验... 为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题。在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果表明,与对比算法相比,本文算法获得的回报值有明显改善,网络收敛速度也大大加快。 展开更多
关键词 深度确定性策略梯度 TD3算法 深度强化学习 噪声流 多步截断双Q学习 双经验回放池
在线阅读 下载PDF
基于深度强化学习的Boost变换器控制策略
8
作者 戴宇轩 崔承刚 《系统仿真学报》 CAS CSCD 北大核心 2023年第5期1109-1119,共11页
针对Boost变换器母线电压稳定控制存在模型不确定性和非线性的问题,提出了一种基于无模型深度强化学习的智能控制策略。结合强化学习DDQN(double DQN)算法与DDPG算法设计了Boost变换器控制器,包括了状态、动作空间、奖励函数以及神经网... 针对Boost变换器母线电压稳定控制存在模型不确定性和非线性的问题,提出了一种基于无模型深度强化学习的智能控制策略。结合强化学习DDQN(double DQN)算法与DDPG算法设计了Boost变换器控制器,包括了状态、动作空间、奖励函数以及神经网络的设计以提高控制器动态性能;基于ModelicaGym库开发工具包reinforment learning modelica(RLM)实现了Boost变换器模型与强化学习智能体的联合仿真。通过与双环PI控制器的对比仿真表明:强化学习控制器在三种工况下的母线电压稳定控制结果具有更好的动态性能。 展开更多
关键词 BOOST变换器 深度强化学习 DDQN算法 DDPG算法 协同仿真
在线阅读 下载PDF
基于DDQN-D^(3)PG的无人机空战分层决策
9
作者 王昱 李远鹏 +2 位作者 郭中宇 李硕 任田君 《兵工学报》 2025年第8期66-76,共11页
强化学习在无人机空战应用中面临僵化的奖励函数与单一模型难以处理高维连续状态空间中复杂任务的挑战,严重限制了算法在动态多变态势下的决策泛化能力。针对上述问题,融合分层式与分布式架构的精髓,提出一种集成深度双Q网络(Double Dee... 强化学习在无人机空战应用中面临僵化的奖励函数与单一模型难以处理高维连续状态空间中复杂任务的挑战,严重限制了算法在动态多变态势下的决策泛化能力。针对上述问题,融合分层式与分布式架构的精髓,提出一种集成深度双Q网络(Double Deep Q-Network,DDQN)与深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法的自主决策框架。根据敌我双方在不同态势下的优势差异,设计一系列基于不同奖励函数权重组合的DDPG算法模型,并以此构建底层分布式深度确定性策略梯度(Distributed DDPG,D^(3)PG)决策网络。引入擅长处理离散动作空间的DDQN算法构建上层决策网络,根据实时态势变化自主地选择并切换至最合适的底层策略模型,实现决策的即时调整与优化。为进一步提升红蓝双方无人机近距离空战环境的真实性与挑战性,在DDPG算法的训练中引入自我博弈机制,构建具备高度智能化的敌方决策模型。实验结果表明,新算法在无人机与智能化对手的博弈对抗中胜率最高达96%,相较D^(3)PG等算法提升20%以上,且在多种初始态势下均能稳定战胜对手,充分验证了该方法的有效性和先进性。 展开更多
关键词 无人机空战 强化学习 分层决策 深度双Q网络 分布式深度确定性策略梯度
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部