期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
基于双深度Q网络算法的无人机辅助密集网络资源优化策略
1
作者 陈佳美 孙慧雯 +2 位作者 李玉峰 王宇鹏 别玉霞 《电子与信息学报》 北大核心 2025年第8期2621-2629,共9页
为顺应未来网络向密集化与空间化方向的发展趋势,该文提出构建一种多基站共存的空地结合超密集复杂网络,并开发半分布式方案以优化网络资源。首先,建立包括宏基站、微基站和无人机(UAV)空中基站在内的多种基站共存的超密集复杂网络构架... 为顺应未来网络向密集化与空间化方向的发展趋势,该文提出构建一种多基站共存的空地结合超密集复杂网络,并开发半分布式方案以优化网络资源。首先,建立包括宏基站、微基站和无人机(UAV)空中基站在内的多种基站共存的超密集复杂网络构架。在此基础上,针对传统完全集中式方案存在的计算负担重、响应速度慢以及分布式方案缺乏全局优化视角等问题,提出一种半分布式的双深度Q网络(DDQN)功率控制方案。该方案旨在优化网络能效,通过分布式决策与集中训练相结合的方式,有效平衡了计算复杂度和性能优化。具体而言,半分布式方案利用DDQN算法在基站侧进行分布式决策,同时引入集中式网络训练器以确保整体网络的能效最优。仿真结果表明,所提出的半分布式DDQN方案能够很好地适应密集复杂网络结构,与传统深度Q网络(DQN)相比,在能效和总吞吐量方面均取得了显著提升。 展开更多
关键词 空地密集网络 半分布式 双深度Q网络算法 资源优化
在线阅读 下载PDF
基于深度Q学习的组网雷达闪烁探测调度方法
2
作者 林志康 施龙飞 +1 位作者 刘甲磊 马佳智 《系统工程与电子技术》 北大核心 2025年第5期1443-1452,共10页
组网雷达闪烁探测体制可以提高雷达的协同探测性能和生存率,选择合适的雷达协同探测开机并限制单部雷达的开机暴露时间适应不断变化的环境威胁是亟待解决的问题。对此,提出一种基于深度Q学习(deep Q-learning,DQL)强化学习算法的限制单... 组网雷达闪烁探测体制可以提高雷达的协同探测性能和生存率,选择合适的雷达协同探测开机并限制单部雷达的开机暴露时间适应不断变化的环境威胁是亟待解决的问题。对此,提出一种基于深度Q学习(deep Q-learning,DQL)强化学习算法的限制单部雷达开机时间的组网雷达闪烁探测调度方法。首先建立空中干扰机对组网雷达的威胁度模型和雷达对空中干扰机的组网雷达闪烁探测模型;然后提出威胁度、组网瞬时探测概率强化学习奖励函数;最后利用提出的DQL算法求取组网雷达最佳闪烁开机决策调度方案。仿真结果表明,所提DQL调度方法平均效益率均优于随机调度、人工蜂群调度、双深度Q网络调度方法,且调度响应耗时较少。 展开更多
关键词 组网雷达 闪烁探测 强化学习 深度Q学习 双深度Q网络
在线阅读 下载PDF
基于双深度Q网络的多目标遥感产品生产任务调度算法
3
作者 周黎鸣 余汐 +2 位作者 范明虎 左宪禹 乔保军 《电子与信息学报》 北大核心 2025年第8期2819-2829,共11页
遥感产品的生产是一个涉及动态因素的多任务调度问题,任务之间存在资源竞争与冲突,且受生产环境实时变化的影响。如何实现自适应、多目标的高效调度成为问题关键。为此,该文创新性地提出一种基于双深度Q网络(DDQN)的多目标遥感产品生产... 遥感产品的生产是一个涉及动态因素的多任务调度问题,任务之间存在资源竞争与冲突,且受生产环境实时变化的影响。如何实现自适应、多目标的高效调度成为问题关键。为此,该文创新性地提出一种基于双深度Q网络(DDQN)的多目标遥感产品生产任务调度算法(MORS),该方法可以有效降低遥感产品的生产时间,并实现节点资源的负载均衡。首先将多个产品输入处理单元生成相应的遥感算法,然后基于价值驱动的并行可执行筛选策略得到算法子集。在此基础上,设计一个能够感知遥感算法特征和节点特征的深度神经网络模型。通过综合遥感算法生产时间和节点资源状态设计奖励函数,采用DDQN算法训练模型,以确定待处理子集中每个遥感算法的最佳执行节点。在不同数量产品的仿真实验中,将MORS与先来先服务(FCFS)、轮询调度(RR)、遗传算法(GA)以及基于深度Q网络(DQN)的任务调度算法和基于双流深度Q网络(Dueling DQN)的任务调度算法进行全面对比。实验结果表明,MORS在遥感任务调度上相较于其它算法具有有效性和优越性。 展开更多
关键词 遥感任务调度 多目标优化 双深度Q网络
在线阅读 下载PDF
云边协同框架下视频处理任务实时调度算法
4
作者 李佳坤 谢雨来 冯丹 《计算机工程与科学》 北大核心 2025年第10期1767-1778,共12页
在云边协同的视频任务处理中,由于存在大量的处理和传输任务,需要考虑任务处理的成功率、任务的处理时间,以保证服务质量。同时,还需要考虑各种资源开销以节省系统运营成本。为了解决上述难题,对云边协同框架下的视频任务调度问题进行... 在云边协同的视频任务处理中,由于存在大量的处理和传输任务,需要考虑任务处理的成功率、任务的处理时间,以保证服务质量。同时,还需要考虑各种资源开销以节省系统运营成本。为了解决上述难题,对云边协同框架下的视频任务调度问题进行了形式化建模,将问题转化为多目标优化问题。针对上述问题,提出了OCES算法,以权衡任务的时延与其在不同节点上产生的开销,并适应不同的动态场景。该算法对相同时间片内的任务进行排序以确定任务优先级,对于每个任务,结合任务信息与当前各边缘节点、云中心节点的状态信息,通过神经网络判断选取Q值最大策略的方法进行调度,用于指定任务的具体执行节点。OCES是基于DDQN的算法,对奖励函数和策略选择方法进行了改进,通过在深度神经网络中结合噪声网络,避免算法过早收敛于局部最优解。相比目前国际先进的CPSA算法,所提出的算法在成功率与完成时间相近的情况下,执行开销在不同平均到达速率与不同任务类型比例的2个场景中分别降低了10.56%与5.85%。 展开更多
关键词 云边协同 任务调度 深度强化学习 ddqn算法 噪声网络
在线阅读 下载PDF
基于DDQN的片上网络混合关键性消息调度方法 被引量:1
5
作者 李国梁 李峭 +1 位作者 徐亚军 熊华钢 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第7期1233-1241,共9页
对片上网络(NoC)承载的混合关键性消息进行实时调度是其应用于航空电子系统片上多核通信的关键。为解决可满足性模理论(SMT)法求解效率低、低优先级消息等待延迟大的问题,提出了一种基于双深度Q网络(DDQN)的混合关键性消息调度方法。将... 对片上网络(NoC)承载的混合关键性消息进行实时调度是其应用于航空电子系统片上多核通信的关键。为解决可满足性模理论(SMT)法求解效率低、低优先级消息等待延迟大的问题,提出了一种基于双深度Q网络(DDQN)的混合关键性消息调度方法。将虫孔交换机制下的消息调度问题建模为马尔可夫决策过程,建立包含环境、动作、状态、奖励的多层感知调度模型;随机生成多组分布不同的混合关键性消息作为训练样本,采用DDQN算法求解该调度模型;在此基础上,提出并实现了带孔隙DDQN算法,在保证时间触发(TT)消息可调度前提下为速率约束(RC)消息预留用于虫孔交换的时隙。算例研究表明:所提方法的求解时长及TT消息确定性端到端延迟的平均值均低于SMT法;带孔隙DDQN算法的RC消息延迟较不带孔隙DDQN算法和SMT法显著降低。 展开更多
关键词 片上网络(NoC) 时间触发(TT)机制 双深度Q网络(ddqn) 混合关键性消息 消息调度
在线阅读 下载PDF
Autonomous maneuver decision-making for a UCAV in short-range aerial combat based on an MS-DDQN algorithm 被引量:9
6
作者 Yong-feng Li Jing-ping Shi +2 位作者 Wei Jiang Wei-guo Zhang Yong-xi Lyu 《Defence Technology(防务技术)》 SCIE EI CAS CSCD 2022年第9期1697-1714,共18页
To solve the problem of realizing autonomous aerial combat decision-making for unmanned combat aerial vehicles(UCAVs) rapidly and accurately in an uncertain environment, this paper proposes a decision-making method ba... To solve the problem of realizing autonomous aerial combat decision-making for unmanned combat aerial vehicles(UCAVs) rapidly and accurately in an uncertain environment, this paper proposes a decision-making method based on an improved deep reinforcement learning(DRL) algorithm: the multistep double deep Q-network(MS-DDQN) algorithm. First, a six-degree-of-freedom UCAV model based on an aircraft control system is established on a simulation platform, and the situation assessment functions of the UCAV and its target are established by considering their angles, altitudes, environments, missile attack performances, and UCAV performance. By controlling the flight path angle, roll angle, and flight velocity, 27 common basic actions are designed. On this basis, aiming to overcome the defects of traditional DRL in terms of training speed and convergence speed, the improved MS-DDQN method is introduced to incorporate the final return value into the previous steps. Finally, the pre-training learning model is used as the starting point for the second learning model to simulate the UCAV aerial combat decision-making process based on the basic training method, which helps to shorten the training time and improve the learning efficiency. The improved DRL algorithm significantly accelerates the training speed and estimates the target value more accurately during training, and it can be applied to aerial combat decision-making. 展开更多
关键词 Unmanned combat aerial vehicle Aerial combat decision Multi-step double deep q-network Six-degree-of-freedom Aerial combat maneuver library
在线阅读 下载PDF
Deep reinforcement learning for UAV swarm rendezvous behavior 被引量:2
7
作者 ZHANG Yaozhong LI Yike +1 位作者 WU Zhuoran XU Jialin 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2023年第2期360-373,共14页
The unmanned aerial vehicle(UAV)swarm technology is one of the research hotspots in recent years.With the continuous improvement of autonomous intelligence of UAV,the swarm technology of UAV will become one of the mai... The unmanned aerial vehicle(UAV)swarm technology is one of the research hotspots in recent years.With the continuous improvement of autonomous intelligence of UAV,the swarm technology of UAV will become one of the main trends of UAV development in the future.This paper studies the behavior decision-making process of UAV swarm rendezvous task based on the double deep Q network(DDQN)algorithm.We design a guided reward function to effectively solve the problem of algorithm convergence caused by the sparse return problem in deep reinforcement learning(DRL)for the long period task.We also propose the concept of temporary storage area,optimizing the memory playback unit of the traditional DDQN algorithm,improving the convergence speed of the algorithm,and speeding up the training process of the algorithm.Different from traditional task environment,this paper establishes a continuous state-space task environment model to improve the authentication process of UAV task environment.Based on the DDQN algorithm,the collaborative tasks of UAV swarm in different task scenarios are trained.The experimental results validate that the DDQN algorithm is efficient in terms of training UAV swarm to complete the given collaborative tasks while meeting the requirements of UAV swarm for centralization and autonomy,and improving the intelligence of UAV swarm collaborative task execution.The simulation results show that after training,the proposed UAV swarm can carry out the rendezvous task well,and the success rate of the mission reaches 90%. 展开更多
关键词 double deep Q network(ddqn)algorithms unmanned aerial vehicle(UAV)swarm task decision deep reinforcement learning(DRL) sparse returns
在线阅读 下载PDF
基于引导Minimax-DDQN的无人机空战机动决策 被引量:7
8
作者 王昱 任田君 范子琳 《计算机应用》 CSCD 北大核心 2023年第8期2636-2643,共8页
针对无人机(UAV)空战环境信息复杂、对抗性强所导致的敌机机动策略难以预测,以及作战胜率不高的问题,设计了一种引导Minimax-DDQN(Minimax-Double Deep Q-Network)算法。首先,在Minimax决策方法的基础上提出了一种引导式策略探索机制;然... 针对无人机(UAV)空战环境信息复杂、对抗性强所导致的敌机机动策略难以预测,以及作战胜率不高的问题,设计了一种引导Minimax-DDQN(Minimax-Double Deep Q-Network)算法。首先,在Minimax决策方法的基础上提出了一种引导式策略探索机制;然后,结合引导Minimax策略,以提升Q网络更新效率为出发点设计了一种DDQN(Double Deep Q-Network)算法;最后,提出进阶式三阶段的网络训练方法,通过不同决策模型间的对抗训练,获取更为优化的决策模型。实验结果表明,相较于Minimax-DQN(Minimax-DQN)、Minimax-DDQN等算法,所提算法追击直线目标的成功率提升了14%~60%,并且与DDQN算法的对抗胜率不低于60%。可见,与DDQN、Minimax-DDQN等算法相比,所提算法在高对抗的作战环境中具有更强的决策能力,适应性更好。 展开更多
关键词 无人机空战 自主决策 深度强化学习 双重深度Q网络 多阶段训练
在线阅读 下载PDF
未知环境下改进DDQN的无人机探索航迹规划研究 被引量:5
9
作者 唐嘉宁 杨昕 +2 位作者 周思达 李罗宇 安城安 《电光与控制》 CSCD 北大核心 2023年第4期23-27,33,共6页
对未知环境的探索,如搜救、追逃等场景,无人机需要一边探索(感知)环境一边完成当前的航迹规划(动作选择)。针对上述场景,为了提高无人机对未知环境的探索范围,提出了结合长短期记忆的改进深度双Q网络探索航迹规划方法:搭建仿真地图,以... 对未知环境的探索,如搜救、追逃等场景,无人机需要一边探索(感知)环境一边完成当前的航迹规划(动作选择)。针对上述场景,为了提高无人机对未知环境的探索范围,提出了结合长短期记忆的改进深度双Q网络探索航迹规划方法:搭建仿真地图,以无人机视野内的环境信息作为输入,引入长短期记忆网络,输出动作方向的选择;设置探索经验样本优先级,提高训练效率;加入飞行动力学约束,设计合理的状态、动作空间及单步奖励函数。运用所提算法,无人机可以自主规划出一条无碰撞且对环境探索范围大的航迹。仿真实验结果表明:在未知环境下,所提算法得到的探索面积比、单步探索平均奖励值等指标均优于传统的DDQN算法。 展开更多
关键词 无人机 长短期记忆网络 深度双Q网络 未知环境探索 航迹规划
在线阅读 下载PDF
基于动作注意策略的树形DDQN目标候选区域提取方法
10
作者 左国玉 杜婷婷 +2 位作者 马蕾 卢佳豪 龚道雄 《电子与信息学报》 EI CSCD 北大核心 2019年第3期666-673,共8页
针对机器人在家庭环境下的目标检测问题,该文提出一种基于动作注意策略的树形双深度Q网络(TDDQN)目标候选区域提取的方法,该方法将双深度Q网络(DDQN)的方法与树结构的方法相结合,通过执行改变检测框的动作以使目标逐渐集中在检测框内。... 针对机器人在家庭环境下的目标检测问题,该文提出一种基于动作注意策略的树形双深度Q网络(TDDQN)目标候选区域提取的方法,该方法将双深度Q网络(DDQN)的方法与树结构的方法相结合,通过执行改变检测框的动作以使目标逐渐集中在检测框内。首先采用DDQN方法在执行较少的动作后选择出当前状态的最佳动作,获取符合条件的候选区域。然后根据执行所选择动作之后所得到的状态重复执行上述过程,以此构成树结构的多条"最佳"路径。最后采用非极大值抑制的方法从多个符合条件的候选区域选择出最佳候选区域。在PascalVOC2007以及Pascal VOC2012上的实验结果表明,在不同数量的候选区域、不同阈值的IoU和不同大小以及不同种类对象的实验条件下,所提方法较其他方法都有着更好的检测性能,可以较好地实现目标检测。 展开更多
关键词 目标检测 候选区域 树结构 双深度Q网络 动作注意
在线阅读 下载PDF
基于双深度Q网络算法的多用户端对端能源共享机制研究
11
作者 武东昊 王国烽 +2 位作者 毛毳 陈玉萍 张有兵 《高技术通讯》 CAS 北大核心 2024年第7期755-764,共10页
端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷... 端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷变动问题。为此,本文建立了一种以多类型用户为基础的多用户P2P能源社区交易模型,并引入基于双深度Q网络(DDQN)的强化学习(RL)算法对其进行求解。所提方法通过DDQN算法中的预测网络以及目标网络读取多用户P2P能源社区中的环境信息,训练后的神经网络可通过实时的光伏、负荷以及电价数据对当前社区内的多用户P2P交易问题进行求解。案例仿真结果表明,所提方法在促进社区内用户间P2P能源交易共享的同时,保证了多用户P2P能源社区的经济性。 展开更多
关键词 端对端(P2P)能源共享 强化学习(RL) 能源交易市场 双深度Q网络(ddqn)算法
在线阅读 下载PDF
一种融合噪声网络的裁剪双深度Q网络的船舶自主避碰决策算法
12
作者 韩虎生 关巍 崔哲闻 《上海海事大学学报》 北大核心 2024年第4期1-7,共7页
针对海上船舶自主避碰决策中深度Q网络(deep Q-network,DQN)算法的高估和收敛性差的问题,提出一种融合噪声网络的裁剪双DQN(double DQN,DDQN)算法,记为NoisyNet-CDDQN算法。该算法采用裁剪双Q值的方式减小DQN算法的高估问题,并通过引入... 针对海上船舶自主避碰决策中深度Q网络(deep Q-network,DQN)算法的高估和收敛性差的问题,提出一种融合噪声网络的裁剪双DQN(double DQN,DDQN)算法,记为NoisyNet-CDDQN算法。该算法采用裁剪双Q值的方式减小DQN算法的高估问题,并通过引入噪声网络来增强算法的稳定性以解决DQN算法收敛性差的问题。充分考虑船舶运动数学模型和船舶领域模型,并在奖励函数设计中考虑到偏航、《国际海上避碰规则》(International Regulations for Preventing Collisions at Sea,COLREGs)等要素。多会遇场景仿真实验证明,本文所提出的NoisyNet-CDDQN算法相较于融合噪声网络的DQN算法在收敛速度上提升了27.27%,相较于DDQN算法提升了54.55%,相较于DQN算法提升了87.27%,并且船舶自主避碰决策行为符合COLREGs,可为船舶的自主避碰提供参考。 展开更多
关键词 噪声网络 双深度Q网络(ddqn) 船舶自主避碰 国际海上避碰规则
在线阅读 下载PDF
基于深度强化学习的移动机器人路径规划 被引量:31
13
作者 董瑶 葛莹莹 +2 位作者 郭鸿湧 董永峰 杨琛 《计算机工程与应用》 CSCD 北大核心 2019年第13期15-19,157,共6页
为解决传统的深度Q网络模型下机器人探索复杂未知环境时收敛速度慢的问题,提出了基于竞争网络结构的改进深度双Q网络方法(Improved Dueling Deep Double Q-Network,IDDDQN)。移动机器人通过改进的DDQN网络结构对其三个动作的值函数进行... 为解决传统的深度Q网络模型下机器人探索复杂未知环境时收敛速度慢的问题,提出了基于竞争网络结构的改进深度双Q网络方法(Improved Dueling Deep Double Q-Network,IDDDQN)。移动机器人通过改进的DDQN网络结构对其三个动作的值函数进行估计,并更新网络参数,通过训练网络得到相应的Q值。移动机器人采用玻尔兹曼分布与ε-greedy相结合的探索策略,选择一个最优动作,到达下一个观察。机器人将通过学习收集到的数据采用改进的重采样优选机制存储到缓存记忆单元中,并利用小批量数据训练网络。实验结果显示,与基本DDQN算法比,IDDDQN训练的机器人能够更快地适应未知环境,网络的收敛速度也得到提高,到达目标点的成功率增加了3倍多,在未知的复杂环境中可以更好地获取最优路径。 展开更多
关键词 深度双Q网络(ddqn) 竞争网络结构 重采样优选机制 玻尔兹曼分布 ε-greedy策略
在线阅读 下载PDF
基于深度强化学习的股市操盘手模型研究 被引量:6
14
作者 韩道岐 张钧垚 +1 位作者 周玉航 刘青 《计算机工程与应用》 CSCD 北大核心 2020年第21期145-153,共9页
股票市场具有变化快、干扰因素多、周期数据不足等特点,股票交易是一种不完全信息下的博弈过程,单目标的监督学习模型很难处理这类序列化决策问题。强化学习是解决该类问题的有效途径之一。提出了基于深度强化学习的智能股市操盘手模型I... 股票市场具有变化快、干扰因素多、周期数据不足等特点,股票交易是一种不完全信息下的博弈过程,单目标的监督学习模型很难处理这类序列化决策问题。强化学习是解决该类问题的有效途径之一。提出了基于深度强化学习的智能股市操盘手模型ISTG(Intelligent Stock Trader and Gym),融合历史行情数据、技术指标、宏观经济指标等多数据类型,分析评判标准和优秀控制策略,加工长周期数据,实现可增量扩展不同类型数据的复盘模型,自动计算回报标签,训练智能操盘手,并提出直接利用行情数据计算单步确定性动作值的方法。采用中国股市1400多支的有10年以上数据的股票进行多种对比实验,ISTG的总体收益达到13%,优于买入持有总体−7%的表现。 展开更多
关键词 深度强化学习 双价值网络的深度强化学习(ddqn) 单步确定性动作值 量化策略
在线阅读 下载PDF
基于深度强化学习的智能灯个性化调节方法 被引量:5
15
作者 邓心 那俊 +2 位作者 张瀚铎 王昱林 张斌 《计算机工程与应用》 CSCD 北大核心 2022年第6期264-270,共7页
提出一种基于深度强化学习的智能灯亮度个性化调节方法,综合考虑自然光亮度及用户位置对用户实际感受亮度的影响,动态计算并设置灯光亮度,以满足用户个性化使用习惯。在每次完成灯光亮度自动调节后,根据用户是否再次进行手动调节设定正... 提出一种基于深度强化学习的智能灯亮度个性化调节方法,综合考虑自然光亮度及用户位置对用户实际感受亮度的影响,动态计算并设置灯光亮度,以满足用户个性化使用习惯。在每次完成灯光亮度自动调节后,根据用户是否再次进行手动调节设定正、负反馈,训练强化学习模型逐渐拟合用户使用习惯。实验分别实现了DQN、DDQN和A3C三种算法,在基于DIALux环境产生的数据集上进行对比分析,并给出原型系统的软硬件实现。 展开更多
关键词 深度强化学习 个性化控制 DQN算法 ddqn算法 A3C算法
在线阅读 下载PDF
优先状态估计的双深度Q网络 被引量:1
16
作者 张鑫 张席 《计算机工程与应用》 CSCD 北大核心 2021年第8期78-83,共6页
深度强化学习探索问题中,需要根据环境给予的外部奖赏以作出决策,而在稀疏奖赏环境下,训练初期将获取不到任何信息,且在训练后期难以动态地结合已获得的信息对探索策略进行调整。为缓解这个问题,提出优先状态估计方法,在对状态进行访问... 深度强化学习探索问题中,需要根据环境给予的外部奖赏以作出决策,而在稀疏奖赏环境下,训练初期将获取不到任何信息,且在训练后期难以动态地结合已获得的信息对探索策略进行调整。为缓解这个问题,提出优先状态估计方法,在对状态进行访问时给予优先值,结合外部奖赏一并存入经验池中,引导探索的策略方向。结合DDQN(Double Deep Q Network)与优先经验回放,在OpenAI Gym中的MountainCar经典控制问题与Atari 2600中的FreeWay游戏中进行对比实验,结果表明该方法在稀疏奖赏环境中具有更好的学习性能,取得了更高的平均分数。 展开更多
关键词 强化学习 状态估计 深度Q网络 双深度Q网络
在线阅读 下载PDF
基于强化学习的六足机器人动态避障研究 被引量:8
17
作者 董星宇 唐开强 +2 位作者 傅汇乔 留沧海 蒋刚 《传感器与微系统》 CSCD 北大核心 2022年第1期19-23,共5页
针对局部可观测的非线性动态地震环境下,六足机器人采用传统算法进行动态避障时易出现算法不稳定的情况。运用了基于双重深度Q网络(DDQN)的决策方式,通过传感器数据输入卷积神经网络(CNN)并结合强化学习的策略,下达命令到六足机器人,控... 针对局部可观测的非线性动态地震环境下,六足机器人采用传统算法进行动态避障时易出现算法不稳定的情况。运用了基于双重深度Q网络(DDQN)的决策方式,通过传感器数据输入卷积神经网络(CNN)并结合强化学习的策略,下达命令到六足机器人,控制输出决策动作,实现机器人动态避障。将系统的环境反馈与决策控制直接形成闭环,通过最大化机器人与避障环境交互产生的累计奖励回报,更新神经网络权重,形成最优决策策略。通过六足机器人平台实验结果证明:此方法能较好地减少传统深度强化学习算法容易导致过度估计状态动作值和损失函数难以收敛的风险;并且提高了六足机器人进行动态避障的效率和稳定性。 展开更多
关键词 双重深度Q网络 六足机器人 动态避障 传感器输入
在线阅读 下载PDF
基于深度强化学习的Boost变换器控制策略 被引量:1
18
作者 戴宇轩 崔承刚 《系统仿真学报》 CAS CSCD 北大核心 2023年第5期1109-1119,共11页
针对Boost变换器母线电压稳定控制存在模型不确定性和非线性的问题,提出了一种基于无模型深度强化学习的智能控制策略。结合强化学习DDQN(double DQN)算法与DDPG算法设计了Boost变换器控制器,包括了状态、动作空间、奖励函数以及神经网... 针对Boost变换器母线电压稳定控制存在模型不确定性和非线性的问题,提出了一种基于无模型深度强化学习的智能控制策略。结合强化学习DDQN(double DQN)算法与DDPG算法设计了Boost变换器控制器,包括了状态、动作空间、奖励函数以及神经网络的设计以提高控制器动态性能;基于ModelicaGym库开发工具包reinforment learning modelica(RLM)实现了Boost变换器模型与强化学习智能体的联合仿真。通过与双环PI控制器的对比仿真表明:强化学习控制器在三种工况下的母线电压稳定控制结果具有更好的动态性能。 展开更多
关键词 BOOST变换器 深度强化学习 ddqn算法 DDPG算法 协同仿真
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部