期刊文献+
共找到58篇文章
< 1 2 3 >
每页显示 20 50 100
Supervisory control of the hybrid off-highway vehicle for fuel economy improvement using predictive double Q-learning with backup models 被引量:1
1
作者 SHUAI Bin LI Yan-fei +2 位作者 ZHOU Quan XU Hong-ming SHUAI Shi-jin 《Journal of Central South University》 SCIE EI CAS CSCD 2022年第7期2266-2278,共13页
This paper studied a supervisory control system for a hybrid off-highway electric vehicle under the chargesustaining(CS)condition.A new predictive double Q-learning with backup models(PDQL)scheme is proposed to optimi... This paper studied a supervisory control system for a hybrid off-highway electric vehicle under the chargesustaining(CS)condition.A new predictive double Q-learning with backup models(PDQL)scheme is proposed to optimize the engine fuel in real-world driving and improve energy efficiency with a faster and more robust learning process.Unlike the existing“model-free”methods,which solely follow on-policy and off-policy to update knowledge bases(Q-tables),the PDQL is developed with the capability to merge both on-policy and off-policy learning by introducing a backup model(Q-table).Experimental evaluations are conducted based on software-in-the-loop(SiL)and hardware-in-the-loop(HiL)test platforms based on real-time modelling of the studied vehicle.Compared to the standard double Q-learning(SDQL),the PDQL only needs half of the learning iterations to achieve better energy efficiency than the SDQL at the end learning process.In the SiL under 35 rounds of learning,the results show that the PDQL can improve the vehicle energy efficiency by 1.75%higher than SDQL.By implementing the PDQL in HiL under four predefined real-world conditions,the PDQL can robustly save more than 5.03%energy than the SDQL scheme. 展开更多
关键词 supervisory charge-sustaining control hybrid electric vehicle reinforcement learning predictive double q-learning
在线阅读 下载PDF
Deep reinforcement learning for UAV swarm rendezvous behavior 被引量:2
2
作者 ZHANG Yaozhong LI Yike +1 位作者 WU Zhuoran XU Jialin 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2023年第2期360-373,共14页
The unmanned aerial vehicle(UAV)swarm technology is one of the research hotspots in recent years.With the continuous improvement of autonomous intelligence of UAV,the swarm technology of UAV will become one of the mai... The unmanned aerial vehicle(UAV)swarm technology is one of the research hotspots in recent years.With the continuous improvement of autonomous intelligence of UAV,the swarm technology of UAV will become one of the main trends of UAV development in the future.This paper studies the behavior decision-making process of UAV swarm rendezvous task based on the double deep Q network(DDQN)algorithm.We design a guided reward function to effectively solve the problem of algorithm convergence caused by the sparse return problem in deep reinforcement learning(DRL)for the long period task.We also propose the concept of temporary storage area,optimizing the memory playback unit of the traditional DDQN algorithm,improving the convergence speed of the algorithm,and speeding up the training process of the algorithm.Different from traditional task environment,this paper establishes a continuous state-space task environment model to improve the authentication process of UAV task environment.Based on the DDQN algorithm,the collaborative tasks of UAV swarm in different task scenarios are trained.The experimental results validate that the DDQN algorithm is efficient in terms of training UAV swarm to complete the given collaborative tasks while meeting the requirements of UAV swarm for centralization and autonomy,and improving the intelligence of UAV swarm collaborative task execution.The simulation results show that after training,the proposed UAV swarm can carry out the rendezvous task well,and the success rate of the mission reaches 90%. 展开更多
关键词 double deep Q network(ddqn)algorithms unmanned aerial vehicle(UAV)swarm task decision deep reinforcement learning(DRL) sparse returns
在线阅读 下载PDF
基于SimSiam-DDQN的混流交通信号控制算法
3
作者 张晨 朱玉杰 +1 位作者 贾锐 张润泽 《传感器与微系统》 北大核心 2025年第7期159-163,共5页
面对当前日益严重的城市交通拥堵问题,提出面向混合交通流的深度强化学习交通信号控制算法--SimSiam-DDQN算法。该算法将自监督学习和深度强化学习进行结合,利用近期交叉口数据对SimSiam网络进行训练,获取状态特征编码器,将状态编码器... 面对当前日益严重的城市交通拥堵问题,提出面向混合交通流的深度强化学习交通信号控制算法--SimSiam-DDQN算法。该算法将自监督学习和深度强化学习进行结合,利用近期交叉口数据对SimSiam网络进行训练,获取状态特征编码器,将状态编码器集成于DDQN模型中,使用编码器从原始状态中提取的特征对智能体进行训练。仿真结果表明,与传统特征提取方法AutoEncoder相比,SimSiam能显著提高DDQN的收敛速度和稳定性,该算法在平均等待时间和平均队伍长度等方面优于其他算法,为解决城市交通拥堵问题提供新的思路。 展开更多
关键词 混合交通流 交通信号控制 深度强化学习 自监督学习 SimSiam ddqn
在线阅读 下载PDF
基于改进DDQN船舶自动靠泊路径规划方法
4
作者 李康斌 朱齐丹 +1 位作者 牟进友 菅紫婷 《智能系统学报》 北大核心 2025年第1期73-80,共8页
船舶在自动靠泊过程中会受到风、浪、流和岸壁效应等因素的影响,故需要精确的路径规划方法防止靠泊失败。针对全驱动船舶靠泊过程的基于双深度Q网络(double deep Q network,DDQN)算法,设计了一种船舶自动靠泊路径规划方法。首先建立船... 船舶在自动靠泊过程中会受到风、浪、流和岸壁效应等因素的影响,故需要精确的路径规划方法防止靠泊失败。针对全驱动船舶靠泊过程的基于双深度Q网络(double deep Q network,DDQN)算法,设计了一种船舶自动靠泊路径规划方法。首先建立船舶三自由度模型,然后通过将距离、航向、推力、时间和碰撞作为奖励或惩罚,改进奖励函数。随后引入DDQN来学习动作奖励模型,并使用学习结果来操纵船舶运动。通过追求更高的奖励值,船舶可以自行找到最优的靠泊路径。实验结果表明,在不同水流速度下,船舶都可以在完成靠泊的同时减小时间和推力,并且在相同水流速度下,DDQN算法与Q-learning、SARSA(state action reward state action)、深度Q网络(deep Q network,DQN)等算法相比,靠泊过程推力分别减小了241.940、234.614、80.202 N,且时间仅为252.485 s。 展开更多
关键词 自动靠泊 路径规划 深度强化学习 双深度Q网络 奖励函数 水流速度 状态探索 推力 时间 独立重复实验
在线阅读 下载PDF
基于改进双智能体D3QN的电网N-1新增风险防控策略 被引量:1
5
作者 安军 黎梓聪 +2 位作者 周毅博 石岩 毕建航 《中国电机工程学报》 北大核心 2025年第3期858-869,I0005,共13页
城市电网在发生N-1故障后,极可能新增运行风险,导致N-1-1时出现大面积停电事故。为管控城市电网N-1后运行风险,该文提出一种改进双智能体竞争双深度Q网络(dueling double deep Q network,D3QN)的城市电网N-1风险管控转供策略。根据风险... 城市电网在发生N-1故障后,极可能新增运行风险,导致N-1-1时出现大面积停电事故。为管控城市电网N-1后运行风险,该文提出一种改进双智能体竞争双深度Q网络(dueling double deep Q network,D3QN)的城市电网N-1风险管控转供策略。根据风险管控原则,提出一种无需额外历史数据、考虑备自投装置、单供变电站风险和单供负荷母线风险的N-1场景指标;建立计及动作次序、指标间关系的负荷转供三阶段求解模型。以含预动作-变化探索值选择策略的改进双智能体D3QN方法,将负荷转供分为多个子转供环节学习,使转供思路清晰化,对动作空间进行降维,提高训练寻优效果,得到管控N-1风险的负荷转供策略。通过城市电网多场景算例分析,验证该文模型和方法的有效性。 展开更多
关键词 城市电网 负荷转供 深度强化学习 N-1新增风险 双智能体
在线阅读 下载PDF
基于深度强化学习的无人机紫外光信息收集方法
6
作者 赵太飞 郭佳豪 +1 位作者 辛雨 王璐 《光子学报》 北大核心 2025年第1期43-58,共16页
针对电磁干扰环境下的无人机信息收集问题,使用深度强化学习算法实现了紫外光非直视通信收发仰角自适应调整的信息收集方法。建立了无人机的移动、通信、信息收集和能耗模型,以时间、能量和通信质量为目标函数,建立了多目标优化模型,使... 针对电磁干扰环境下的无人机信息收集问题,使用深度强化学习算法实现了紫外光非直视通信收发仰角自适应调整的信息收集方法。建立了无人机的移动、通信、信息收集和能耗模型,以时间、能量和通信质量为目标函数,建立了多目标优化模型,使用深度强化学习算法解决多目标优化问题。为了让无人机获得更优的飞行方向、飞行速度以及紫外光收发仰角的决策,设计了一套适合信息收集任务的奖励函数,并对经典的深度双Q网络算法加入双目标网络、熵正则化和优先经验回放等改进。仿真结果表明,改进的算法相比经典的深度双Q网络算法,在时间效率上至少提高了13%,能量消耗至少减少了14%。 展开更多
关键词 无人机 信息收集 紫外光非直视通信 深度强化学习 深度双Q网络
在线阅读 下载PDF
基于深度强化学习的电力线与无线双模通信MAC层接入算法
7
作者 陈智雄 詹学滋 左嘉烁 《智能系统学报》 北大核心 2025年第2期344-354,共11页
针对无线和电力线通信混合组网的信道竞争接入问题,提出了一种基于深度强化学习的电力线与无线双模通信的MAC接入算法。双模节点根据网络广播信息和信道使用等数据自适应接入双媒质信道。首先建立了基于双模通信网络交互和统计信息的双... 针对无线和电力线通信混合组网的信道竞争接入问题,提出了一种基于深度强化学习的电力线与无线双模通信的MAC接入算法。双模节点根据网络广播信息和信道使用等数据自适应接入双媒质信道。首先建立了基于双模通信网络交互和统计信息的双模通信节点数据采集模型;接着定义了基于协作信息的深度强化学习(deep reinforcement learning,DRL)状态空间、动作空间和奖励,设计了联合α-公平效用函数和P坚持接入机制的节点决策流程,实现基于双深度Q网络(double deep Q-network,DDQN)的双模节点自适应接入算法;最后进行算法性能仿真和对比分析。仿真结果表明,提出的接入算法能够在保证双模网络和信道接入公平性的条件下,有效提高双模通信节点的接入性能。 展开更多
关键词 电力线通信 无线通信 双模节点 深度强化学习 双深度Q网络 MAC层接入 公平效用函数 P坚持接入
在线阅读 下载PDF
基于深度Q学习的组网雷达闪烁探测调度方法
8
作者 林志康 施龙飞 +1 位作者 刘甲磊 马佳智 《系统工程与电子技术》 北大核心 2025年第5期1443-1452,共10页
组网雷达闪烁探测体制可以提高雷达的协同探测性能和生存率,选择合适的雷达协同探测开机并限制单部雷达的开机暴露时间适应不断变化的环境威胁是亟待解决的问题。对此,提出一种基于深度Q学习(deep Q-learning,DQL)强化学习算法的限制单... 组网雷达闪烁探测体制可以提高雷达的协同探测性能和生存率,选择合适的雷达协同探测开机并限制单部雷达的开机暴露时间适应不断变化的环境威胁是亟待解决的问题。对此,提出一种基于深度Q学习(deep Q-learning,DQL)强化学习算法的限制单部雷达开机时间的组网雷达闪烁探测调度方法。首先建立空中干扰机对组网雷达的威胁度模型和雷达对空中干扰机的组网雷达闪烁探测模型;然后提出威胁度、组网瞬时探测概率强化学习奖励函数;最后利用提出的DQL算法求取组网雷达最佳闪烁开机决策调度方案。仿真结果表明,所提DQL调度方法平均效益率均优于随机调度、人工蜂群调度、双深度Q网络调度方法,且调度响应耗时较少。 展开更多
关键词 组网雷达 闪烁探测 强化学习 深度Q学习 双深度Q网络
在线阅读 下载PDF
多智能体强化学习驱动的主动声呐发射参数联合优化
9
作者 生雪莉 穆梦飞 +2 位作者 毕耀 高远 石冰玉 《哈尔滨工程大学学报》 北大核心 2025年第8期1557-1565,共9页
针对传统固定发射策略的主动声呐在水声信道中面临环境适配性不足,导致探测稳定性差的问题,本文提出一种基于多智能体强化学习的主动声呐发射波形与声源级的联合优化方法。采用多智能体协作学习方法,将发射波形优化与声源级优化解耦为... 针对传统固定发射策略的主动声呐在水声信道中面临环境适配性不足,导致探测稳定性差的问题,本文提出一种基于多智能体强化学习的主动声呐发射波形与声源级的联合优化方法。采用多智能体协作学习方法,将发射波形优化与声源级优化解耦为多个智能体任务。引入奖励塑形方法,抑制多峰信道频谱引起的奖励信号噪声,提升智能体寻优能力,并避免子脉冲频点冲突。此外,使用双深度Q网络-Network(double deep q-network,DDQN),降低智能体Q值估计偏差并提升决策稳定性。在基于南海实测声速梯度重构的典型深海信道场景下进行了数值验证,结果表明:经所提算法优化后的信道适配度与回波信噪比调控准确性均优于对比算法,为构建具备环境自适应能力的智能主动声呐系统提供了一种可行的技术途径。 展开更多
关键词 主动声呐 水下探测 信道适配 发射参数联合优化 多智能体 强化学习 奖励塑形 双深度Q网络
在线阅读 下载PDF
无人机辅助NOMA通信系统中的3D轨迹优化与资源分配
10
作者 朱耀辉 王涛 +1 位作者 彭振春 刘含 《应用科学学报》 北大核心 2025年第2期208-221,共14页
无人机辅助通信系统是未来无线通信系统的重要组成部分。为进一步提高无人机辅助通信系统中时频资源的利用率,本文研究了一种基于非正交多址技术的无人机辅助通信架构,并提出了一种基于双延迟深度确定性策略梯度的TD3-TOPATM(twin delay... 无人机辅助通信系统是未来无线通信系统的重要组成部分。为进一步提高无人机辅助通信系统中时频资源的利用率,本文研究了一种基于非正交多址技术的无人机辅助通信架构,并提出了一种基于双延迟深度确定性策略梯度的TD3-TOPATM(twin delayedtrajectory optimization and power allocation for total throughput maximization)算法,以最大化总吞吐量为目标,在满足最大功率约束、空间约束、最大飞行速度和服务质量(quality of service,QoS)约束的情况下,联合优化无人机的功率分配策略和3D轨迹。仿真实验分析结果表明,与随机算法相比,TD3-TOPATM算法能够实现98%的性能增益;与基于DQN(deep Q-network)的轨迹优化与资源分配算法相比,TD3-TOPATM算法获得的性能增益为19.4%;与基于深度确定性策略梯度的轨迹优化与资源分配算法相比,TD3-TOPATM算法得到的总吞吐量增加了9.7%;与基于正交多址技术的无人机辅助通信方案相比,基于非正交多址技术的无人机辅助通信方案实现了55%的性能增益。 展开更多
关键词 深度强化学习 无人机辅助通信 3D轨迹优化 非正交多址 双延迟深度确定性策略梯度
在线阅读 下载PDF
基于引导Minimax-DDQN的无人机空战机动决策 被引量:6
11
作者 王昱 任田君 范子琳 《计算机应用》 CSCD 北大核心 2023年第8期2636-2643,共8页
针对无人机(UAV)空战环境信息复杂、对抗性强所导致的敌机机动策略难以预测,以及作战胜率不高的问题,设计了一种引导Minimax-DDQN(Minimax-Double Deep Q-Network)算法。首先,在Minimax决策方法的基础上提出了一种引导式策略探索机制;然... 针对无人机(UAV)空战环境信息复杂、对抗性强所导致的敌机机动策略难以预测,以及作战胜率不高的问题,设计了一种引导Minimax-DDQN(Minimax-Double Deep Q-Network)算法。首先,在Minimax决策方法的基础上提出了一种引导式策略探索机制;然后,结合引导Minimax策略,以提升Q网络更新效率为出发点设计了一种DDQN(Double Deep Q-Network)算法;最后,提出进阶式三阶段的网络训练方法,通过不同决策模型间的对抗训练,获取更为优化的决策模型。实验结果表明,相较于Minimax-DQN(Minimax-DQN)、Minimax-DDQN等算法,所提算法追击直线目标的成功率提升了14%~60%,并且与DDQN算法的对抗胜率不低于60%。可见,与DDQN、Minimax-DDQN等算法相比,所提算法在高对抗的作战环境中具有更强的决策能力,适应性更好。 展开更多
关键词 无人机空战 自主决策 深度强化学习 双重深度Q网络 多阶段训练
在线阅读 下载PDF
基于深度强化学习和隐私保护的群智感知动态任务分配策略
12
作者 傅彦铭 陆盛林 +1 位作者 陈嘉元 覃华 《信息网络安全》 CSCD 北大核心 2024年第3期449-461,共13页
在移动群智感知(Mobile Crowd Sensing,MCS)中,动态任务分配的结果对提高系统效率和确保数据质量至关重要。然而,现有的大部分研究在处理动态任务分配时,通常将其简化为二分匹配模型,该简化模型未充分考虑任务属性与工人属性对匹配结果... 在移动群智感知(Mobile Crowd Sensing,MCS)中,动态任务分配的结果对提高系统效率和确保数据质量至关重要。然而,现有的大部分研究在处理动态任务分配时,通常将其简化为二分匹配模型,该简化模型未充分考虑任务属性与工人属性对匹配结果的影响,同时忽视了工人位置隐私的保护问题。针对这些不足,文章提出一种基于深度强化学习和隐私保护的群智感知动态任务分配策略。该策略首先通过差分隐私技术为工人位置添加噪声,保护工人隐私;然后利用深度强化学习方法自适应地调整任务批量分配;最后使用基于工人任务执行能力阈值的贪婪算法计算最优策略下的平台总效用。在真实数据集上的实验结果表明,该策略在不同参数设置下均能保持优越的性能,同时有效地保护了工人的位置隐私。 展开更多
关键词 群智感知 深度强化学习 隐私保护 双深度Q网络 能力阈值贪婪算法
在线阅读 下载PDF
基于深度强化学习的测井曲线自动深度校正方法 被引量:7
13
作者 熊文君 肖立志 +1 位作者 袁江如 岳文正 《石油勘探与开发》 EI CAS CSCD 北大核心 2024年第3期553-564,共12页
针对传统测井曲线深度校正需要手动调整曲线,而对于多口井的深度校正工作量巨大,需要大量人工参与,且工作效率较低的问题,提出一种多智能体深度强化学习方法(MARL)来实现多条测井曲线自动深度匹配。该方法基于卷积神经网络(CNN)定义多... 针对传统测井曲线深度校正需要手动调整曲线,而对于多口井的深度校正工作量巨大,需要大量人工参与,且工作效率较低的问题,提出一种多智能体深度强化学习方法(MARL)来实现多条测井曲线自动深度匹配。该方法基于卷积神经网络(CNN)定义多个自上而下的双滑动窗口捕捉测井曲线上相似的特征序列,并设计一个智能体与环境的互动机制来控制深度匹配过程。通过双深度Q学习网络(DDQN)选取一个动作来平移或缩放测井特征序列,并利用反馈的奖励信号来评估每个动作的好坏,以学习到最优的控制策略达到提升深度校正精度的目的。研究表明,MARL方法可以自动完成多口井、不同测井曲线的深度校正任务,减少人工干预。在油田实例应用中,对比分析了动态时间规整(DTW)、深度Q学习网络(DQN)和DDQN等方法的测试结果,DDQN算法采用双网络评估机制有效改进了算法的性能,能够识别和对齐测井曲线特征序列上更多的细节,具有较高的深度匹配精度。 展开更多
关键词 人工智能 机器学习 深度校正 测井曲线 多智能体深度强化学习 卷积神经网络 双深度Q学习网络
在线阅读 下载PDF
自动化立体仓库退库货位优化问题及其求解算法 被引量:2
14
作者 何在祥 李丽 +1 位作者 张云峰 郗琳 《重庆理工大学学报(自然科学)》 CAS 北大核心 2024年第3期183-194,共12页
针对自动化立体仓库出库作业过程中剩余货物退库问题,以堆垛机作业总能耗最小化为目标,以退库货位分配为决策变量,建立了自动化立体仓库退库货位优化模型,提出了基于深度强化学习的自动化立体仓库退库货位优化框架。在该框架内,以立体... 针对自动化立体仓库出库作业过程中剩余货物退库问题,以堆垛机作业总能耗最小化为目标,以退库货位分配为决策变量,建立了自动化立体仓库退库货位优化模型,提出了基于深度强化学习的自动化立体仓库退库货位优化框架。在该框架内,以立体仓库实时存储信息和出库作业信息构建多维状态,以退库货位选择构建动作,建立自动化立体仓库退库货位优化的马尔科夫决策过程模型;将立体仓库多维状态特征输入双层决斗网络,采用决斗双重深度Q网络(dueling double deep Q-network,D3QN)算法训练网络模型并预测退库动作目标价值,以确定智能体的最优行为策略。实验结果表明D3QN算法在求解大规模退库货位优化问题上具有较好的稳定性。 展开更多
关键词 自动化立体仓库 退库货位优化 深度强化学习 D3QN
在线阅读 下载PDF
面向区域覆盖的多无人机动态通信资源分配方法 被引量:4
15
作者 卢毛毛 刘春辉 董赞亮 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第9期2939-2950,共12页
针对多无人机区域覆盖任务中的机间通信资源分配问题,提出了一种基于强化学习的多智能体动态通信资源分配模型。利用多智能体生成树覆盖方法生成任务区域内各个无人机的覆盖航线,对无人机与地面基站及无人机之间的通信链路进行建模。由... 针对多无人机区域覆盖任务中的机间通信资源分配问题,提出了一种基于强化学习的多智能体动态通信资源分配模型。利用多智能体生成树覆盖方法生成任务区域内各个无人机的覆盖航线,对无人机与地面基站及无人机之间的通信链路进行建模。由于飞行环境的不确定性,将长期的资源分配问题建模为随机博弈模型,将无人机间的空-空链路视作一个智能体,每个智能体采取的动作包含选择工作频段和发送端的传输功率。在此基础上,基于双深度Q网络(DDQN)设计多智能体强化学习(MARL)模型,使得每个智能体通过奖励函数的反馈学习到最优通信资源分配策略。仿真结果表明:MARL模型能够在动态航迹下自适应选择最佳通信资源分配策略,提高时延约束下的负载交付成功率,同时降低空-空链路对空地下行链路的干扰并增大信道总容量。 展开更多
关键词 多无人机区域覆盖 动态通信资源分配 强化学习 双深度Q网络 多智能体
在线阅读 下载PDF
基于改进D3QN的煤炭码头卸车排产智能优化方法 被引量:3
16
作者 秦保新 张羽霄 +2 位作者 吴思锐 曹卫冲 李湛 《系统仿真学报》 CAS CSCD 北大核心 2024年第3期770-781,共12页
采用智能化决策排产能够提高大型港口的运营效率,是人工智能技术在智慧港口场景落地的重要研究方向之一。针对煤炭码头卸车智能排产任务,将其抽象为马尔可夫序列决策问题。建立了该问题的深度强化学习模型,并针对该模型中动作空间维度... 采用智能化决策排产能够提高大型港口的运营效率,是人工智能技术在智慧港口场景落地的重要研究方向之一。针对煤炭码头卸车智能排产任务,将其抽象为马尔可夫序列决策问题。建立了该问题的深度强化学习模型,并针对该模型中动作空间维度高且可行动作稀疏的特点,提出一种改进的D3QN算法,实现了卸车排产调度决策的智能优化。仿真结果表明,对于同一组随机任务序列,优化后的排产策略相比随机策略实现了明显的效率提升。同时,将训练好的排产策略应用于随机生成的新任务序列,可实现5%~7%的排产效率提升,表明该优化方法具有较好的泛化能力。此外,随着决策模型复杂度的提升,传统启发式优化算法面临建模困难、求解效率低等突出问题。所提算法为该类问题的研究提供了一种新思路,有望实现深度强化学习智能决策在港口排产任务中的更广泛应用。 展开更多
关键词 码头卸车排产 调度策略优化 智能决策 深度强化学习 DuelingdoubleDQN算法
在线阅读 下载PDF
基于双深度Q网络算法的多用户端对端能源共享机制研究
17
作者 武东昊 王国烽 +2 位作者 毛毳 陈玉萍 张有兵 《高技术通讯》 CAS 北大核心 2024年第7期755-764,共10页
端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷... 端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷变动问题。为此,本文建立了一种以多类型用户为基础的多用户P2P能源社区交易模型,并引入基于双深度Q网络(DDQN)的强化学习(RL)算法对其进行求解。所提方法通过DDQN算法中的预测网络以及目标网络读取多用户P2P能源社区中的环境信息,训练后的神经网络可通过实时的光伏、负荷以及电价数据对当前社区内的多用户P2P交易问题进行求解。案例仿真结果表明,所提方法在促进社区内用户间P2P能源交易共享的同时,保证了多用户P2P能源社区的经济性。 展开更多
关键词 端对端(P2P)能源共享 强化学习(RL) 能源交易市场 双深度Q网络(ddqn)算法
在线阅读 下载PDF
基于双DQN算法的机器人手臂带电作业精准导航研究 被引量:1
18
作者 李宁 何义良 +2 位作者 赵建辉 刘兆威 田志 《电网与清洁能源》 CSCD 北大核心 2024年第11期9-15,共7页
为实现电网带电作业机器人手臂的精准导航,提出全局加权奖励机制,建立基于全局加权奖励机制和双深度Q网络算法的机器人手臂精准导航模型,解决了Q值过估计和更新效率低的问题。研究仿真机器人手臂跨线作业避障和导航,结果表明:学习率最... 为实现电网带电作业机器人手臂的精准导航,提出全局加权奖励机制,建立基于全局加权奖励机制和双深度Q网络算法的机器人手臂精准导航模型,解决了Q值过估计和更新效率低的问题。研究仿真机器人手臂跨线作业避障和导航,结果表明:学习率最佳值为0.005,全局加权奖励机制相比当前状态即时奖励,更能够提高Q值更新效率;基于全局加权奖励机制和双深度Q网络算法建立跨线作业模型,得到收敛后的偏差降为±6.45。基于全局加权奖励机制和双深度Q网络算法建立机器人手臂精准导航模型,其收敛速度和准确性都有所提升,实现了机器人带电作业的精准导航。 展开更多
关键词 带电作业 机械臂 深度强化学习 双深度Q网络 精准导航
在线阅读 下载PDF
基于策略蒸馏主仆框架的优势加权双行动者-评论家算法
19
作者 杨皓麟 刘全 《计算机科学》 CSCD 北大核心 2024年第11期81-94,共14页
离线强化学习(Offline RL)定义了从固定批次的数据集中学习的任务,能够规避与环境交互的风险,提高学习的效率与稳定性。其中优势加权行动者-评论家算法提出了一种将样本高效动态规划与最大似然策略更新相结合的方法,在利用大量离线数据... 离线强化学习(Offline RL)定义了从固定批次的数据集中学习的任务,能够规避与环境交互的风险,提高学习的效率与稳定性。其中优势加权行动者-评论家算法提出了一种将样本高效动态规划与最大似然策略更新相结合的方法,在利用大量离线数据的同时,快速执行在线精细化策略的调整。但是该算法使用随机经验回放机制,同时行动者-评论家模型只采用一套行动者,数据采样与回放不平衡。针对以上问题,提出一种基于策略蒸馏并进行数据经验优选回放的优势加权双行动者-评论家算法(Advantage Weighted Double Actors-Critics Based on Policy Distillation with Data Experience Optimization and Replay,DOR-PDAWAC),该算法采用偏好新经验并重复回放新旧经验的机制,利用双行动者增加探索,并运用基于策略蒸馏的主从框架,将行动者分为主行为者和从行为者,提升协作效率。将所提算法应用到通用D4RL数据集中的MuJoCo任务上进行消融实验与对比实验,结果表明,其学习效率等均获得了更优的表现。 展开更多
关键词 离线强化学习 深度强化学习 策略蒸馏 双行动者-评论家框架 经验回放机制
在线阅读 下载PDF
基于深度强化学习的机械臂多模混合控制
20
作者 李家乐 张建锋 +2 位作者 李彬 刘天琅 陈检 《计算机工程与设计》 北大核心 2024年第9期2835-2843,共9页
针对基于深度强化学习控制的机械臂动态避障能力不足,在作业过程中存在多任务冲突问题,提出一种基于双重角色和正则化批评者算法(DARC)的多模混合控制方法。将任务分解为多段避障模式,借助人工势场法的斥力引力思想设计奖励函数并分别... 针对基于深度强化学习控制的机械臂动态避障能力不足,在作业过程中存在多任务冲突问题,提出一种基于双重角色和正则化批评者算法(DARC)的多模混合控制方法。将任务分解为多段避障模式,借助人工势场法的斥力引力思想设计奖励函数并分别进行训练;将经过初步训练的多个模式以距离阈值或奖励积累阈值进行切换控制,消除混合控制存在的冲突;结合机械臂单元运动学特点设计具有软体性质的多连杆机械臂平面仿真模型。实验验证所提方法能够有效提升机械臂动态避障能力,避免多任务间的冲突。 展开更多
关键词 深度强化学习 机械臂 双重演员正则化评论家算法(DARC) 奖励机制 动态避障 优先经验回放机制 连续动作控制
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部