期刊文献+
共找到107篇文章
< 1 2 6 >
每页显示 20 50 100
基于改进DDPG算法的无人船自主避碰决策方法
1
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
基于强化学习的地下空间除湿机组系统优化控制研究
2
作者 赵安军 魏渊 +1 位作者 张洺瑞 任启航 《建筑节能(中英文)》 2025年第4期89-98,共10页
针对地下空间建筑在夏季常面临闷热潮湿的问题,传统的除湿设备如空调和除湿机组存在非线性和滞后的运行问题,导致能耗较高。因此,提出了一种基于强化学习的地下空间建筑除湿机组系统的节能优化控制方法。利用神经网络建立了除湿机组系... 针对地下空间建筑在夏季常面临闷热潮湿的问题,传统的除湿设备如空调和除湿机组存在非线性和滞后的运行问题,导致能耗较高。因此,提出了一种基于强化学习的地下空间建筑除湿机组系统的节能优化控制方法。利用神经网络建立了除湿机组系统的环境模型,并将室内湿度和系统能效设定为控制目标。针对地下空间建筑除湿机组系统,构建了基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient, TD3)算法的强化学习智能体结构。通过智能体与环境模型的交互,不断尝试调整除湿机组中的蒸发温度和冷却塔风机频率,使室内湿度更接近设定的湿度值,并在一定程度上提高系统能效,从而降低能源消耗,实现一定的节能效果。 展开更多
关键词 地下空间建筑 除湿机组 系统能效 双延迟深度确定性策略梯度 强化学习
在线阅读 下载PDF
基于DDPG-LQR的高超声速飞行器时间协同再入制导
3
作者 宋志飞 吉月辉 +2 位作者 宋雨 刘俊杰 高强 《导弹与航天运载技术(中英文)》 北大核心 2025年第1期57-64,共8页
针对多高超声速飞行器协同作战的特点,提出一种基于深度策略性梯度和线性二次型调节器(Deep Deterministic Policy Gradient-Linear Quadratic Regulator,DDPG-LQR)的时间协同再入制导方案。首先,采用序列凸优化方法生成满足多个约束的... 针对多高超声速飞行器协同作战的特点,提出一种基于深度策略性梯度和线性二次型调节器(Deep Deterministic Policy Gradient-Linear Quadratic Regulator,DDPG-LQR)的时间协同再入制导方案。首先,采用序列凸优化方法生成满足多个约束的时间协同再入轨迹及其相应的稳态控制量,并且采用Radau伪谱法离散运动学方程,以提高轨迹优化离散精度。其次,采用线性二次型调节器(Linear Quadratic Regulator,LQR)跟踪时间协同再入轨迹。为了提高协同制导精度和制导效果,采用深度策略性梯度(Deep Deterministic Policy Gradient,DDPG)在线优化LQR的权重矩阵系数。在DDPG算法中,通过引入合适的奖励函数来提高算法的优化性能。仿真结果表明,在初始状态误差和不确定性的情况下,通过与传统的LQR控制器相比,本文所提出的协同制导方案具有更好的协同制导精度和制导效果。 展开更多
关键词 多高超声速飞行器 协同制导 序列凸优化 深度策略性梯度 线性二次型调节器
在线阅读 下载PDF
无人机辅助NOMA通信系统中的3D轨迹优化与资源分配
4
作者 朱耀辉 王涛 +1 位作者 彭振春 刘含 《应用科学学报》 北大核心 2025年第2期208-221,共14页
无人机辅助通信系统是未来无线通信系统的重要组成部分。为进一步提高无人机辅助通信系统中时频资源的利用率,本文研究了一种基于非正交多址技术的无人机辅助通信架构,并提出了一种基于双延迟深度确定性策略梯度的TD3-TOPATM(twin delay... 无人机辅助通信系统是未来无线通信系统的重要组成部分。为进一步提高无人机辅助通信系统中时频资源的利用率,本文研究了一种基于非正交多址技术的无人机辅助通信架构,并提出了一种基于双延迟深度确定性策略梯度的TD3-TOPATM(twin delayedtrajectory optimization and power allocation for total throughput maximization)算法,以最大化总吞吐量为目标,在满足最大功率约束、空间约束、最大飞行速度和服务质量(quality of service,QoS)约束的情况下,联合优化无人机的功率分配策略和3D轨迹。仿真实验分析结果表明,与随机算法相比,TD3-TOPATM算法能够实现98%的性能增益;与基于DQN(deep Q-network)的轨迹优化与资源分配算法相比,TD3-TOPATM算法获得的性能增益为19.4%;与基于深度确定性策略梯度的轨迹优化与资源分配算法相比,TD3-TOPATM算法得到的总吞吐量增加了9.7%;与基于正交多址技术的无人机辅助通信方案相比,基于非正交多址技术的无人机辅助通信方案实现了55%的性能增益。 展开更多
关键词 深度强化学习 无人机辅助通信 3D轨迹优化 非正交多址 双延迟深度确定性策略梯度
在线阅读 下载PDF
航空混合动力系统能量管理策略研究综述
5
作者 张丁予 沈挺 《航空发动机》 北大核心 2025年第1期12-20,共9页
能量管理策略作为航空混合动力系统的顶层控制,用于对混合动力系统不同动力源进行能量分流,是保证系统高效运行的基础。详细论述了各类航空混合动力系统能量管理策略,系统总结了基于规则、优化和智能3类能量管理策略的特点和研究现状。... 能量管理策略作为航空混合动力系统的顶层控制,用于对混合动力系统不同动力源进行能量分流,是保证系统高效运行的基础。详细论述了各类航空混合动力系统能量管理策略,系统总结了基于规则、优化和智能3类能量管理策略的特点和研究现状。通过阐述强化学习原理,分析了深度Q网络算法和深度确定性策略梯度算法的奖励原理、神经网络更新原理、以及各自优缺点及适用场景,并提出基于规则类能量管理策略对于专家经验依赖性较高等缺陷,可以通过将其与基于智能算法内部创新融合进行缓解的措施。在此基础上,展望了能量管理策略的未来发展趋势为智能内部算法、智能与其他类型算法的融合创新等,可以为后续航空混动系统能量管理策略研究提供一定的参考。 展开更多
关键词 能量管理策略 深度Q网络算法 深度确定性策略梯度算法 强化学习 航空混合动力系统
在线阅读 下载PDF
基于强化学习的低速转动PMSM高性能伺服控制
6
作者 李雅楠 杨森 李晓峰 《电子科技大学学报》 北大核心 2025年第2期266-273,共8页
实现对永磁同步电机(PMSM)在低速转动工况下的高精度伺服控制是建立高性能星载激光通信链路的前提,其技术关键是对永磁同步电机转动状态的非线性特性进行精确描述。该文设计了一种具有能够处理连续动作空间特点的DDPG非线性控制器,采用... 实现对永磁同步电机(PMSM)在低速转动工况下的高精度伺服控制是建立高性能星载激光通信链路的前提,其技术关键是对永磁同步电机转动状态的非线性特性进行精确描述。该文设计了一种具有能够处理连续动作空间特点的DDPG非线性控制器,采用梯度下降法分别训练评价神经网络和动作神经网络,实现了对非线性映射的精确拟合。Simulink仿真结果表明:和传统的比例-积分线性控制器相比较,DDPG控制器在跟踪参考低速信号时响应时间和稳定时间更短、跟踪误差更小;在施加扭矩时q轴电流响应更快,d轴电流波动更小,低速工况条件下的PMSM伺服控制性能得到了有效提高。 展开更多
关键词 永磁同步电机 低速转动 深度确定性策略梯度 非线性 伺服控制性能
在线阅读 下载PDF
可调制光学IRS辅助无蜂窝VLC网络的接入资源管理算法
7
作者 贾林琼 冯事成 +2 位作者 乐淑娟 施唯 束锋 《电子与信息学报》 北大核心 2025年第2期397-408,共12页
该文研究了一种基于新型光学可调制智能超表面(IRS)辅助的无蜂窝可见光通信(VLC)网络接入方案,其中IRS可以为收发端提供额外的反射信道,也可以利用反射系数可调制的特性,直接为网络用户提供无线接入。该文建立了可调制IRS辅助的无蜂窝VL... 该文研究了一种基于新型光学可调制智能超表面(IRS)辅助的无蜂窝可见光通信(VLC)网络接入方案,其中IRS可以为收发端提供额外的反射信道,也可以利用反射系数可调制的特性,直接为网络用户提供无线接入。该文建立了可调制IRS辅助的无蜂窝VLC接入网络的系统模型,推导了网络吞吐量与发光二极管(LED)照明通信设备的工作模式、IRS的工作模式和用户接入关联之间的关系,并提出以最大化网络吞吐量为目标的接入优化问题。该优化问题分两步求解:(1)当调制模式的LED数和调制模式的IRS数给定时,基于深度确定性策略梯度(DDPG)的深度强化学习(DRL)算法可以得到最优的接入点工作模式和用户接入关联策略;(2)遍历可能的调制LED数和调制IRS元件数即可得到优化问题的解。仿真结果表明,联合优化接入点的工作模式和用户接入关联矩阵可以提高IRS辅助无蜂窝VLC网络的吞吐量。 展开更多
关键词 可见光通信 光学智能反射面 接入资源管理 最大化吞吐量 DDPG算法
在线阅读 下载PDF
DDPG-Based Intelligent Computation Offloading and Resource Allocation for LEO Satellite Edge Computing Network
8
作者 Jia Min Wu Jian +2 位作者 Zhang Liang Wang Xinyu Guo Qing 《China Communications》 2025年第3期1-15,共15页
Low earth orbit(LEO)satellites with wide coverage can carry the mobile edge computing(MEC)servers with powerful computing capabilities to form the LEO satellite edge computing system,providing computing services for t... Low earth orbit(LEO)satellites with wide coverage can carry the mobile edge computing(MEC)servers with powerful computing capabilities to form the LEO satellite edge computing system,providing computing services for the global ground users.In this paper,the computation offloading problem and resource allocation problem are formulated as a mixed integer nonlinear program(MINLP)problem.This paper proposes a computation offloading algorithm based on deep deterministic policy gradient(DDPG)to obtain the user offloading decisions and user uplink transmission power.This paper uses the convex optimization algorithm based on Lagrange multiplier method to obtain the optimal MEC server resource allocation scheme.In addition,the expression of suboptimal user local CPU cycles is derived by relaxation method.Simulation results show that the proposed algorithm can achieve excellent convergence effect,and the proposed algorithm significantly reduces the system utility values at considerable time cost compared with other algorithms. 展开更多
关键词 computation offloading deep deterministic policy gradient low earth orbit satellite mobile edge computing resource allocation
在线阅读 下载PDF
State-Incomplete Intelligent Dynamic Multipath Routing Algorithm in LEO Satellite Networks
9
作者 Peng Liang Wang Xiaoxiang 《China Communications》 2025年第2期1-11,共11页
The low Earth orbit(LEO)satellite networks have outstanding advantages such as wide coverage area and not being limited by geographic environment,which can provide a broader range of communication services and has bec... The low Earth orbit(LEO)satellite networks have outstanding advantages such as wide coverage area and not being limited by geographic environment,which can provide a broader range of communication services and has become an essential supplement to the terrestrial network.However,the dynamic changes and uneven distribution of satellite network traffic inevitably bring challenges to multipath routing.Even worse,the harsh space environment often leads to incomplete collection of network state data for routing decision-making,which further complicates this challenge.To address this problem,this paper proposes a state-incomplete intelligent dynamic multipath routing algorithm(SIDMRA)to maximize network efficiency even with incomplete state data as input.Specifically,we model the multipath routing problem as a markov decision process(MDP)and then combine the deep deterministic policy gradient(DDPG)and the K shortest paths(KSP)algorithm to solve the optimal multipath routing policy.We use the temporal correlation of the satellite network state to fit the incomplete state data and then use the message passing neuron network(MPNN)for data enhancement.Simulation results show that the proposed algorithm outperforms baseline algorithms regarding average end-to-end delay and packet loss rate and performs stably under certain missing rates of state data. 展开更多
关键词 deep deterministic policy gradient LEO satellite network message passing neuron network multipath routing
在线阅读 下载PDF
Distributed optimization of electricity-Gas-Heat integrated energy system with multi-agent deep reinforcement learning 被引量:4
10
作者 Lei Dong Jing Wei +1 位作者 Hao Lin Xinying Wang 《Global Energy Interconnection》 EI CAS CSCD 2022年第6期604-617,共14页
The coordinated optimization problem of the electricity-gas-heat integrated energy system(IES)has the characteristics of strong coupling,non-convexity,and nonlinearity.The centralized optimization method has a high co... The coordinated optimization problem of the electricity-gas-heat integrated energy system(IES)has the characteristics of strong coupling,non-convexity,and nonlinearity.The centralized optimization method has a high cost of communication and complex modeling.Meanwhile,the traditional numerical iterative solution cannot deal with uncertainty and solution efficiency,which is difficult to apply online.For the coordinated optimization problem of the electricity-gas-heat IES in this study,we constructed a model for the distributed IES with a dynamic distribution factor and transformed the centralized optimization problem into a distributed optimization problem in the multi-agent reinforcement learning environment using multi-agent deep deterministic policy gradient.Introducing the dynamic distribution factor allows the system to consider the impact of changes in real-time supply and demand on system optimization,dynamically coordinating different energy sources for complementary utilization and effectively improving the system economy.Compared with centralized optimization,the distributed model with multiple decision centers can achieve similar results while easing the pressure on system communication.The proposed method considers the dual uncertainty of renewable energy and load in the training.Compared with the traditional iterative solution method,it can better cope with uncertainty and realize real-time decision making of the system,which is conducive to the online application.Finally,we verify the effectiveness of the proposed method using an example of an IES coupled with three energy hub agents. 展开更多
关键词 Integrated energy system Multi-agent system Distributed optimization Multi-agent deep deterministic policy gradient Real-time optimization decision
在线阅读 下载PDF
RIS-Assisted UAV-D2D Communications Exploiting Deep Reinforcement Learning
11
作者 YOU Qian XU Qian +2 位作者 YANG Xin ZHANG Tao CHEN Ming 《ZTE Communications》 2023年第2期61-69,共9页
Device-to-device(D2D)communications underlying cellular networks enabled by unmanned aerial vehicles(UAV)have been regarded as promising techniques for next-generation communications.To mitigate the strong interferenc... Device-to-device(D2D)communications underlying cellular networks enabled by unmanned aerial vehicles(UAV)have been regarded as promising techniques for next-generation communications.To mitigate the strong interference caused by the line-of-sight(LoS)airto-ground channels,we deploy a reconfigurable intelligent surface(RIS)to rebuild the wireless channels.A joint optimization problem of the transmit power of UAV,the transmit power of D2D users and the RIS phase configuration are investigated to maximize the achievable rate of D2D users while satisfying the quality of service(QoS)requirement of cellular users.Due to the high channel dynamics and the coupling among cellular users,the RIS,and the D2D users,it is challenging to find a proper solution.Thus,a RIS softmax deep double deterministic(RIS-SD3)policy gradient method is proposed,which can smooth the optimization space as well as reduce the number of local optimizations.Specifically,the SD3 algorithm maximizes the reward of the agent by training the agent to maximize the value function after the softmax operator is introduced.Simulation results show that the proposed RIS-SD3 algorithm can significantly improve the rate of the D2D users while controlling the interference to the cellular user.Moreover,the proposed RIS-SD3 algorithm has better robustness than the twin delayed deep deterministic(TD3)policy gradient algorithm in a dynamic environment. 展开更多
关键词 device-to-device communications reconfigurable intelligent surface deep reinforcement learning softmax deep double deterministic policy gradient
在线阅读 下载PDF
基于TD3-PER的氢燃料电池混合动力汽车能量管理策略研究 被引量:1
12
作者 虞志浩 赵又群 +2 位作者 潘陈兵 何鲲鹏 李丹阳 《汽车技术》 CSCD 北大核心 2024年第1期13-19,共7页
为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控... 为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控制;同时结合优先经验采样(PER)算法,在获得更好优化性能的基础上加速了策略的训练。仿真结果表明:相较于深度确定性策略梯度(DDPG)算法,所提出的TD3-PER能量管理策略的百公里氢耗量降低了7.56%,平均功率波动降低了6.49%。 展开更多
关键词 氢燃料电池混合动力汽车 优先经验采样 双延迟深度确定性策略梯度 连续控制
在线阅读 下载PDF
考虑智能网联车辆影响的八车道高速公路施工区可变限速控制方法 被引量:1
13
作者 过秀成 肖哲 +2 位作者 张一鸣 张叶平 许鹏宇 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第2期353-359,共7页
为提升车联网环境下高速公路施工区交通运行效率及安全水平,提出了一种基于强化学习的可变限速控制方法.选取智能驾驶模型和真车试验模型,分别对传统人工车辆和智能网联车辆的跟驰行为进行建模,构建了以瓶颈下游路段交通流量为效率指标... 为提升车联网环境下高速公路施工区交通运行效率及安全水平,提出了一种基于强化学习的可变限速控制方法.选取智能驾驶模型和真车试验模型,分别对传统人工车辆和智能网联车辆的跟驰行为进行建模,构建了以瓶颈下游路段交通流量为效率指标、瓶颈路段速度标准差为安全指标的复合奖励值,利用深度确定性策略梯度算法,分车道动态求解最佳限速值.仿真结果表明,所提可变限速控制方法在不同智能网联车辆渗漏率条件下均能有效提升交通流运行效率和安全水平,且在智能网联车辆渗漏率较低时,提升效果更加显著.当智能网联车辆渗漏率为1.0时,瓶颈下游路段交通流量提升10.1%,瓶颈路段速度标准差均值下降68.9%;当智能网联车辆渗漏率为0时,瓶颈下游路段交通流量提升20.7%,瓶颈路段速度标准差均值下降78.1%.智能网联车辆的引入能够提升至多52.0%的瓶颈下游路段交通流量. 展开更多
关键词 可变限速控制 深度确定性策略梯度算法 八车道高速公路施工区 智能网联车辆 协同自适应巡航控制
在线阅读 下载PDF
基于深度确定性策略梯度的星地融合网络可拆分任务卸载算法
14
作者 宋晓勤 吴志豪 +4 位作者 赖海光 雷磊 张莉涓 吕丹阳 郑成辉 《通信学报》 EI CSCD 北大核心 2024年第10期116-128,共13页
为解决低轨卫星网络中星地链路任务卸载时延长的问题,提出了一种基于深度确定性策略梯度(DDPG)的星地融合网络可拆分任务卸载算法。针对不同地区用户建立了星地融合网络的多接入边缘计算结构模型,通过应用多智能体DDPG算法,将系统总服... 为解决低轨卫星网络中星地链路任务卸载时延长的问题,提出了一种基于深度确定性策略梯度(DDPG)的星地融合网络可拆分任务卸载算法。针对不同地区用户建立了星地融合网络的多接入边缘计算结构模型,通过应用多智能体DDPG算法,将系统总服务时延最小化的目标转化为智能体奖励收益最大化。在满足子任务卸载约束、服务时延约束等任务卸载约束条件下,优化用户任务拆分比例。仿真结果表明,所提算法在用户服务时延和受益用户数量等方面优于基线算法。 展开更多
关键词 星地融合网络 深度确定性策略梯度 资源分配 多接入边缘计算
在线阅读 下载PDF
基于多智能体深度强化学习的多无人机辅助移动边缘计算轨迹设计
15
作者 徐少毅 杨磊 《北京交通大学学报》 CSCD 北大核心 2024年第5期1-9,共9页
无人机(Unmanned Aerial Vehicle,UAV)辅助的移动边缘计算(Mobile Edge Computing,MEC)网络能够为地面用户设备(User Equipment,UE)提供优质的计算服务,但是为多无人机进行实时的轨迹设计仍是一个挑战.针对该问题,提出基于多智能体深度... 无人机(Unmanned Aerial Vehicle,UAV)辅助的移动边缘计算(Mobile Edge Computing,MEC)网络能够为地面用户设备(User Equipment,UE)提供优质的计算服务,但是为多无人机进行实时的轨迹设计仍是一个挑战.针对该问题,提出基于多智能体深度强化学习的轨迹设计算法,利用多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)框架对无人机的轨迹进行协作设计.考虑到无人机有限的电池容量是限制无人机网络性能的重要因素,因此以无人机的能量效率之和为优化目标构建优化问题,联合优化无人机集群的轨迹和用户设备的卸载决策.每个智能体与边缘计算网络环境进行交互并观测自己的局部状态,通过Actor网络得到轨迹坐标,联合其他智能体的动作和观测训练Critic网络,从而改善Actor网络输出的轨迹策略.仿真结果表明:基于MADDPG的无人机轨迹设计算法具有良好的收敛性和鲁棒性,能够高效地提升无人机的能量效率;所提算法性能较随机飞行算法最高可提升120%,较圆周飞行算法最高可提升20%,较深度确定性策略梯度算法可提升5%~10%. 展开更多
关键词 无人机轨迹设计 移动边缘计算 强化学习 多智能体深度确定性策略梯度
在线阅读 下载PDF
一种基于DDPG的变体飞行器智能变形决策方法
16
作者 王青 刘华华 屈东扬 《宇航学报》 EI CAS CSCD 北大核心 2024年第10期1560-1567,共8页
针对一类变体飞行器自主变形决策问题,提出了一种基于深度确定性策略梯度(DDPG)算法的智能变形决策方法。首先,针对一种后掠角可连续变化的飞行器,通过计算流体力学方法获得飞行器的气动参数并分析其气动特性;然后,联合制导过程与DDPG算... 针对一类变体飞行器自主变形决策问题,提出了一种基于深度确定性策略梯度(DDPG)算法的智能变形决策方法。首先,针对一种后掠角可连续变化的飞行器,通过计算流体力学方法获得飞行器的气动参数并分析其气动特性;然后,联合制导过程与DDPG算法,以获得最优气动特性和制导性能为目标,提出了一种变体飞行器智能变形决策算法;最后,仿真结果表明所提算法收敛效果好,相比于固定外形,可通过合适的变形决策指令在得到最优气动外形的同时获得更好的制导性能。 展开更多
关键词 变体飞行器 自主变形决策 深度强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
DDPG深度强化学习算法在无人船目标追踪与救援中的应用
17
作者 宋雷震 吕东芳 《黑龙江大学工程学报(中英俄文)》 2024年第1期58-64,共7页
为保证海上救援活动的高效性,研究结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)从状态空间、动作空间、奖励函数方面对船只追踪救援目标算法进行设计,并实际应用到无人船追踪救援之中。结果显示DDPG算法的稳... 为保证海上救援活动的高效性,研究结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)从状态空间、动作空间、奖励函数方面对船只追踪救援目标算法进行设计,并实际应用到无人船追踪救援之中。结果显示DDPG算法的稳定成功率接近100%,性能优异。该设计的算法最终回合累积奖励值能够稳定在10左右,而平均时长则能稳定在80 s左右,能够根据周边环境的状态调整自己的运动策略,满足海上救援活动中的紧迫性要求,能为相关领域的研究提供一条新的思路。 展开更多
关键词 无人船 目标追踪 海上救援 深度确定性策略梯度算法(DDPG)
在线阅读 下载PDF
MEC网络中基于深度确定策略梯度的能效优化
18
作者 陈卡 《火力与指挥控制》 CSCD 北大核心 2024年第7期44-49,共6页
移动边缘计算(mobile edge computing,MEC)技术能为用户提供数据处理服务,但MEC服务器的计算资源有限,用户合理地向MEC服务器迁移任务及MEC服务器基于任务要求给用户合理分配资源是提高用户端能效的关键因素。提出基于深度确定策略梯度... 移动边缘计算(mobile edge computing,MEC)技术能为用户提供数据处理服务,但MEC服务器的计算资源有限,用户合理地向MEC服务器迁移任务及MEC服务器基于任务要求给用户合理分配资源是提高用户端能效的关键因素。提出基于深度确定策略梯度的能效优化算法(deep deterministic policy gradient-based energy efficiency opti-mization,DDPG-EEO)。在满足时延要求的前提下,建立关于任务卸载率和资源分配策略的最大化能效的优化问题。再将优化问题描述成马尔可夫决策过程(Markov decision process,MDP),并利用深度确定策略梯度求解。仿真结果表明,DDPG-EEO算法降低了UTs端的能耗,并提高了任务完成率。 展开更多
关键词 移动边缘计算 任务卸载 资源分配 强化学习 深度确定策略梯度
在线阅读 下载PDF
一种超参数自适应航天器交会变轨策略优化方法 被引量:1
19
作者 孙雷翔 郭延宁 +2 位作者 邓武东 吕跃勇 马广富 《宇航学报》 EI CAS CSCD 北大核心 2024年第1期52-62,共11页
利用强化学习技术,本文提出了一种超参数自适应的燃料最优地球同步轨道(GEO)航天器交会变轨策略优化方法。首先,建立了GEO航天器交会Lambert变轨模型。以变轨时刻为决策变量、燃料消耗为适应度函数,使用改进式综合学习粒子群算法(ICLPSO... 利用强化学习技术,本文提出了一种超参数自适应的燃料最优地球同步轨道(GEO)航天器交会变轨策略优化方法。首先,建立了GEO航天器交会Lambert变轨模型。以变轨时刻为决策变量、燃料消耗为适应度函数,使用改进式综合学习粒子群算法(ICLPSO)作为变轨策略优化的基础方法。其次,考虑到求解的最优性和快速性,重新设计了以粒子群算法(PSO)优化结果为参考基线的奖励函数。使用一族典型GEO航天器交会工况训练深度确定性策略梯度神经网络(DDPG)。将DDPG与ICLPSO组合为强化学习粒子群算法(RLPSO),从而实现算法超参数根据实时迭代收敛情况的自适应动态调整。最后,仿真结果表明与PSO、综合学习粒子群算法(CLPSO)相比,RLPSO在较少迭代后即可给出适应度较高的规划结果,减轻了迭代过程中的计算资源消耗。 展开更多
关键词 地球同步轨道 Lambert变轨 强化学习 粒子群算法 深度确定性策略梯度
在线阅读 下载PDF
基于改进DDPG的变速抽蓄机组参与系统调频研究 被引量:1
20
作者 劳文洁 史林军 +3 位作者 王伟 杨冬梅 吴峰 林克曼 《太阳能学报》 EI CAS CSCD 北大核心 2024年第3期240-250,共11页
在挖掘双馈型抽水蓄能(DFIM-PSH)机组调频能力的基础上,提出一种基于改进深度确定性策略梯度(DDPG)算法的系统频率控制方法。首先,基于所确定的DFIM-PSH机组在发电与抽水工况下的频率控制环节,构建考虑风电接入的含DFIMPSH单区域系统频... 在挖掘双馈型抽水蓄能(DFIM-PSH)机组调频能力的基础上,提出一种基于改进深度确定性策略梯度(DDPG)算法的系统频率控制方法。首先,基于所确定的DFIM-PSH机组在发电与抽水工况下的频率控制环节,构建考虑风电接入的含DFIMPSH单区域系统频率控制模型。其次,在考虑机组运行约束的基础上以最小化系统频率偏差及调频出力为目标,引入DDPG算法对各机组的AGC控制指令进行优化。通过在预学习中同时引入随机外部扰动与模型参数变化,提高AGC控制器在具有强不确定性环境中的适应性。最后,在仿真验证DFIM-PSH调频优势的基础上,在不同风电接入及扰动等多场景进行仿真分析,结果表明,所提频率控制方法能有效改善新型电力系统的频率特性且具有强鲁棒性。 展开更多
关键词 抽水蓄能机组 鲁棒性(控制系统) 频率控制 深度确定性策略梯度算法 新型电力系统
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部