期刊文献+
共找到112篇文章
< 1 2 6 >
每页显示 20 50 100
Distributed optimization of electricity-Gas-Heat integrated energy system with multi-agent deep reinforcement learning 被引量:5
1
作者 Lei Dong Jing Wei +1 位作者 Hao Lin Xinying Wang 《Global Energy Interconnection》 EI CAS CSCD 2022年第6期604-617,共14页
The coordinated optimization problem of the electricity-gas-heat integrated energy system(IES)has the characteristics of strong coupling,non-convexity,and nonlinearity.The centralized optimization method has a high co... The coordinated optimization problem of the electricity-gas-heat integrated energy system(IES)has the characteristics of strong coupling,non-convexity,and nonlinearity.The centralized optimization method has a high cost of communication and complex modeling.Meanwhile,the traditional numerical iterative solution cannot deal with uncertainty and solution efficiency,which is difficult to apply online.For the coordinated optimization problem of the electricity-gas-heat IES in this study,we constructed a model for the distributed IES with a dynamic distribution factor and transformed the centralized optimization problem into a distributed optimization problem in the multi-agent reinforcement learning environment using multi-agent deep deterministic policy gradient.Introducing the dynamic distribution factor allows the system to consider the impact of changes in real-time supply and demand on system optimization,dynamically coordinating different energy sources for complementary utilization and effectively improving the system economy.Compared with centralized optimization,the distributed model with multiple decision centers can achieve similar results while easing the pressure on system communication.The proposed method considers the dual uncertainty of renewable energy and load in the training.Compared with the traditional iterative solution method,it can better cope with uncertainty and realize real-time decision making of the system,which is conducive to the online application.Finally,we verify the effectiveness of the proposed method using an example of an IES coupled with three energy hub agents. 展开更多
关键词 Integrated energy system multi-agent system Distributed optimization multi-agent deep deterministic policy gradient Real-time optimization decision
在线阅读 下载PDF
基于MADDPG的多无人战车协同突防决策方法研究
2
作者 殷宇维 王凡 +1 位作者 丁录顺 边金宁 《指挥控制与仿真》 2025年第3期40-49,共10页
针对多无人战车陆上突防作战时如何根据实时态势进行协同智能决策这一问题,结合多智能体无人战车突防作战过程建立马尔可夫(MDP)模型,并基于多智能体深度确定性策略梯度算法(Multi-agent Deep Deterministic Policy Gradient,MADDPG)提... 针对多无人战车陆上突防作战时如何根据实时态势进行协同智能决策这一问题,结合多智能体无人战车突防作战过程建立马尔可夫(MDP)模型,并基于多智能体深度确定性策略梯度算法(Multi-agent Deep Deterministic Policy Gradient,MADDPG)提出多无人战车协同突防决策方法。针对多智能体决策时智能体策略变化互相影响的问题,通过在算法的AC结构中引入自注意力机制,使每个智能体进行决策和策略评估时更加关注那些对其影响较大的智能体;并采用自注意力机制计算每个智能体的回报权值,按照每个智能体自身贡献进行回报分配,提升了战车间的协同性;最后通过在想定环境中进行实验,验证了多战车协同突防决策方法的有效性。 展开更多
关键词 深度强化学习 多无人战车协同突防 多智能体深度确定性策略梯度 自注意力机制
在线阅读 下载PDF
基于ATMADDPG算法的多水面无人航行器编队导航 被引量:1
3
作者 王思琪 关巍 +1 位作者 佟敏 赵盛烨 《吉林大学学报(信息科学版)》 CAS 2024年第4期588-599,共12页
为提高多无人船编队系统的导航能力,提出了一种基于注意力机制的多智能体深度确定性策略梯度(ATMADDPG:Attention Mechanism based Multi-Agent Deep Deterministic Policy Gradient)算法。该算法在训练阶段,通过大量试验训练出最佳策略... 为提高多无人船编队系统的导航能力,提出了一种基于注意力机制的多智能体深度确定性策略梯度(ATMADDPG:Attention Mechanism based Multi-Agent Deep Deterministic Policy Gradient)算法。该算法在训练阶段,通过大量试验训练出最佳策略,并在实验阶段直接使用训练出的最佳策略得到最佳编队路径。仿真实验将4艘相同的“百川号”无人船作为实验对象。实验结果表明,基于ATMADDPG算法的队形保持策略能实现稳定的多无人船编队导航,并在一定程度上满足队形保持的要求。相较于多智能体深度确定性策略梯度(MADDPG:Multi-Agent Depth Deterministic Policy Gradient)算法,所提出的ATMADDPG算法在收敛速度、队形保持能力和对环境变化的适应性等方面表现出更优越的性能,综合导航效率可提高约80%,具有较大的应用潜力。 展开更多
关键词 多无人船编队导航 maddpg算法 注意力机制 深度强化学习
在线阅读 下载PDF
基于MADDPG算法的匝道合流区多车协同控制
4
作者 蔡田茂 孔伟伟 +3 位作者 罗禹贡 石佳 姬鹏霄 李聪民 《汽车安全与节能学报》 CSCD 北大核心 2024年第6期923-933,共11页
为了保障匝道合流区的安全高效通行,提出了一种基于多智能体强化学习算法的多车协同控制方法。以提升系统计算效率为目标,设计了基于多智能体确定性策略梯度算法(MADDPG)的分布式训练框架;针对智能体模型难以应对连续车流场景的问题,通... 为了保障匝道合流区的安全高效通行,提出了一种基于多智能体强化学习算法的多车协同控制方法。以提升系统计算效率为目标,设计了基于多智能体确定性策略梯度算法(MADDPG)的分布式训练框架;针对智能体模型难以应对连续车流场景的问题,通过构建相对静止环境,改进策略更新梯度,保障智能体面向连续车流环境的平稳性;拆分匝道合流区场景为准备区和汇入区,分别依据两区域控制目标设计了状态、动作空间及奖励函数。结果表明:在不同交通流量下,与基于规则的方法相比,该方法通行合流区的总延误时间平均缩短25.46%;与全局优化方法相比,延误时间相差8.47%,但控制时长上不会随车辆数量增加而增长。该文所提出匝道合流区多车协同控制方法能够更好地兼顾通行效率提升与系统实时性。 展开更多
关键词 多智能体确定性策略梯度算法(maddpg) 多智能体强化学习 多车协同控制 匝道合流
在线阅读 下载PDF
基于无人机辅助联邦边缘学习通信系统的安全隐私能效研究
5
作者 卢为党 冯凯 +2 位作者 丁雨 李博 赵楠 《电子与信息学报》 北大核心 2025年第5期1322-1331,共10页
无人机(UAV)辅助联邦边缘学习的通信能够有效解决终端设备数据孤岛问题和数据泄露风险。然而,窃听者可能利用联邦边缘学习中的模型更新来恢复终端设备的原始隐私数据,从而对系统的隐私安全构成极大威胁。为了克服这一挑战,该文在无人机... 无人机(UAV)辅助联邦边缘学习的通信能够有效解决终端设备数据孤岛问题和数据泄露风险。然而,窃听者可能利用联邦边缘学习中的模型更新来恢复终端设备的原始隐私数据,从而对系统的隐私安全构成极大威胁。为了克服这一挑战,该文在无人机辅助联邦边缘学习通信系统提出一种有效的安全聚合和资源优化方案。具体来说,终端设备利用其本地数据进行局部模型训练来更新参数,并将其发送给全局无人机,无人机据此聚合出新的全局模型参数。窃听者试图通过窃听终端设备发送的模型参数信号来恢复终端设备的原始数据。该文通过联合优化终端设备的传输带宽、CPU频率、发送功率以及无人机的CPU频率,最大化安全隐私能效。为了解决该优化问题,该文提出一种演进深度确定性策略梯度(DDPG)算法,通过和系统智能交互,在保证基本时延和能耗需求的情况下获得安全聚合和资源优化方案。最后,通过和基准方案对比,验证了所提方案的有效性。 展开更多
关键词 无人机 联邦边缘学习 能效 资源优化 深度确定性策略梯度
在线阅读 下载PDF
基于TD3算法的光伏电站参与电力系统频率控制策略
6
作者 张建华 陶莹 赵思 《郑州大学学报(工学版)》 北大核心 2025年第3期42-49,共8页
针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简... 针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简化的光伏发电系统模型;其次,基于双延迟深度确定性策略梯度算法设计了一种新型频率控制器;最后,将所提控制策略与传统下垂控制、滑模控制及基于深度确定性策略梯度算法的控制策略进行了比较。结果表明:在分别施加负荷单次阶跃扰动和负荷连续阶跃扰动的两种场景中,基于所提控制策略的频率偏差均明显低于其他3种控制算法,时间乘绝对误差积分准则比性能最差的下垂控制分别减小了41.7%和31.8%,充分验证了所提控制策略在调频过程动态性能和稳态性能方面的优越性。 展开更多
关键词 光伏并网系统 一次调频 深度强化学习 双延迟深度确定性策略梯度算法 控制性能
在线阅读 下载PDF
基于改进DDPG算法的无人船自主避碰决策方法
7
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
基于强化学习的地下空间除湿机组系统优化控制研究
8
作者 赵安军 魏渊 +1 位作者 张洺瑞 任启航 《建筑节能(中英文)》 2025年第4期89-98,共10页
针对地下空间建筑在夏季常面临闷热潮湿的问题,传统的除湿设备如空调和除湿机组存在非线性和滞后的运行问题,导致能耗较高。因此,提出了一种基于强化学习的地下空间建筑除湿机组系统的节能优化控制方法。利用神经网络建立了除湿机组系... 针对地下空间建筑在夏季常面临闷热潮湿的问题,传统的除湿设备如空调和除湿机组存在非线性和滞后的运行问题,导致能耗较高。因此,提出了一种基于强化学习的地下空间建筑除湿机组系统的节能优化控制方法。利用神经网络建立了除湿机组系统的环境模型,并将室内湿度和系统能效设定为控制目标。针对地下空间建筑除湿机组系统,构建了基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient, TD3)算法的强化学习智能体结构。通过智能体与环境模型的交互,不断尝试调整除湿机组中的蒸发温度和冷却塔风机频率,使室内湿度更接近设定的湿度值,并在一定程度上提高系统能效,从而降低能源消耗,实现一定的节能效果。 展开更多
关键词 地下空间建筑 除湿机组 系统能效 双延迟深度确定性策略梯度 强化学习
在线阅读 下载PDF
基于DDPG-LQR的高超声速飞行器时间协同再入制导
9
作者 宋志飞 吉月辉 +2 位作者 宋雨 刘俊杰 高强 《导弹与航天运载技术(中英文)》 北大核心 2025年第1期57-64,共8页
针对多高超声速飞行器协同作战的特点,提出一种基于深度策略性梯度和线性二次型调节器(Deep Deterministic Policy Gradient-Linear Quadratic Regulator,DDPG-LQR)的时间协同再入制导方案。首先,采用序列凸优化方法生成满足多个约束的... 针对多高超声速飞行器协同作战的特点,提出一种基于深度策略性梯度和线性二次型调节器(Deep Deterministic Policy Gradient-Linear Quadratic Regulator,DDPG-LQR)的时间协同再入制导方案。首先,采用序列凸优化方法生成满足多个约束的时间协同再入轨迹及其相应的稳态控制量,并且采用Radau伪谱法离散运动学方程,以提高轨迹优化离散精度。其次,采用线性二次型调节器(Linear Quadratic Regulator,LQR)跟踪时间协同再入轨迹。为了提高协同制导精度和制导效果,采用深度策略性梯度(Deep Deterministic Policy Gradient,DDPG)在线优化LQR的权重矩阵系数。在DDPG算法中,通过引入合适的奖励函数来提高算法的优化性能。仿真结果表明,在初始状态误差和不确定性的情况下,通过与传统的LQR控制器相比,本文所提出的协同制导方案具有更好的协同制导精度和制导效果。 展开更多
关键词 多高超声速飞行器 协同制导 序列凸优化 深度策略性梯度 线性二次型调节器
在线阅读 下载PDF
一种基于改进深度确定性策略梯度的移动机器人路径规划算法
10
作者 张庆玲 倪翠 +1 位作者 王朋 巩慧 《应用科学学报》 北大核心 2025年第3期415-436,共22页
深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法采用Actor-Critic框架结构,保证移动机器人运动的连续性。但Critic网络在计算值函数(Q值)时,没有充分考虑各种状态和动作的差异,导致Q值估计不准确;其次,DDPG奖励函数... 深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法采用Actor-Critic框架结构,保证移动机器人运动的连续性。但Critic网络在计算值函数(Q值)时,没有充分考虑各种状态和动作的差异,导致Q值估计不准确;其次,DDPG奖励函数设置过于稀疏,容易导致模型训练时收敛慢;另外,随机均匀采样方式无法高效且充分地利用样本数据。针对上述问题,该文在DDPG的基础上,引入决斗网络来提高Q值的估计精度;优化设计奖励函数以引导移动机器人更加高效合理地运动;将单一经验池分离为双经验池,并采用动态自适应采样机制来提高经验回放的效率。最后,利用机器人操作系统和Gazebo平台搭建的仿真环境进行实验,结果表明,所提算法与DDPG算法相比,训练时间缩短了17.8%,收敛速度提高了57.46%,成功率提高了3%;与其他算法相比,该文所提算法提高了模型训练过程的稳定性,大大提升了移动机器人路径规划的效率和成功率。 展开更多
关键词 路径规划 深度确定性策略梯度 决斗网络 经验池分离 动态自适应采样
在线阅读 下载PDF
无人机辅助NOMA通信系统中的3D轨迹优化与资源分配
11
作者 朱耀辉 王涛 +1 位作者 彭振春 刘含 《应用科学学报》 北大核心 2025年第2期208-221,共14页
无人机辅助通信系统是未来无线通信系统的重要组成部分。为进一步提高无人机辅助通信系统中时频资源的利用率,本文研究了一种基于非正交多址技术的无人机辅助通信架构,并提出了一种基于双延迟深度确定性策略梯度的TD3-TOPATM(twin delay... 无人机辅助通信系统是未来无线通信系统的重要组成部分。为进一步提高无人机辅助通信系统中时频资源的利用率,本文研究了一种基于非正交多址技术的无人机辅助通信架构,并提出了一种基于双延迟深度确定性策略梯度的TD3-TOPATM(twin delayedtrajectory optimization and power allocation for total throughput maximization)算法,以最大化总吞吐量为目标,在满足最大功率约束、空间约束、最大飞行速度和服务质量(quality of service,QoS)约束的情况下,联合优化无人机的功率分配策略和3D轨迹。仿真实验分析结果表明,与随机算法相比,TD3-TOPATM算法能够实现98%的性能增益;与基于DQN(deep Q-network)的轨迹优化与资源分配算法相比,TD3-TOPATM算法获得的性能增益为19.4%;与基于深度确定性策略梯度的轨迹优化与资源分配算法相比,TD3-TOPATM算法得到的总吞吐量增加了9.7%;与基于正交多址技术的无人机辅助通信方案相比,基于非正交多址技术的无人机辅助通信方案实现了55%的性能增益。 展开更多
关键词 深度强化学习 无人机辅助通信 3D轨迹优化 非正交多址 双延迟深度确定性策略梯度
在线阅读 下载PDF
航空混合动力系统能量管理策略研究综述
12
作者 张丁予 沈挺 《航空发动机》 北大核心 2025年第1期12-20,共9页
能量管理策略作为航空混合动力系统的顶层控制,用于对混合动力系统不同动力源进行能量分流,是保证系统高效运行的基础。详细论述了各类航空混合动力系统能量管理策略,系统总结了基于规则、优化和智能3类能量管理策略的特点和研究现状。... 能量管理策略作为航空混合动力系统的顶层控制,用于对混合动力系统不同动力源进行能量分流,是保证系统高效运行的基础。详细论述了各类航空混合动力系统能量管理策略,系统总结了基于规则、优化和智能3类能量管理策略的特点和研究现状。通过阐述强化学习原理,分析了深度Q网络算法和深度确定性策略梯度算法的奖励原理、神经网络更新原理、以及各自优缺点及适用场景,并提出基于规则类能量管理策略对于专家经验依赖性较高等缺陷,可以通过将其与基于智能算法内部创新融合进行缓解的措施。在此基础上,展望了能量管理策略的未来发展趋势为智能内部算法、智能与其他类型算法的融合创新等,可以为后续航空混动系统能量管理策略研究提供一定的参考。 展开更多
关键词 能量管理策略 深度Q网络算法 深度确定性策略梯度算法 强化学习 航空混合动力系统
在线阅读 下载PDF
基于强化学习的低速转动PMSM高性能伺服控制
13
作者 李雅楠 杨森 李晓峰 《电子科技大学学报》 北大核心 2025年第2期266-273,共8页
实现对永磁同步电机(PMSM)在低速转动工况下的高精度伺服控制是建立高性能星载激光通信链路的前提,其技术关键是对永磁同步电机转动状态的非线性特性进行精确描述。该文设计了一种具有能够处理连续动作空间特点的DDPG非线性控制器,采用... 实现对永磁同步电机(PMSM)在低速转动工况下的高精度伺服控制是建立高性能星载激光通信链路的前提,其技术关键是对永磁同步电机转动状态的非线性特性进行精确描述。该文设计了一种具有能够处理连续动作空间特点的DDPG非线性控制器,采用梯度下降法分别训练评价神经网络和动作神经网络,实现了对非线性映射的精确拟合。Simulink仿真结果表明:和传统的比例-积分线性控制器相比较,DDPG控制器在跟踪参考低速信号时响应时间和稳定时间更短、跟踪误差更小;在施加扭矩时q轴电流响应更快,d轴电流波动更小,低速工况条件下的PMSM伺服控制性能得到了有效提高。 展开更多
关键词 永磁同步电机 低速转动 深度确定性策略梯度 非线性 伺服控制性能
在线阅读 下载PDF
可调制光学IRS辅助无蜂窝VLC网络的接入资源管理算法
14
作者 贾林琼 冯事成 +2 位作者 乐淑娟 施唯 束锋 《电子与信息学报》 北大核心 2025年第2期397-408,共12页
该文研究了一种基于新型光学可调制智能超表面(IRS)辅助的无蜂窝可见光通信(VLC)网络接入方案,其中IRS可以为收发端提供额外的反射信道,也可以利用反射系数可调制的特性,直接为网络用户提供无线接入。该文建立了可调制IRS辅助的无蜂窝VL... 该文研究了一种基于新型光学可调制智能超表面(IRS)辅助的无蜂窝可见光通信(VLC)网络接入方案,其中IRS可以为收发端提供额外的反射信道,也可以利用反射系数可调制的特性,直接为网络用户提供无线接入。该文建立了可调制IRS辅助的无蜂窝VLC接入网络的系统模型,推导了网络吞吐量与发光二极管(LED)照明通信设备的工作模式、IRS的工作模式和用户接入关联之间的关系,并提出以最大化网络吞吐量为目标的接入优化问题。该优化问题分两步求解:(1)当调制模式的LED数和调制模式的IRS数给定时,基于深度确定性策略梯度(DDPG)的深度强化学习(DRL)算法可以得到最优的接入点工作模式和用户接入关联策略;(2)遍历可能的调制LED数和调制IRS元件数即可得到优化问题的解。仿真结果表明,联合优化接入点的工作模式和用户接入关联矩阵可以提高IRS辅助无蜂窝VLC网络的吞吐量。 展开更多
关键词 可见光通信 光学智能反射面 接入资源管理 最大化吞吐量 DDPG算法
在线阅读 下载PDF
DDPG-Based Intelligent Computation Offloading and Resource Allocation for LEO Satellite Edge Computing Network
15
作者 Jia Min Wu Jian +2 位作者 Zhang Liang Wang Xinyu Guo Qing 《China Communications》 2025年第3期1-15,共15页
Low earth orbit(LEO)satellites with wide coverage can carry the mobile edge computing(MEC)servers with powerful computing capabilities to form the LEO satellite edge computing system,providing computing services for t... Low earth orbit(LEO)satellites with wide coverage can carry the mobile edge computing(MEC)servers with powerful computing capabilities to form the LEO satellite edge computing system,providing computing services for the global ground users.In this paper,the computation offloading problem and resource allocation problem are formulated as a mixed integer nonlinear program(MINLP)problem.This paper proposes a computation offloading algorithm based on deep deterministic policy gradient(DDPG)to obtain the user offloading decisions and user uplink transmission power.This paper uses the convex optimization algorithm based on Lagrange multiplier method to obtain the optimal MEC server resource allocation scheme.In addition,the expression of suboptimal user local CPU cycles is derived by relaxation method.Simulation results show that the proposed algorithm can achieve excellent convergence effect,and the proposed algorithm significantly reduces the system utility values at considerable time cost compared with other algorithms. 展开更多
关键词 computation offloading deep deterministic policy gradient low earth orbit satellite mobile edge computing resource allocation
在线阅读 下载PDF
State-Incomplete Intelligent Dynamic Multipath Routing Algorithm in LEO Satellite Networks
16
作者 Peng Liang Wang Xiaoxiang 《China Communications》 2025年第2期1-11,共11页
The low Earth orbit(LEO)satellite networks have outstanding advantages such as wide coverage area and not being limited by geographic environment,which can provide a broader range of communication services and has bec... The low Earth orbit(LEO)satellite networks have outstanding advantages such as wide coverage area and not being limited by geographic environment,which can provide a broader range of communication services and has become an essential supplement to the terrestrial network.However,the dynamic changes and uneven distribution of satellite network traffic inevitably bring challenges to multipath routing.Even worse,the harsh space environment often leads to incomplete collection of network state data for routing decision-making,which further complicates this challenge.To address this problem,this paper proposes a state-incomplete intelligent dynamic multipath routing algorithm(SIDMRA)to maximize network efficiency even with incomplete state data as input.Specifically,we model the multipath routing problem as a markov decision process(MDP)and then combine the deep deterministic policy gradient(DDPG)and the K shortest paths(KSP)algorithm to solve the optimal multipath routing policy.We use the temporal correlation of the satellite network state to fit the incomplete state data and then use the message passing neuron network(MPNN)for data enhancement.Simulation results show that the proposed algorithm outperforms baseline algorithms regarding average end-to-end delay and packet loss rate and performs stably under certain missing rates of state data. 展开更多
关键词 deep deterministic policy gradient LEO satellite network message passing neuron network multipath routing
在线阅读 下载PDF
深度强化学习下的管道气动软体机器人控制
17
作者 江雨霏 朱其新 《西安工程大学学报》 2025年第2期65-74,共10页
在复杂的管道环境中,与刚性机器人相比,软体机器人更适合执行操作任务。然而,由于具有无限自由度和非线性变形的特点,软体机器人的控制是一个较大的挑战。根据管道气动软体机器人变形方式进行动力学建模,提出一种结合预测奖励技术的深... 在复杂的管道环境中,与刚性机器人相比,软体机器人更适合执行操作任务。然而,由于具有无限自由度和非线性变形的特点,软体机器人的控制是一个较大的挑战。根据管道气动软体机器人变形方式进行动力学建模,提出一种结合预测奖励技术的深度确定性策略梯度(predictive reward-deep deterministic policy gradient,PR-DDPG)算法,将其应用于管道气动软体机器人的连续运动控制,为其动态的弯曲运动控制问题设计自主运动控制器。实验结果表明:PR-DDPG算法能够有效控制管道气动软体机器人在三维空间中进行自主连续运动,且可控制其前端到达目标点与目标方向。与深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法相比,PR-DDPG算法的收敛时间减少了约17%,奖励值提高了约20%,提高了管道气动软体机器人的连续运动控制性能。 展开更多
关键词 管道软体机器人 运动控制 深度强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
RIS-Assisted UAV-D2D Communications Exploiting Deep Reinforcement Learning
18
作者 YOU Qian XU Qian +2 位作者 YANG Xin ZHANG Tao CHEN Ming 《ZTE Communications》 2023年第2期61-69,共9页
Device-to-device(D2D)communications underlying cellular networks enabled by unmanned aerial vehicles(UAV)have been regarded as promising techniques for next-generation communications.To mitigate the strong interferenc... Device-to-device(D2D)communications underlying cellular networks enabled by unmanned aerial vehicles(UAV)have been regarded as promising techniques for next-generation communications.To mitigate the strong interference caused by the line-of-sight(LoS)airto-ground channels,we deploy a reconfigurable intelligent surface(RIS)to rebuild the wireless channels.A joint optimization problem of the transmit power of UAV,the transmit power of D2D users and the RIS phase configuration are investigated to maximize the achievable rate of D2D users while satisfying the quality of service(QoS)requirement of cellular users.Due to the high channel dynamics and the coupling among cellular users,the RIS,and the D2D users,it is challenging to find a proper solution.Thus,a RIS softmax deep double deterministic(RIS-SD3)policy gradient method is proposed,which can smooth the optimization space as well as reduce the number of local optimizations.Specifically,the SD3 algorithm maximizes the reward of the agent by training the agent to maximize the value function after the softmax operator is introduced.Simulation results show that the proposed RIS-SD3 algorithm can significantly improve the rate of the D2D users while controlling the interference to the cellular user.Moreover,the proposed RIS-SD3 algorithm has better robustness than the twin delayed deep deterministic(TD3)policy gradient algorithm in a dynamic environment. 展开更多
关键词 device-to-device communications reconfigurable intelligent surface deep reinforcement learning softmax deep double deterministic policy gradient
在线阅读 下载PDF
基于多智能体深度强化学习的多无人机辅助移动边缘计算轨迹设计 被引量:1
19
作者 徐少毅 杨磊 《北京交通大学学报》 CSCD 北大核心 2024年第5期1-9,共9页
无人机(Unmanned Aerial Vehicle,UAV)辅助的移动边缘计算(Mobile Edge Computing,MEC)网络能够为地面用户设备(User Equipment,UE)提供优质的计算服务,但是为多无人机进行实时的轨迹设计仍是一个挑战.针对该问题,提出基于多智能体深度... 无人机(Unmanned Aerial Vehicle,UAV)辅助的移动边缘计算(Mobile Edge Computing,MEC)网络能够为地面用户设备(User Equipment,UE)提供优质的计算服务,但是为多无人机进行实时的轨迹设计仍是一个挑战.针对该问题,提出基于多智能体深度强化学习的轨迹设计算法,利用多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)框架对无人机的轨迹进行协作设计.考虑到无人机有限的电池容量是限制无人机网络性能的重要因素,因此以无人机的能量效率之和为优化目标构建优化问题,联合优化无人机集群的轨迹和用户设备的卸载决策.每个智能体与边缘计算网络环境进行交互并观测自己的局部状态,通过Actor网络得到轨迹坐标,联合其他智能体的动作和观测训练Critic网络,从而改善Actor网络输出的轨迹策略.仿真结果表明:基于MADDPG的无人机轨迹设计算法具有良好的收敛性和鲁棒性,能够高效地提升无人机的能量效率;所提算法性能较随机飞行算法最高可提升120%,较圆周飞行算法最高可提升20%,较深度确定性策略梯度算法可提升5%~10%. 展开更多
关键词 无人机轨迹设计 移动边缘计算 强化学习 多智能体深度确定性策略梯度
在线阅读 下载PDF
基于深度确定性策略梯度的星地融合网络可拆分任务卸载算法 被引量:1
20
作者 宋晓勤 吴志豪 +4 位作者 赖海光 雷磊 张莉涓 吕丹阳 郑成辉 《通信学报》 EI CSCD 北大核心 2024年第10期116-128,共13页
为解决低轨卫星网络中星地链路任务卸载时延长的问题,提出了一种基于深度确定性策略梯度(DDPG)的星地融合网络可拆分任务卸载算法。针对不同地区用户建立了星地融合网络的多接入边缘计算结构模型,通过应用多智能体DDPG算法,将系统总服... 为解决低轨卫星网络中星地链路任务卸载时延长的问题,提出了一种基于深度确定性策略梯度(DDPG)的星地融合网络可拆分任务卸载算法。针对不同地区用户建立了星地融合网络的多接入边缘计算结构模型,通过应用多智能体DDPG算法,将系统总服务时延最小化的目标转化为智能体奖励收益最大化。在满足子任务卸载约束、服务时延约束等任务卸载约束条件下,优化用户任务拆分比例。仿真结果表明,所提算法在用户服务时延和受益用户数量等方面优于基线算法。 展开更多
关键词 星地融合网络 深度确定性策略梯度 资源分配 多接入边缘计算
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部