期刊文献+
共找到16,419篇文章
< 1 2 250 >
每页显示 20 50 100
基于改进DDPG的多AGV路径规划算法
1
作者 赵学健 叶昊 +1 位作者 李豪 孙知信 《计算机科学》 北大核心 2025年第6期306-315,共10页
在自动化和智能物流领域,多自动引导车(Automated Guided Vehicle,AGV)系统的路径规划是关键技术难题。针对传统深度强化学习方法在多AGV系统应用中的效率、协作竞争和动态环境适应性问题,提出了一种改进的自适应协同深度确定性策略梯... 在自动化和智能物流领域,多自动引导车(Automated Guided Vehicle,AGV)系统的路径规划是关键技术难题。针对传统深度强化学习方法在多AGV系统应用中的效率、协作竞争和动态环境适应性问题,提出了一种改进的自适应协同深度确定性策略梯度算法Improved-AC-DDPG(Improved-Adaptive Cooperative-Deep Deterministic Policy Gradient)。该算法通过环境数据采集构建状态向量,并实时规划路径,动态生成任务序列以减少AGV间的冲突,同时监测并预测调整避障策略,持续优化策略参数。实验结果表明,与常规DDPG和人工势场优化DDPG(Artificial Potential Field-Deep Deterministic Policy Gradient,APF-DDPG)算法相比,Improved-AC-DDPG在收敛速度、避障能力、路径规划效果和能耗方面均表现更佳,显著提升了多AGV系统的效率与安全性。本研究为多智能体系统在动态环境中的建模与协作提供了新思路,具有重要的理论价值和应用潜力。 展开更多
关键词 AGV 路径规划 深度强化学习 ddpg
在线阅读 下载PDF
Soft-DDPG算法驱动的综合能源系统优化调度方法
2
作者 韩光洁 邹昕莹 +1 位作者 张帆 徐政伟 《小型微型计算机系统》 北大核心 2025年第9期2258-2265,共8页
近年来,综合能源系统作为一种以多种能源形态和设备相互交互的能源系统方案得到了广泛应用和研究.然而,在面对动态复杂的多能源系统时,传统的优化调度方法往往无法满足其实时性和精准度需求.因此,本文设计了一种软深度确定性策略梯度(So... 近年来,综合能源系统作为一种以多种能源形态和设备相互交互的能源系统方案得到了广泛应用和研究.然而,在面对动态复杂的多能源系统时,传统的优化调度方法往往无法满足其实时性和精准度需求.因此,本文设计了一种软深度确定性策略梯度(Soft Deep Deterministic Policy Gradient,Soft-DDPG)算法驱动的综合能源系统优化调度方法,以最小化调度周期内系统总运行成本为目标,建立设备运行综合能效评估模型,再采用Soft-DDPG算法对每个能源设备的能效调度动作进行优化控制.Soft-DDPG算法将softmax算子引入到动作值函数的计算中,有效降低了Q值高估问题.与此同时,该算法在动作选择策略中加入了随机噪声,提高了算法的学习效率.实验结果显示,本文所提出的方法解决了综合能源系统能效调度实时性差、精准度低的瓶颈问题,实现了系统的高效灵活调度,降低了系统的总运行成本. 展开更多
关键词 深度强化学习 优化调度 综合能源系统 Soft ddpg
在线阅读 下载PDF
基于LSTM-DDPG的再入制导方法
3
作者 闫循良 王宽 +1 位作者 张子剑 王培臣 《系统工程与电子技术》 北大核心 2025年第1期268-279,共12页
针对现有基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的再入制导方法计算精度较差,对强扰动条件适应性不足等问题,在DDPG算法训练框架的基础上,提出一种基于长短期记忆-DDPG(long short term memory-DDPG,LST... 针对现有基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的再入制导方法计算精度较差,对强扰动条件适应性不足等问题,在DDPG算法训练框架的基础上,提出一种基于长短期记忆-DDPG(long short term memory-DDPG,LSTM-DDPG)的再入制导方法。该方法采用纵、侧向制导解耦设计思想,在纵向制导方面,首先针对再入制导问题构建强化学习所需的状态、动作空间;其次,确定决策点和制导周期内的指令计算策略,并设计考虑综合性能的奖励函数;然后,引入LSTM网络构建强化学习训练网络,进而通过在线更新策略提升算法的多任务适用性;侧向制导则采用基于横程误差的动态倾侧反转方法,获得倾侧角符号。以美国超音速通用飞行器(common aero vehicle-hypersonic,CAV-H)再入滑翔为例进行仿真,结果表明:与传统数值预测-校正方法相比,所提制导方法具有相当的终端精度和更高的计算效率优势;与现有基于DDPG算法的再入制导方法相比,所提制导方法具有相当的计算效率以及更高的终端精度和鲁棒性。 展开更多
关键词 再入滑翔制导 强化学习 深度确定性策略梯度 长短期记忆网络
在线阅读 下载PDF
基于改进DDPG算法的无人船自主避碰决策方法
4
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
基于KP-DDPG的矿山运载机器人路径规划实验平台设计 被引量:1
5
作者 杨健健 程琪 +2 位作者 章腾 黄先诚 韩子毅 《实验技术与管理》 北大核心 2025年第1期143-151,共9页
针对深度确定性策略梯度(DDPG)在路径规划中的不足,提出一种融合运动学分析和经验回放机制的深度确定性策略梯度(KP-DDPG)算法,在对移动的机器人运动学建模和分析的基础上,在DDPG奖励函数中增加了方位角奖励因子和转弯惩罚因子,同时改... 针对深度确定性策略梯度(DDPG)在路径规划中的不足,提出一种融合运动学分析和经验回放机制的深度确定性策略梯度(KP-DDPG)算法,在对移动的机器人运动学建模和分析的基础上,在DDPG奖励函数中增加了方位角奖励因子和转弯惩罚因子,同时改变了随机采样经验池策略,建立积极经验重放缓冲区,优先采样时序差分误差大的样本进行训练。在仿真平台上比较了传统路径规划算法与所提算法的性能,结果表明KP-DDPG算法可以有效地克服DDPG方法训练周期长、路径规划技术差等缺点。同时设计了基于数字孪生的矿山无人运输仿真系统,在数字孪生仿真平台上验证了规划路径转角的合理性。 展开更多
关键词 路径规划 强化学习 KP-ddpg 数字孪生仿真平台
在线阅读 下载PDF
基于改进DDPG的机械臂6D抓取方法研究 被引量:1
6
作者 张盛 沈捷 +2 位作者 曹恺 戴辉帅 李涛 《计算机工程与应用》 北大核心 2025年第18期317-325,共9页
在当前基于深度强化学习的机械臂6D抓取任务中,存在抓取位姿欠佳导致抓取成功率和鲁棒性不足的问题。为了解决此问题,提出一种融合位姿评价机制的改进DDPG算法。该算法在DDPG框架的基础上,引入抓取评估网络对机械臂的抓取位姿进行量化... 在当前基于深度强化学习的机械臂6D抓取任务中,存在抓取位姿欠佳导致抓取成功率和鲁棒性不足的问题。为了解决此问题,提出一种融合位姿评价机制的改进DDPG算法。该算法在DDPG框架的基础上,引入抓取评估网络对机械臂的抓取位姿进行量化评估。依据评估分数为机械臂抓取的动作分配多级奖励值,以此判断抓取位姿的质量,引导DDPG朝着优化抓取位姿的方向进行学习。通过在仿真和实物环境下进行实验,结果表明该方法可以有效改进机械臂的抓取位姿,提升机械臂的抓取成功率。此外,该方法可以较好地迁移到现实场景中,增强机械臂的泛化性和鲁棒性。 展开更多
关键词 深度确定性策略梯度算法 机械臂 6D抓取 深度强化学习 抓取评估
在线阅读 下载PDF
基于ASDDPG算法的多无人机对抗策略 被引量:1
7
作者 符小卫 王辛夷 乔哲 《系统工程与电子技术》 北大核心 2025年第6期1867-1879,共13页
在多无人机对抗中,无人机通信范围内的友方数量不定,导致其获得的信息量存在变化。而深度强化学习中神经网络的输入维度是固定的,很多算法只考虑距离较近的固定数量友方无人机的交互信息,导致信息丢失且不符合实际战场环境。对此,基于... 在多无人机对抗中,无人机通信范围内的友方数量不定,导致其获得的信息量存在变化。而深度强化学习中神经网络的输入维度是固定的,很多算法只考虑距离较近的固定数量友方无人机的交互信息,导致信息丢失且不符合实际战场环境。对此,基于多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法,结合注意力机制,提出注意力状态深度确定性策略梯度(attention state-deep deterministic policy gradient,ASDDPG)算法,将变化的信息转化为固定长度的特征向量,解决信息量与输入维度不匹配的问题,并通过编解码结构进行状态特征提取,增强无人机的决策能力。通过仿真实验对算法的性能进行对比分析,验证该算法控制下的无人机具有更高胜率,且泛化性良好,在提升无人机对抗决策能力和泛化性方面具备优势。 展开更多
关键词 多无人机 强化学习 策略梯度 机动决策 注意力机制
在线阅读 下载PDF
DoS攻击下基于APF和DDPG算法的无人机安全集群控制
8
作者 林柄权 刘磊 +1 位作者 李华峰 刘晨 《计算机应用》 北大核心 2025年第4期1241-1248,共8页
针对拒绝服务(DoS)攻击下无人机(UAV)通信阻塞、运动轨迹不可预测的问题,在人工势场法(APF)和深度确定性策略梯度(DDPG)融合框架下研究DoS攻击期间的多UAV安全集群控制策略。首先,使用Hping3对所有UAV进行DoS攻击检测,以实时确定UAV集... 针对拒绝服务(DoS)攻击下无人机(UAV)通信阻塞、运动轨迹不可预测的问题,在人工势场法(APF)和深度确定性策略梯度(DDPG)融合框架下研究DoS攻击期间的多UAV安全集群控制策略。首先,使用Hping3对所有UAV进行DoS攻击检测,以实时确定UAV集群的网络环境;其次,当未检测到攻击时,采用传统的APF进行集群飞行;再次,在检测到攻击后,将被攻击的UAV标记为动态障碍物,而其他UAV切换为DDPG算法生成的控制策略;最后,所提框架实现APF和DDPG的协同配合及优势互补,并通过在Gazebo中进行仿真实验验证DDPG算法的有效性。仿真实验结果表明,Hping3能实时检测出被攻击的UAV,且其他正常UAV切换为DDPG算法后能稳定避开障碍物,从而保障集群安全;在DoS攻击期间,采用切换避障策略的成功率为72.50%,远高于传统APF的31.25%,且切换策略逐渐收敛,表现出较好的稳定性;训练后的DDPG避障策略具有一定泛化性,当环境中出现1~2个未知障碍物时仍能稳定完成任务。 展开更多
关键词 无人机集群 人工势场法 深度确定性策略梯度 切换策略 网络安全
在线阅读 下载PDF
基于DDPG算法的球关节电机LuGre摩擦模型参数辨识
9
作者 张勇 张倩 +1 位作者 马倩倩 李国丽 《机床与液压》 北大核心 2025年第18期1-7,共7页
新型三自由度球关节电机进行轨迹跟踪控制时因摩擦等非线性扰动可能出现爬坡、抖振等现象。针对此,提出一种基于深度确定性策略梯度(DDPG)算法的球关节电机摩擦模型参数辨识方法,并基于自抗扰控制策略设计补偿环节。针对球关节电机设计... 新型三自由度球关节电机进行轨迹跟踪控制时因摩擦等非线性扰动可能出现爬坡、抖振等现象。针对此,提出一种基于深度确定性策略梯度(DDPG)算法的球关节电机摩擦模型参数辨识方法,并基于自抗扰控制策略设计补偿环节。针对球关节电机设计转速-摩擦力矩实验。针对LuGre模型参数辨识问题,设计DDPG算法的动作、环境和奖励,辨识球关节电机各自由度LuGre摩擦模型静态参数。对比DDPG参数辨识算法、传统神经网络法和遗传算法的辨识误差。实验结果表明:所提DDPG算法辨识参数更准确。最后,基于LuGre摩擦模型设计自抗扰控制摩擦力矩补偿环节。结果表明:摩擦补偿策略可有效抑制摩擦扰动,提高了系统的跟踪精度。 展开更多
关键词 三自由度球关节电机 ddpg算法 LUGRE模型 参数辨识 摩擦补偿
在线阅读 下载PDF
基于改进DDPG算法的N-1潮流收敛智能调整方法
10
作者 陈东旭 陈胜硕 +3 位作者 许智光 李岩松 陈兴雷 刘君 《华北电力大学学报(自然科学版)》 北大核心 2025年第4期88-98,共11页
N-1状态下潮流不收敛问题对N-1校验和电网的安全运行造成极大困扰,但当前的潮流收敛研究主要集中于静态潮流,且调整方法不仅动作有效性低,也难以兼顾快速性和成功率。因此提出一种基于BNN-DS的DDPG改进算法,通过深度强化学习对N-1潮流... N-1状态下潮流不收敛问题对N-1校验和电网的安全运行造成极大困扰,但当前的潮流收敛研究主要集中于静态潮流,且调整方法不仅动作有效性低,也难以兼顾快速性和成功率。因此提出一种基于BNN-DS的DDPG改进算法,通过深度强化学习对N-1潮流不收敛网络进行智能调整。首先,根据N-1方案校验元件类型及潮流重载量等指标确定了方案的调整措施,通过广度优先算法确定调整元件组以保证动作的有效性,根据CRITIC权重法计算了多重奖励之和,据此,设计了N-1潮流收敛调整MDP模型。其次对MDP模型中所用DDPG算法进行改进,搭建了轻量BNN网络以降低计算复杂度、提高计算速度,设计了高奖励经验池以及存量判定机制以优化模型的收敛性。最后,在某分部2179节点网络和某分部12732节点网络上对改进算法进行测试验证,结果表明基于BNN-DS的DDPG改进算法比传统方法的成功率提高36.535%,平均用时减少95.01%。 展开更多
关键词 深度强化学习 N-1潮流收敛 神经网络 ddpg算法
在线阅读 下载PDF
基于角度特征的分布式DDPG无人机追击决策 被引量:3
11
作者 王昱 任田君 +1 位作者 范子琳 孟光磊 《控制理论与应用》 北大核心 2025年第7期1356-1366,共11页
无人机执行追击任务过程中态势变化迅速,不灵活的网络更新机制和固化的奖励函数使得现有决策模型难以持续输出正确且高效的策略.针对此问题,提出了一种基于角度特征的分布式深度确定性策略梯度(DDPG)算法.首先,为避免梯度消失或爆炸以... 无人机执行追击任务过程中态势变化迅速,不灵活的网络更新机制和固化的奖励函数使得现有决策模型难以持续输出正确且高效的策略.针对此问题,提出了一种基于角度特征的分布式深度确定性策略梯度(DDPG)算法.首先,为避免梯度消失或爆炸以稳定模型训练过程,提出先利用梯度上升计算目标值,再使用MSE损失函数训练的Actor网络更新机制;然后,依据双方角度特征划分策略引导区域,通过设置不同的奖励函数权重,构建基于5个DDPG网络的分布式决策模型,利用在不同态势下对奖励函数权重的动态选择和无缝切换提升算法的决策能力.仿真实验表明,相比于DDPG和双延迟深度确定性策略梯度(TD3)算法,所提算法无论追击直线逃逸目标或智能逃逸目标,均具有更高的成功率和决策效率. 展开更多
关键词 追击决策 强化学习 分布式ddpg算法 角度特征
在线阅读 下载PDF
基于孪生延迟DDPG强化学习的电-热耦合系统低碳经济调度 被引量:2
12
作者 陈思畏 李建军 +2 位作者 邹信迅 罗旭 崔希 《现代电力》 北大核心 2025年第2期314-321,共8页
对含可再生能源接入的电–热耦合系统,提出一种用于电–热耦合系统低碳经济调度的强化学习方法。首先,建立计及经济性和碳排放的电–热耦合系统低碳经济调度模型;然后,将含可再生能源的电–热耦合系统低碳经济调度过程转化为马尔可夫决... 对含可再生能源接入的电–热耦合系统,提出一种用于电–热耦合系统低碳经济调度的强化学习方法。首先,建立计及经济性和碳排放的电–热耦合系统低碳经济调度模型;然后,将含可再生能源的电–热耦合系统低碳经济调度过程转化为马尔可夫决策过程(Markov decision process,MDP),以经济性和碳排放最小为目标,结合惩罚约束机制,设计多目标奖励函数,并基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)的改进算法,采用孪生延迟DDPG算法对强化学习智能体进行交互学习训练。最后,算例分析结果表明,所提方法训练的智能体能够实时响应可再生能源和电/热负荷的不确定性,在线对含可再生能源的电–热耦合系统低碳经济调度优化。 展开更多
关键词 电–热耦合系统 低碳经济调度 强化学习 孪生延迟ddpg
在线阅读 下载PDF
基于DDPG-LQR的高超声速飞行器时间协同再入制导 被引量:1
13
作者 宋志飞 吉月辉 +2 位作者 宋雨 刘俊杰 高强 《导弹与航天运载技术(中英文)》 北大核心 2025年第1期57-64,共8页
针对多高超声速飞行器协同作战的特点,提出一种基于深度策略性梯度和线性二次型调节器(Deep Deterministic Policy Gradient-Linear Quadratic Regulator,DDPG-LQR)的时间协同再入制导方案。首先,采用序列凸优化方法生成满足多个约束的... 针对多高超声速飞行器协同作战的特点,提出一种基于深度策略性梯度和线性二次型调节器(Deep Deterministic Policy Gradient-Linear Quadratic Regulator,DDPG-LQR)的时间协同再入制导方案。首先,采用序列凸优化方法生成满足多个约束的时间协同再入轨迹及其相应的稳态控制量,并且采用Radau伪谱法离散运动学方程,以提高轨迹优化离散精度。其次,采用线性二次型调节器(Linear Quadratic Regulator,LQR)跟踪时间协同再入轨迹。为了提高协同制导精度和制导效果,采用深度策略性梯度(Deep Deterministic Policy Gradient,DDPG)在线优化LQR的权重矩阵系数。在DDPG算法中,通过引入合适的奖励函数来提高算法的优化性能。仿真结果表明,在初始状态误差和不确定性的情况下,通过与传统的LQR控制器相比,本文所提出的协同制导方案具有更好的协同制导精度和制导效果。 展开更多
关键词 多高超声速飞行器 协同制导 序列凸优化 深度策略性梯度 线性二次型调节器
在线阅读 下载PDF
A Modified PRP-HS Hybrid Conjugate Gradient Algorithm for Solving Unconstrained Optimization Problems
14
作者 LI Xiangli WANG Zhiling LI Binglan 《应用数学》 北大核心 2025年第2期553-564,共12页
In this paper,we propose a three-term conjugate gradient method for solving unconstrained optimization problems based on the Hestenes-Stiefel(HS)conjugate gradient method and Polak-Ribiere-Polyak(PRP)conjugate gradien... In this paper,we propose a three-term conjugate gradient method for solving unconstrained optimization problems based on the Hestenes-Stiefel(HS)conjugate gradient method and Polak-Ribiere-Polyak(PRP)conjugate gradient method.Under the condition of standard Wolfe line search,the proposed search direction is the descent direction.For general nonlinear functions,the method is globally convergent.Finally,numerical results show that the proposed method is efficient. 展开更多
关键词 Conjugate gradient method Unconstrained optimization Sufficient descent condition Global convergence
在线阅读 下载PDF
基于MADDPG的多无人机协同攻击方法 被引量:1
15
作者 张波 刘满国 刘梦焱 《弹箭与制导学报》 北大核心 2025年第3期344-350,共7页
多无人机协同完成特定打击任务是未来无人机军事领域发展的重要方向。针对多无人机协同攻击问题,构建典型对抗场景。将多无人机协同攻击问题建模成分布式部分可观测马尔可夫决策过程(Dec-POMDP),设计独特奖励函数,采用多智能体深度确定... 多无人机协同完成特定打击任务是未来无人机军事领域发展的重要方向。针对多无人机协同攻击问题,构建典型对抗场景。将多无人机协同攻击问题建模成分布式部分可观测马尔可夫决策过程(Dec-POMDP),设计独特奖励函数,采用多智能体深度确定性策略梯度(MADDPG)算法训练攻击策略。使用蒙特卡洛法分析仿真实验,结果表明在该多智能体强化学习算法训练之后,特定对抗场景下多无人机协同攻击任务完成率达到82.9%。 展开更多
关键词 多智能体 深度强化学习 分布式部分可观测马尔可夫决策过程(Dec-POMDP) 多智能体深度确定性策略梯度算法(MAddpg) 无人机集群
在线阅读 下载PDF
EP-DDPG引导的着舰控制系统
16
作者 雷元龙 谢鹏 +3 位作者 刘业华 陈翃正 朱静思 盛守照 《控制理论与应用》 北大核心 2025年第10期1904-1913,共10页
针对舰载机纵向通道下的控制精度提升问题,本文以保证舰载机以合理的姿态和速度沿期望下滑道着落为目标,以深度确定性策略梯度算法为基本优化框架,提出了一种基于专家策略–深度确定性策略梯度(EP-DDPG)算法的控制器参数自适应调节策略... 针对舰载机纵向通道下的控制精度提升问题,本文以保证舰载机以合理的姿态和速度沿期望下滑道着落为目标,以深度确定性策略梯度算法为基本优化框架,提出了一种基于专家策略–深度确定性策略梯度(EP-DDPG)算法的控制器参数自适应调节策略.首先,构建“魔毯”着舰控制系统作为基础架构;其次,为提升控制器的自适应能力和鲁棒性,基于行动者–评论家框架设计深度确定性策略梯度(DDPG)算法对控制器参数进行在线调整;最后,针对常规强化学习算法前期训练效率低,效果差的问题,基于反向传播(BP)神经网络构专家策略为智能体的训练提供引导,并设计指导探索协调模块进行策略决策,保证动作策略的合理性和算法的高效性.仿真结果表明,与常规控制器相比,该算法的控制精度和鲁棒性有了极大的提升. 展开更多
关键词 强化学习 深度确定性策略梯度算法 魔毯 行动者–评论家 BP神经网络
在线阅读 下载PDF
基于融合课程思想MADDPG的无人机编队控制
17
作者 吴凯峰 刘磊 +1 位作者 刘晨 梁成庆 《计算机工程》 北大核心 2025年第5期73-82,共10页
多智能体深度确定性梯度(MADDPG)算法由深度确定性策略梯度(DDPG)算法扩展而来,专门针对多智能体环境设计,算法中每个智能体不仅考虑自身的观察和行动,还考虑其他智能体的策略,以更好地进行集体决策,这种设计显著提升了其在复杂、多变... 多智能体深度确定性梯度(MADDPG)算法由深度确定性策略梯度(DDPG)算法扩展而来,专门针对多智能体环境设计,算法中每个智能体不仅考虑自身的观察和行动,还考虑其他智能体的策略,以更好地进行集体决策,这种设计显著提升了其在复杂、多变的环境中的性能和稳定性。基于MADDPG算法框架,设计算法的网络结构、状态空间、动作空间和奖励函数,实现无人机编队控制。为解决多智能体算法收敛困难的问题,训练过程中使用课程强化学习将任务进行阶段分解,针对每次任务不同,设计层次递进的奖励函数,并使用人工势场思想设计稠密奖励,使得训练难度大大降低。在自主搭建的软件在环(SITL)仿真环境中,通过消融、对照实验,验证了MADDPG算法在多智能体环境中的有效性和稳定性。最后进行实机实验,在现实环境中进一步验证了所设计算法的实用性。 展开更多
关键词 无人机编队 深度强化学习 多智能体深度确定性策略梯度 课程学习 神经网络
在线阅读 下载PDF
Stress gradient analytic solution and reasonable support prestress of roadway surrounding rock based on unified strength criterion:A case study
18
作者 JING Suo-lin WEN Zhi-jie +2 位作者 ZUO Yu-jun LI Qiu-ju HAO Peng 《Journal of Central South University》 2025年第2期449-468,共20页
The stress gradient of surrounding rock and reasonable prestress of support are the keys to ensuring the stability of roadways.The elastic-plastic analytical solution for surrounding rock was derived based on unified ... The stress gradient of surrounding rock and reasonable prestress of support are the keys to ensuring the stability of roadways.The elastic-plastic analytical solution for surrounding rock was derived based on unified strength theory.A model for solving the stress gradient of the surrounding rock with the intermediate principal stress parameter b was established.The correctness and applicability of the solution for the stress gradient in the roadway surrounding rock was verified via multiple methods.Furthermore,the laws of stress,displacement,and the plastic zone of the surrounding rock with different b values and prestresses were revealed.As b increases,the stress gradient in the plastic zone increases,and the displacement and plastic zone radius decrease.As the prestress increases,the peak stress shifts toward the sidewalls,and the stress and stress gradient increments decrease.In addition,the displacement increment and plastic zone increment were proposed to characterize the support effect.The balance point of the plastic zone area appears before that of the displacement zone.The relationship between the stress gradient compensation coefficient and the prestress is obtained.This study provides a research method and idea for determining the reasonable prestress of support in roadways. 展开更多
关键词 PRESTRESS support compensation surrounding rock damage stress gradient analytic solution unified strength theory
在线阅读 下载PDF
基于LSTM-DDPG算法的四翼变掠角飞行器主动变形决策
19
作者 彭余萧 何真 仇靖雯 《北京航空航天大学学报》 北大核心 2025年第10期3504-3514,共11页
针对变体飞行器主动变形控制问题,提出一种基于长短期记忆(LSTM)网络深度确定性策略梯度(DDPG)算法的智能变形控制方法;以一种串置翼构型的四翼变掠角飞行器为研究对象,利用OPENVSP软件计算其几何模型和气动参数,并建立了飞行器动力学模... 针对变体飞行器主动变形控制问题,提出一种基于长短期记忆(LSTM)网络深度确定性策略梯度(DDPG)算法的智能变形控制方法;以一种串置翼构型的四翼变掠角飞行器为研究对象,利用OPENVSP软件计算其几何模型和气动参数,并建立了飞行器动力学模型;针对四翼变掠角飞行器的加速爬升过程,设计了基于LSTM-DDPG算法学习框架,并在对称变形条件下,针对纵向轨迹跟踪进行主动变形决策训练。仿真结果表明:应用于主动变形控制过程中的LSTMDDPG算法可以快速收敛并达到更高的平均奖励,且训练获得的主动变形控制器在四翼变掠角飞行器的轨迹跟踪任务中具有良好的控制效果。 展开更多
关键词 变体飞行器 飞行控制 深度强化学习 深度确定性策略梯度 长短期记忆递归神经网络
在线阅读 下载PDF
导向钻井稳定平台的DDPG深度强化学习控制
20
作者 霍爱清 姜雪 张书涵 《西安石油大学学报(自然科学版)》 北大核心 2025年第5期49-56,共8页
针对导向钻井稳定平台工作时,系统存在干扰所带来的跟踪效果不理想、鲁棒性较差等问题,提出了一种基于DDPG的深度强化学习控制方法。以旋转导向钻井稳定平台为研究对象,建立了稳定平台被控对象模型和摩擦模型。从状态向量、奖励函数和... 针对导向钻井稳定平台工作时,系统存在干扰所带来的跟踪效果不理想、鲁棒性较差等问题,提出了一种基于DDPG的深度强化学习控制方法。以旋转导向钻井稳定平台为研究对象,建立了稳定平台被控对象模型和摩擦模型。从状态向量、奖励函数和网络结构3个方面设计了稳定平台DDPG深度强化学习控制器,构建了Actor-Critic双网络结构并进行参数更新,通过建立控制器输入与实际输出之间的非线性关系,提高稳定平台的控制精度、响应速度和抗干扰能力。分别将所提控制方法与PID、PIDDOB控制方法进行仿真实验对比,实验结果表明所提方法跟踪误差在±10%范围之内,能够有效抑制参数摄动和摩擦干扰,有较强的鲁棒性,满足钻井工程的需求。 展开更多
关键词 旋转导向钻井 稳定平台 深度强化学习 深度确定性策略梯度
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部