期刊文献+
共找到134篇文章
< 1 2 7 >
每页显示 20 50 100
Variable reward function-driven strategies for impulsive orbital attack-defense games under multiple constraints and victory conditions
1
作者 Liran Zhao Sihan Xu +1 位作者 Qinbo Sun Zhaohui Dang 《Defence Technology(防务技术)》 2025年第9期159-183,共25页
This paper investigates impulsive orbital attack-defense(AD)games under multiple constraints and victory conditions,involving three spacecraft:attacker,target,and defender.In the AD scenario,the attacker aims to breac... This paper investigates impulsive orbital attack-defense(AD)games under multiple constraints and victory conditions,involving three spacecraft:attacker,target,and defender.In the AD scenario,the attacker aims to breach the defender's interception to rendezvous with the target,while the defender seeks to protect the target by blocking or actively pursuing the attacker.Four different maneuvering constraints and five potential game outcomes are incorporated to more accurately model AD game problems and increase complexity,thereby reducing the effectiveness of traditional methods such as differential games and game-tree searches.To address these challenges,this study proposes a multiagent deep reinforcement learning solution with variable reward functions.Two attack strategies,Direct attack(DA)and Bypass attack(BA),are developed for the attacker,each focusing on different mission priorities.Similarly,two defense strategies,Direct interdiction(DI)and Collinear interdiction(CI),are designed for the defender,each optimizing specific defensive actions through tailored reward functions.Each reward function incorporates both process rewards(e.g.,distance and angle)and outcome rewards,derived from physical principles and validated via geometric analysis.Extensive simulations of four strategy confrontations demonstrate average defensive success rates of 75%for DI vs.DA,40%for DI vs.BA,80%for CI vs.DA,and 70%for CI vs.BA.Results indicate that CI outperforms DI for defenders,while BA outperforms DA for attackers.Moreover,defenders achieve their objectives more effectively under identical maneuvering capabilities.Trajectory evolution analyses further illustrate the effectiveness of the proposed variable reward function-driven strategies.These strategies and analyses offer valuable guidance for practical orbital defense scenarios and lay a foundation for future multi-agent game research. 展开更多
关键词 Orbital attack-defense game Impulsive maneuver Multi-agent deep reinforcement learning reward function design
在线阅读 下载PDF
基于深度强化学习的游戏智能引导算法 被引量:2
2
作者 白天 吕璐瑶 +1 位作者 李储 何加亮 《吉林大学学报(理学版)》 北大核心 2025年第1期91-98,共8页
针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输... 针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输入数据量;其次,通过精细化设计奖励机制,加速模型的收敛过程;最后,从主观定性和客观定量两方面对该算法模型与现有方法进行对比实验,实验结果表明,该算法不仅显著提高了模型的训练效率,还大幅度提高了智能体的性能. 展开更多
关键词 深度强化学习 游戏智能体 奖励函数塑形 近端策略优化算法
在线阅读 下载PDF
基于多代理深度强化学习的战术无线网络安全路由算法研究
3
作者 谢英辉 刘亮 《传感技术学报》 北大核心 2025年第8期1482-1490,共9页
由于应用场景的特殊性,战术无线网络更易遭受干扰攻击,这破坏了数据通信,阻碍了数据包的传输。为此,提出基于多代理深度强化学习的安全路由(Multi-agent Deep Reinforcement Learning-based Secure Routing,MRSR)。MRSR路由将节点作为代... 由于应用场景的特殊性,战术无线网络更易遭受干扰攻击,这破坏了数据通信,阻碍了数据包的传输。为此,提出基于多代理深度强化学习的安全路由(Multi-agent Deep Reinforcement Learning-based Secure Routing,MRSR)。MRSR路由将节点作为代理,它们通过深度神经网络学习决策路由。将跳数、一跳时延、数据包丢失率和能量消耗信息关联到奖励函数,使得代理能够选择时延低、可靠性高的转发节点,进而克服干扰攻击。仿真结果表明,提出的MRSR路由提高了数据包传递率和能量效率。 展开更多
关键词 战术无线网络 安全路由 干扰攻击 多代理深度强化学习 奖励函数
在线阅读 下载PDF
基于改进深度强化学习的交通信号灯控制
4
作者 韦敏 蔡常健 《计算机工程与设计》 北大核心 2025年第3期927-933,共7页
为解决复杂交通情境下传统交通信号灯控制效果有限的问题,提出一种改进的深度强化学习交通信号灯控制方法。将对决网络和双Q学习结合,改进深度强化学习模型结构,缓解算法的高估;设计能提取更丰富交通信息的多特征状态空间,考虑车辆等待... 为解决复杂交通情境下传统交通信号灯控制效果有限的问题,提出一种改进的深度强化学习交通信号灯控制方法。将对决网络和双Q学习结合,改进深度强化学习模型结构,缓解算法的高估;设计能提取更丰富交通信息的多特征状态空间,考虑车辆等待时间和车道最大队列长度的多任务奖励函数,提高城市交叉口的通行效率。实验结果表明,所提方法能够获得更高奖励,在训练场景对比基线方法平均等待时间和平均队列长度均明显降低,平均速度明显提高,测试结果同样验证所提方法更能提高道路通行效率。 展开更多
关键词 深度强化学习 信号灯控制 对决网络 状态空间 奖励函数 城市交叉口 交通工程
在线阅读 下载PDF
基于人工势场的防疫机器人改进近端策略优化算法
5
作者 伍锡如 沈可扬 《智能系统学报》 北大核心 2025年第3期689-698,共10页
针对防疫机器人在复杂医疗环境中的路径规划与避障效果差、学习效率低的问题,提出一种基于人工势场的改进近端策略优化(proximal policy optimization,PPO)路径规划算法。根据人工势场法(artificial potential field,APF)构建障碍物和... 针对防疫机器人在复杂医疗环境中的路径规划与避障效果差、学习效率低的问题,提出一种基于人工势场的改进近端策略优化(proximal policy optimization,PPO)路径规划算法。根据人工势场法(artificial potential field,APF)构建障碍物和目标节点的势场,定义防疫机器人的动作空间与安全运动范围,解决防疫机器人运作中避障效率低的问题。为解决传统PPO算法的奖励稀疏问题,将人工势场因子引入PPO算法的奖励函数,提升算法运行中的奖励反馈效率。改进PPO算法网络模型,增加隐藏层和Previous Actor网络,提高了防疫机器人的灵活性与学习感知能力。最后,在静态和动态仿真环境中对算法进行对比实验,结果表明本算法能更快到达奖励峰值,减少冗余路径,有效完成避障和路径规划决策。 展开更多
关键词 PPO算法 人工势场 路径规划 防疫机器人 深度强化学习 动态环境 安全性 奖励函数
在线阅读 下载PDF
洋流干扰下低速欠驱动AUV的三维路径规划
6
作者 陈世同 鲁子瑜 《智能系统学报》 北大核心 2025年第2期425-434,共10页
海洋洋流对低速欠驱动水下运载器(automatic underwater vehicle,AUV)的航行影响巨大,会增加航行时间、增大能源消耗以及改变航行轨迹,故在洋流干扰的情况下规划出一条最优航行路线有着重要的意义。本文主要分析了洋流对AUV的影响机理,... 海洋洋流对低速欠驱动水下运载器(automatic underwater vehicle,AUV)的航行影响巨大,会增加航行时间、增大能源消耗以及改变航行轨迹,故在洋流干扰的情况下规划出一条最优航行路线有着重要的意义。本文主要分析了洋流对AUV的影响机理,由于传统的强化Q网络(deep Q-network,DQN)路径规划算法在复杂环境下存在过估计的问题,提出了基于优先经验回放方法的改进DQN路径规划算法,同时对动作设计和奖励函数进行优化。在基于S57海图数据建立的三维海洋环境下,利用地球与空间研究机构(earth&space research,ESR)提供的洋流数据进行路径规划仿真。实验结果表明,在充分考虑洋流干扰的情况下,改进后的DQN算法能够规划出较优的全局路径规划,提供一条时间最短且能耗最低的航行路线,为AUV水下航行提供参考。 展开更多
关键词 自主水下运载器 强化学习 洋流干扰 路径规划 三维海洋环境 强化Q网络 S57海图 奖励函数
在线阅读 下载PDF
改进奖励函数的深度强化学习路径规划方法 被引量:6
7
作者 桑垚 马晓宁 《计算机应用与软件》 北大核心 2025年第1期271-276,共6页
针对深度强化学习在路径规划问题中的稀疏奖励问题,提出一种基于潜能奖励函数的深度强化学习模型。该模型通过设计新的奖励函数,提高奖励密度和样本利用率,减少训练难度,提升智能体在不同地图中的寻路成功率。仿真结果表明,改进后的模... 针对深度强化学习在路径规划问题中的稀疏奖励问题,提出一种基于潜能奖励函数的深度强化学习模型。该模型通过设计新的奖励函数,提高奖励密度和样本利用率,减少训练难度,提升智能体在不同地图中的寻路成功率。仿真结果表明,改进后的模型在简单地图上路径规划成功率提高7.08百分点,在复杂地图上规划成功率提高12.60百分点;与最先进的算法对比,寻路成功率近似,但规划路径结果的长度较短。 展开更多
关键词 深度强化学习 路径规划 移动机器人 奖励函数
在线阅读 下载PDF
动态环境下共融机器人深度强化学习导航算法 被引量:3
8
作者 顾金浩 况立群 +2 位作者 韩慧妍 曹亚明 焦世超 《计算机工程与应用》 北大核心 2025年第4期90-98,共9页
在过去的几十年里,移动服务机器人的导航算法得到了广泛研究,但智能体仍然缺乏人类在拥挤环境中展现出的复杂性和合作性。随着人机共融的应用不断拓展,机器人和人类共享工作空间的协作将愈发重要,因此下一代移动服务机器人需要符合社交... 在过去的几十年里,移动服务机器人的导航算法得到了广泛研究,但智能体仍然缺乏人类在拥挤环境中展现出的复杂性和合作性。随着人机共融的应用不断拓展,机器人和人类共享工作空间的协作将愈发重要,因此下一代移动服务机器人需要符合社交要求,才能被人类接受。为了提升多智能体在动态场景中的自主导航能力,针对多智能体导航中社会适应性低和寻找最优值函数问题,提出了一种动态环境下共融机器人深度强化学习避障算法。建立了更贴近人类行为的运动模型并将其添加到深度强化学习框架中,用于提高共融机器人的合作性;为了在行人物理安全的基础上提升其感知安全,重新制定了奖励函数;利用非线性深度神经网络代替传统的值函数,解决寻找最优值函数问题。仿真实验显示,相较于最新的深度强化学习导航方法,该方法在不增加导航时间的情况下实现了100%的导航成功率,且没有发生任何碰撞。结果表明,该方法使共融机器人最大限度地满足人类的社交原则,同时朝着目标前进,有效提高了行人的感知安全。 展开更多
关键词 服务机器人 避障算法 深度强化学习 最优值函数 奖励函数
在线阅读 下载PDF
重性抑郁障碍快感缺失的磁共振成像与神经生物学机制研究进展 被引量:1
9
作者 黄佩姗 王克 +2 位作者 张雪琳 苗懿 董强利 《中国神经精神疾病杂志》 北大核心 2025年第3期180-185,共6页
重性抑郁障碍的核心症状之一是快感缺失,表现为个体对愉悦刺激的反应能力下降。伴快感缺失的重性抑郁障碍患者脑影像表现出一定特点,如纹状体、颞叶等脑区体积或皮质厚度减少,脑白质束微观结构改变,额叶、颞叶和边缘系统的神经元活动异... 重性抑郁障碍的核心症状之一是快感缺失,表现为个体对愉悦刺激的反应能力下降。伴快感缺失的重性抑郁障碍患者脑影像表现出一定特点,如纹状体、颞叶等脑区体积或皮质厚度减少,脑白质束微观结构改变,额叶、颞叶和边缘系统的神经元活动异常,默认模式网络、奖赏网络和额顶叶网络的连接性改变等。此外,压力应激、基因表达、谷氨酸系统及生物节律等因素也可能对快感缺失产生影响。快感缺失的神经生物学机制复杂多样,对重性抑郁障碍的诊断、治疗和预后具有重要指导意义。 展开更多
关键词 快感缺失 重性抑郁障碍 磁共振成像 脑结构 脑功能 脑网络 奖赏网络 神经机制
在线阅读 下载PDF
一种无人机冲突探测与避让系统决策方法
10
作者 汤新民 李帅 +1 位作者 顾俊伟 管祥民 《电子与信息学报》 北大核心 2025年第5期1301-1309,共9页
针对无人机探测与避让(DAA)系统中无人机飞行碰撞避免的决策问题,该文提出一种将无人机系统检测和避免警报逻辑(DAIDALUS)和马尔可夫决策过程(MDP)相结合的方法。DAIDALUS算法的引导逻辑可以根据当前状态空间计算无人机避撞策略,将这些... 针对无人机探测与避让(DAA)系统中无人机飞行碰撞避免的决策问题,该文提出一种将无人机系统检测和避免警报逻辑(DAIDALUS)和马尔可夫决策过程(MDP)相结合的方法。DAIDALUS算法的引导逻辑可以根据当前状态空间计算无人机避撞策略,将这些策略作为MDP的动作空间,并设置合适的奖励函数和状态转移概率,建立MDP模型,探究不同折扣因子对无人机飞行避撞过程的影响。仿真结果表明:相比于DAIDALUS,本方法的效率提升27.2%;当折扣因子设置为0.99时,可以平衡长期与短期收益;净空入侵率为5.8%,威胁机与本机最近距离为343 m,该方法可以满足无人机飞行过程中避撞的要求。 展开更多
关键词 无人机系统 探测与避让 马尔可夫决策过程 奖励函数
在线阅读 下载PDF
基于综合积分机制的权益证明共识算法改进研究
11
作者 鲁明 陈慈发 董方敏 《计算机工程》 北大核心 2025年第1期148-155,共8页
共识机制是区块链的核心。权益证明(PoS)作为一种共识机制,与工作量证明(PoW)相比显著降低了资源的消耗。但PoS中积极的低权益诚实节点难以获得记账权,除此之外,还存在节点区块验证不积极、币龄累计攻击和出块奖励分配不合理的安全问题... 共识机制是区块链的核心。权益证明(PoS)作为一种共识机制,与工作量证明(PoW)相比显著降低了资源的消耗。但PoS中积极的低权益诚实节点难以获得记账权,除此之外,还存在节点区块验证不积极、币龄累计攻击和出块奖励分配不合理的安全问题。为此,提出了一种基于PoS的改进方案。首先,通过引入积分机制来提升积极的低权益诚实节点的总权益,提高节点获得记账权的概率;其次,采用非线性函数进行币龄计算,防止恶意节点累计币龄发动攻击;最后,根据节点综合积分占比分配出块奖励,在规定时间内积极参与验证或投票的节点会得到奖励,减少“富者越富”现象,缩短节点之间的贫富差距。实验结果表明,相比其他PoS,所提的改进共识机制有效控制币龄的无限增长,积极的低权益诚实节点获得奖励和记账权的次数提升了约3.6倍和2.6倍,降低了系统的中心化趋势,增大了积极的低权益诚实节点的竞争记账权的机会和减小了币龄攻击的可能性,进一步验证了所提方案的可行性和优越性,促进了区块链网络的健康发展。 展开更多
关键词 共识机制 区块链 权益证明 积分值机制 非线性函数 出块奖励分配
在线阅读 下载PDF
基于PD3PG的无人驾驶行为决策仿真
12
作者 曹克让 王涵 +2 位作者 刘亚茹 范慧杰 梁琳琦 《计算机工程与设计》 北大核心 2025年第4期1149-1156,共8页
为提高无人驾驶车辆的行为决策控制能力,将深度强化学习中的DDPG算法应用到无人驾驶行为决策中。提出一种将混合优先经验回放机制以及决斗网络结合的确定性策略梯度算法PD3PG。构建无人驾驶行为决策模型,设计合理的奖励函数。提出PD3PG... 为提高无人驾驶车辆的行为决策控制能力,将深度强化学习中的DDPG算法应用到无人驾驶行为决策中。提出一种将混合优先经验回放机制以及决斗网络结合的确定性策略梯度算法PD3PG。构建无人驾驶行为决策模型,设计合理的奖励函数。提出PD3PG算法,提高重要经验的利用率以及加快神经网络的训练速度。通过仿真平台TORCS,验证了PD3PG算法相比于DDPG算法拥有更快的收敛速度,更高的回合奖励,以及更加稳定的偏移量,行为决策控制效果更加优秀。 展开更多
关键词 深度强化学习 深度确定性策略梯度算法 无人驾驶 行为决策 奖励函数 经验回放 决斗网络
在线阅读 下载PDF
基于深度强化学习PPO的车辆智能控制方法
13
作者 叶宝林 王欣 +1 位作者 李灵犀 吴维敏 《计算机工程》 北大核心 2025年第7期385-396,共12页
为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制... 为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制策略,下层PID控制器负责执行控制策略。其次为了提升车辆的行驶效率,通过定义优势距离对观测到的环境状态矩阵进行数据筛选,帮助自主车辆选择具有更长优势距离的车道进行变道。基于定义的优势距离提出一种新的状态采集方法以减少数据处理量,加快深度强化学习模型的收敛速度。另外,为了兼顾车辆的安全性、行驶效率和稳定性,设计一个多目标奖励函数。最后在基于Gym搭建的车辆强化学习任务仿真环境Highway_env中进行测试,对所提方法在不同目标速度下的表现进行分析和讨论。仿真测试结果表明,相比深度Q网络(DQN)方法,所提方法具有更快的收敛速度,且在两种不同目标速度下均能使车辆安全平稳地完成驾驶任务。 展开更多
关键词 近端策略优化 车辆控制 分层控制框架 多目标奖励函数 深度Q网络
在线阅读 下载PDF
基于A-TD3的码垛机器人轨迹规划
14
作者 金桥 杨光锐 +2 位作者 王霄 徐凌桦 张芳 《现代制造工程》 北大核心 2025年第5期42-52,共11页
深度强化学习算法在码垛机器人机械臂轨迹规划的应用中存在学习速率低和鲁棒性差的问题。针对以上问题,提出了一种基于改进方位奖励函数(improved Azimuthal reward function,A)的双延迟深度确定性策略梯度(Twin Delayed Deep Determini... 深度强化学习算法在码垛机器人机械臂轨迹规划的应用中存在学习速率低和鲁棒性差的问题。针对以上问题,提出了一种基于改进方位奖励函数(improved Azimuthal reward function,A)的双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic policy gradient,TD3)算法用于机械臂的轨迹规划。首先,在笛卡尔坐标系下建立码垛机器人的数学模型,并对其进行运动学分析;其次,针对学习速率低和鲁棒性差的问题,基于机械臂和障碍物的相对方向和位置,设计了一种改进方位奖励函数结合双延迟深度确定性策略梯度(A-TD3)算法用于码垛机器人机械臂轨迹规划,以增强机械臂目标搜索的导向性,提高学习效率和鲁棒性。仿真结果表明,相比于改进前TD3算法,A-TD3算法平均收敛速度提升了11.84%,平均奖励值提升了4.64%,平均极差下降了10.30%,在轨迹规划用时上也比主流RRT和GA算法短,验证了A-TD3算法在码垛机器人机械臂轨迹规划应用中的有效性。 展开更多
关键词 机械臂 深度强化学习 改进方位奖励函数 双延迟深度确定性策略梯度 轨迹规划
在线阅读 下载PDF
基于深度强化学习的变步长LMS算法
15
作者 徐君阳 张红梅 张坤 《仪器仪表学报》 北大核心 2025年第2期70-80,共11页
针对定步长LMS算法在收敛速度和稳态误差之间难以取得平衡的问题以及传统变步长算法对初始参数选择依赖程度高、工作量大且存在主观性的缺陷,提出了一种基于深度强化学习的变步长LMS算法。该算法对初始参数的依赖性小,规避了繁琐的调参... 针对定步长LMS算法在收敛速度和稳态误差之间难以取得平衡的问题以及传统变步长算法对初始参数选择依赖程度高、工作量大且存在主观性的缺陷,提出了一种基于深度强化学习的变步长LMS算法。该算法对初始参数的依赖性小,规避了繁琐的调参流程。首先,构建了一个融合深度强化学习和自适应滤波的算法模型,该模型利用深度强化学习智能体控制步长因子的变化,代替了传统变步长算法中用于步长调整的非线性函数,从而规避了繁琐的实验调参流程,降低了算法使用的复杂性。其次,提出了基于误差的状态奖励和基于步长的动作奖励函数,引入动态奖励与负奖励机制,有效提升算法的收敛速度。此外,设计了基于欠完备编码器的网络结构,提高了强化学习策略的推理能力。通过实验验证,相较于其他较新的变步长算法,所提出的算法具有更快的收敛速度和更小的稳态误差,在不同初始参数下均能快速调整至合理的步长值,减少了实验调参的工作量。将训练完成的网络应用到系统辨识、信号去噪以及截流区龙口水域水位信号的滤波等实际领域中,均取得了良好的性能表现,证明了算法具有一定的泛化能力,并进一步证实了其有效性。 展开更多
关键词 变步长LMS算法 深度强化学习 自适应滤波 奖励函数
在线阅读 下载PDF
基于强化学习的多机协同超视距空战决策算法
16
作者 王志刚 龚华军 +1 位作者 尹逸 刘小雄 《南京航空航天大学学报(自然科学版)》 北大核心 2025年第5期831-841,共11页
现代战争中的空战态势复杂多变,因此探索一种快速有效的决策方法十分重要。本文对多架无人机协同对抗问题展开研究,提出一种基于长短期记忆(Long and short-term memory,LSTM)和多智能体深度确定策略梯度(Multi-agent deep deterministi... 现代战争中的空战态势复杂多变,因此探索一种快速有效的决策方法十分重要。本文对多架无人机协同对抗问题展开研究,提出一种基于长短期记忆(Long and short-term memory,LSTM)和多智能体深度确定策略梯度(Multi-agent deep deterministic policy gradient,MADDPG)的多机协同超视距空战决策算法。首先,建立无人机运动模型、雷达探测区模型和导弹攻击区模型。然后,提出了多机协同超视距空战决策算法。设计了集中式训练LSTM-MADDPG分布式执行架构和协同空战系统的状态空间来处理多架无人机之间的同步决策问题;设计了学习率衰减机制来提升网络的收敛速度和稳定性;利用LSTM网络改进了网络结构,增强了网络对战术特征的提取能力;利用基于衰减因子的奖励函数机制加强无人机的协同对抗能力。仿真结果表明所提出的多机协同超视距空战决策算法使无人机具备了协同攻防的能力,同时算法具备良好的稳定性和收敛性。 展开更多
关键词 协同空战决策 多智能体强化学习 混合奖励函数 长短期记忆网络
在线阅读 下载PDF
面向不同粗糙程度地面的四足机器人自适应控制方法
17
作者 张楠杰 陈玉全 +2 位作者 季茂沁 孙运康 王冰 《自动化学报》 北大核心 2025年第7期1585-1598,共14页
针对四足机器人在复杂环境中的高速稳定运动问题,提出一种融合模型和学习的分层运动控制框架.首先,提出基于单次落足点偏差的惩罚机制,实现对连续滑动状态的有效评估.其次,构建基于双曲正切函数的连续接触状态描述,显著改善了传统离散... 针对四足机器人在复杂环境中的高速稳定运动问题,提出一种融合模型和学习的分层运动控制框架.首先,提出基于单次落足点偏差的惩罚机制,实现对连续滑动状态的有效评估.其次,构建基于双曲正切函数的连续接触状态描述,显著改善了传统离散方法中的相位切换冲击问题.然后,设计基于LSTM的地面特性实时估计网络,实现质心位置的自适应调整.最后,提出基于执行层和决策层的分层控制框架,提高系统的环境适应能力.在Isaac Gym仿真环境中的实验表明,该控制方法能够适应不同摩擦系数和运动速度条件.特别是在极低摩擦环境(μ=0.05)下,自适应控制策略通过0.061 0 m的质心高度调整,在维持1.428 4 m/s运动速度的同时,将足端滑动距离控制在0.308±0.005 0 cm,充分验证了所提控制方法的有效性和实用价值. 展开更多
关键词 四足机器人 强化学习 自适应控制策略 奖励函数优化 分层控制框架
在线阅读 下载PDF
融合强化学习和状态机的智能矿卡换道决策研究
18
作者 程宇 谢丽蓉 +3 位作者 卞一帆 杨志勇 胡桂林 闫壮 《金属矿山》 北大核心 2025年第10期191-200,共10页
为提升露天煤矿智能网联矿卡的换道决策性能,提出了一种融合深度强化学习与有限状态机的换道决策方法。首先,构建了一个双层决策框架,上层利用深度Q网络生成初步换道决策,下层通过有限状态机进行安全性约束。其次,引入双重网络和竞争网... 为提升露天煤矿智能网联矿卡的换道决策性能,提出了一种融合深度强化学习与有限状态机的换道决策方法。首先,构建了一个双层决策框架,上层利用深度Q网络生成初步换道决策,下层通过有限状态机进行安全性约束。其次,引入双重网络和竞争网络结构优化DQN性能,有效缓解了Q值过估计问题。然后,基于Gipps安全模型设计了状态转移规则,动态评估换道间隙的安全性。最后,设计了一个多目标奖励函数,综合评价和引导换道行为。在Highway-env平台上进行试验,结果显示,在高交通密度场景下,融合方法换道成功率达81.36%,相比单一DuDQN换道成功率(50.84%)显著提升,碰撞次数减少,行驶稳定性增强。此框架能有效提升决策安全性和效率,对于露天矿运输换道决策具有一定的参考意义。 展开更多
关键词 智能网联矿卡 深度强化学习 有限状态机 换道决策 多目标奖励函数
在线阅读 下载PDF
面向跨海大桥的自动驾驶车辆侧倾控制 被引量:1
19
作者 唐晓峰 李若旭 曹钊 《江苏大学学报(自然科学版)》 北大核心 2025年第2期132-139,148,共9页
针对跨海大桥道路环境的不确定性导致自动驾驶车辆容易发生车辆动力学状态变化的问题,提出了基于深度确定性策略梯度(DDPG)算法的车辆侧倾控制策略,探索了该策略在不同车速下的泛化能力.首先构建了跨海大桥的垂向模型,以提供动态道路环... 针对跨海大桥道路环境的不确定性导致自动驾驶车辆容易发生车辆动力学状态变化的问题,提出了基于深度确定性策略梯度(DDPG)算法的车辆侧倾控制策略,探索了该策略在不同车速下的泛化能力.首先构建了跨海大桥的垂向模型,以提供动态道路环境;其次构建了车辆动力学模型和车辆跟踪误差模型,融合了车辆的侧倾、侧滑和横摆的动力学特性,并构建了侧倾稳定性判据;最后设计了深度确定性策略梯度算法中的状态空间和动作空间,并根据车辆的侧倾状态设计了奖励函数.数值模拟结果表明深度确定性策略梯度算法在每一回合中都会获得良好的性能,具有良好的学习能力和解决不确定性复杂环境问题的能力,确保了车辆侧倾角和横向距离误差在可接受的微小波动范围内,满足车辆控制的安全性. 展开更多
关键词 自动驾驶车辆 跨海大桥 侧倾控制 深度确定性策略梯度算法 奖励函数 状态空间 车辆跟踪误差 侧倾稳定性
在线阅读 下载PDF
基于改进DDQN船舶自动靠泊路径规划方法 被引量:1
20
作者 李康斌 朱齐丹 +1 位作者 牟进友 菅紫婷 《智能系统学报》 北大核心 2025年第1期73-80,共8页
船舶在自动靠泊过程中会受到风、浪、流和岸壁效应等因素的影响,故需要精确的路径规划方法防止靠泊失败。针对全驱动船舶靠泊过程的基于双深度Q网络(double deep Q network,DDQN)算法,设计了一种船舶自动靠泊路径规划方法。首先建立船... 船舶在自动靠泊过程中会受到风、浪、流和岸壁效应等因素的影响,故需要精确的路径规划方法防止靠泊失败。针对全驱动船舶靠泊过程的基于双深度Q网络(double deep Q network,DDQN)算法,设计了一种船舶自动靠泊路径规划方法。首先建立船舶三自由度模型,然后通过将距离、航向、推力、时间和碰撞作为奖励或惩罚,改进奖励函数。随后引入DDQN来学习动作奖励模型,并使用学习结果来操纵船舶运动。通过追求更高的奖励值,船舶可以自行找到最优的靠泊路径。实验结果表明,在不同水流速度下,船舶都可以在完成靠泊的同时减小时间和推力,并且在相同水流速度下,DDQN算法与Q-learning、SARSA(state action reward state action)、深度Q网络(deep Q network,DQN)等算法相比,靠泊过程推力分别减小了241.940、234.614、80.202 N,且时间仅为252.485 s。 展开更多
关键词 自动靠泊 路径规划 深度强化学习 双深度Q网络 奖励函数 水流速度 状态探索 推力 时间 独立重复实验
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部