期刊文献+
共找到147篇文章
< 1 2 8 >
每页显示 20 50 100
改进Q-Learning的路径规划算法研究 被引量:7
1
作者 宋丽君 周紫瑜 +2 位作者 李云龙 侯佳杰 何星 《小型微型计算机系统》 CSCD 北大核心 2024年第4期823-829,共7页
针对Q-Learning算法学习效率低、收敛速度慢且在动态障碍物的环境下路径规划效果不佳的问题,本文提出一种改进Q-Learning的移动机器人路径规划算法.针对该问题,算法根据概率的突变性引入探索因子来平衡探索和利用以加快学习效率;通过在... 针对Q-Learning算法学习效率低、收敛速度慢且在动态障碍物的环境下路径规划效果不佳的问题,本文提出一种改进Q-Learning的移动机器人路径规划算法.针对该问题,算法根据概率的突变性引入探索因子来平衡探索和利用以加快学习效率;通过在更新函数中设计深度学习因子以保证算法探索概率;融合遗传算法,避免陷入局部路径最优同时按阶段探索最优迭代步长次数,以减少动态地图探索重复率;最后提取输出的最优路径关键节点采用贝塞尔曲线进行平滑处理,进一步保证路径平滑度和可行性.实验通过栅格法构建地图,对比实验结果表明,改进后的算法效率相较于传统算法在迭代次数和路径上均有较大优化,且能够较好的实现动态地图下的路径规划,进一步验证所提方法的有效性和实用性. 展开更多
关键词 移动机器人 路径规划 Q-learning算法 平滑处理 动态避障
在线阅读 下载PDF
基于改进Q-Learning的移动机器人路径规划算法 被引量:3
2
作者 王立勇 王弘轩 +2 位作者 苏清华 王绅同 张鹏博 《电子测量技术》 北大核心 2024年第9期85-92,共8页
随着移动机器人在生产生活中的深入应用,其路径规划能力也需要向快速性和环境适应性兼备发展。为解决现有移动机器人使用强化学习方法进行路径规划时存在的探索前期容易陷入局部最优、反复搜索同一区域,探索后期收敛率低、收敛速度慢的... 随着移动机器人在生产生活中的深入应用,其路径规划能力也需要向快速性和环境适应性兼备发展。为解决现有移动机器人使用强化学习方法进行路径规划时存在的探索前期容易陷入局部最优、反复搜索同一区域,探索后期收敛率低、收敛速度慢的问题,本研究提出一种改进的Q-Learning算法。该算法改进Q矩阵赋值方法,使迭代前期探索过程具有指向性,并降低碰撞的情况;改进Q矩阵迭代方法,使Q矩阵更新具有前瞻性,避免在一个小区域中反复探索;改进随机探索策略,在迭代前期全面利用环境信息,后期向目标点靠近。在不同栅格地图仿真验证结果表明,本文算法在Q-Learning算法的基础上,通过上述改进降低探索过程中的路径长度、减少抖动并提高收敛的速度,具有更高的计算效率。 展开更多
关键词 路径规划 强化学习 移动机器人 Q-learning算法 ε-decreasing策略
在线阅读 下载PDF
基于生成对抗网络与长短时记忆网络的机器人书法系统
3
作者 韩浩 刘佳 《西南大学学报(自然科学版)》 北大核心 2025年第7期231-244,共14页
机器人书法作为工业制造中重要的机器人操纵器应用之一,面临着巨大的挑战,其主动书写机制需要大量包含书写轨迹序列信息的训练数据集,而手动标注这些数据则非常繁琐。为解决这一问题,提出了一种基于生成对抗网络(GAN)和长短时记忆网络(L... 机器人书法作为工业制造中重要的机器人操纵器应用之一,面临着巨大的挑战,其主动书写机制需要大量包含书写轨迹序列信息的训练数据集,而手动标注这些数据则非常繁琐。为解决这一问题,提出了一种基于生成对抗网络(GAN)和长短时记忆网络(LSTM)的机器人书法系统。该书写系统将汉字笔画图像转换为轨迹序列,无须使用笔画轨迹编码信息,克服了传统书写轨迹信息缺失的问题。首先构建了一个生成对抗架构,其中LSTM网络与鉴别器网络结合,以减小训练数据集的规模。然后,LSTM网络通过多个循环逐步生成新的轨迹点,使机器人能够逐渐完成整个汉字书法的书写。最后,利用鉴别器网络评估LSTM网络输出结果来辅助机器人找到最佳策略,并引入强化学习算法来进一步提高系统性能。实验结果证明,所提出的系统能够高效产生高质量的汉字书法。 展开更多
关键词 生成对抗网络 长短时记忆网络 强化学习 汉字书法 机器人书法系统
在线阅读 下载PDF
未知环境下基于突变定位SAC算法的移动机器人路径规划
4
作者 胡立坤 韦春有 《计算机应用研究》 北大核心 2025年第2期455-461,共7页
针对缺乏完整环境信息的条件下移动机器人局部路径规划算法性能提升及深度强化学习智能体训练速度慢的问题,提出了突变定位算法和改进的soft actor-critic(SAC)算法,并将两者结合为突变定位SAC算法。突变定位算法能够在缺乏完备环境信... 针对缺乏完整环境信息的条件下移动机器人局部路径规划算法性能提升及深度强化学习智能体训练速度慢的问题,提出了突变定位算法和改进的soft actor-critic(SAC)算法,并将两者结合为突变定位SAC算法。突变定位算法能够在缺乏完备环境信息的情况下计算子目标点位置,减少移动机器人规划路径的长度。同时,通过引入基于虚拟势场的critic网络改进损失函数和多阶段训练方法,提高SAC智能体的训练速度。实验结果表明,与DDPG、SAC、PER-SAC和HER-TD3相比,突变定位SAC算法在训练时间上分别减少了46.68%、39.50%、20.18%和27.79%。此外,突变定位SAC算法在不同环境下规划路径的长度平均减少了13.71%、10.26%、10.90%和15.89%。 展开更多
关键词 移动机器人 路径规划 深度强化学习算法 SAC算法 激光雷达 未知环境
在线阅读 下载PDF
基于人工势场的防疫机器人改进近端策略优化算法
5
作者 伍锡如 沈可扬 《智能系统学报》 北大核心 2025年第3期689-698,共10页
针对防疫机器人在复杂医疗环境中的路径规划与避障效果差、学习效率低的问题,提出一种基于人工势场的改进近端策略优化(proximal policy optimization,PPO)路径规划算法。根据人工势场法(artificial potential field,APF)构建障碍物和... 针对防疫机器人在复杂医疗环境中的路径规划与避障效果差、学习效率低的问题,提出一种基于人工势场的改进近端策略优化(proximal policy optimization,PPO)路径规划算法。根据人工势场法(artificial potential field,APF)构建障碍物和目标节点的势场,定义防疫机器人的动作空间与安全运动范围,解决防疫机器人运作中避障效率低的问题。为解决传统PPO算法的奖励稀疏问题,将人工势场因子引入PPO算法的奖励函数,提升算法运行中的奖励反馈效率。改进PPO算法网络模型,增加隐藏层和Previous Actor网络,提高了防疫机器人的灵活性与学习感知能力。最后,在静态和动态仿真环境中对算法进行对比实验,结果表明本算法能更快到达奖励峰值,减少冗余路径,有效完成避障和路径规划决策。 展开更多
关键词 PPO算法 人工势场 路径规划 防疫机器人 深度强化学习 动态环境 安全性 奖励函数
在线阅读 下载PDF
基于强化学习与遗传算法的机器人并行拆解序列规划方法 被引量:2
6
作者 汪开普 马晓艺 +2 位作者 卢超 殷旅江 李新宇 《国防科技大学学报》 北大核心 2025年第2期24-34,共11页
在拆解序列规划问题中,为了提高拆解效率、降低拆解能耗,引入了机器人并行拆解模式,构建了机器人并行拆解序列规划模型,并设计了基于强化学习的遗传算法。为了验证模型的正确性,构造了混合整数线性规划模型。算法构造了基于目标导向的... 在拆解序列规划问题中,为了提高拆解效率、降低拆解能耗,引入了机器人并行拆解模式,构建了机器人并行拆解序列规划模型,并设计了基于强化学习的遗传算法。为了验证模型的正确性,构造了混合整数线性规划模型。算法构造了基于目标导向的编解码策略,以提高初始解的质量;采用Q学习来选择算法迭代过程中的最佳交叉策略和变异策略,以增强算法的自适应能力。在一个34项任务的发动机拆解案例中,通过与四种经典多目标算法对比,验证了所提算法的优越性;分析所得拆解方案,结果表明机器人并行拆解模式可以有效缩短完工时间,并降低拆解能耗。 展开更多
关键词 拆解序列规划 机器人并行拆解 混合整数线性规划模型 遗传算法 强化学习
在线阅读 下载PDF
考虑进站策略的网联电动公交车节能驾驶优化研究
7
作者 南斯睿 于谦 +2 位作者 李铁柱 尚赞娣 陈海波 《交通运输系统工程与信息》 北大核心 2025年第2期82-94,共13页
针对公交车在进出站和信号交叉口高能耗的问题,本文提出一种考虑进站策略的节能驾驶优化方法。首先,基于利用城市交通能力仿真(Simulation of Urban Mobility, SUMO)平台搭建智能网联场景,构建能够反映能耗、行驶效率和安全性的强化学... 针对公交车在进出站和信号交叉口高能耗的问题,本文提出一种考虑进站策略的节能驾驶优化方法。首先,基于利用城市交通能力仿真(Simulation of Urban Mobility, SUMO)平台搭建智能网联场景,构建能够反映能耗、行驶效率和安全性的强化学习复合奖励函数;其次,将进站策略和预设交通规则作为约束集成于柔性演员-评论家(Soft Actor-Critic, SAC)深度强化学习框架中,优化车辆进出站及接近信号交叉口的轨迹;最后,以实际行驶、基于深度Q网络(Deep Q-Network, DQN)算法常规、基于SAC算法、基于规则约束和DQN算法(DQN-ruled)的优化方法作为基准方案,与本文提出的基于规则约束和SAC算法(SAC-ruled)的优化方法进行对比。结果表明:通过SAC-ruled算法优化后的驾驶轨迹在多种场景下均优于基准方案。在跟驰运动中,与基准方案相比,所设计的节能驾驶优化方法较基准方案的车辆能耗最高减少35.97%,行驶时间提升21.67%;在换道运动中,车辆能耗最多可降低41.40%,行驶时间提升16.94%。此外,通过敏感性分析验证,本文提出的基于SAC-ruled算法的节能驾驶优化方法在应对车流量波动方面表现出更强的适应性。本文建立的节能驾驶优化模型可集成节能辅助驾驶系统,鼓励驾驶员主动节能。 展开更多
关键词 智能交通 节能驾驶优化 深度强化学习 纯电动公交 柔性演员-评论家算法
在线阅读 下载PDF
核能领域智能设计优化的需求与应用分析
8
作者 谭思超 程家豪 +2 位作者 李桐 李江宽 田瑞峰 《原子能科学技术》 北大核心 2025年第7期1373-1385,I0002,共14页
人工智能技术已在多个工业领域的设计优化中得到广泛应用,作为核能产业链的源头关键环节,智能化的设计优化正成为人工智能与核能技术深度融合的重要节点,然而核能系统设计优化长期受限于安全约束刚性、多物理场强耦合及专家经验依赖等瓶... 人工智能技术已在多个工业领域的设计优化中得到广泛应用,作为核能产业链的源头关键环节,智能化的设计优化正成为人工智能与核能技术深度融合的重要节点,然而核能系统设计优化长期受限于安全约束刚性、多物理场强耦合及专家经验依赖等瓶颈,核能领域的智能设计较核工业界期望的智能化图景仍有一定距离。本文结合核能领域的设计优化需求与智能优化原理,从物理组成优化与功能流程优化两方面归纳总结了设计优化的研究与应用现状,通过参考和对比其他前沿行业在智能设计方面的先进研究案例,梳理当前核能领域设计优化方面的核心技术障碍,总结出针对核能特性的牵引技术与突破路径,为破解核能领域智能设计应用进程缓慢的困境提供理论指引与参考。 展开更多
关键词 人工智能 核能工程设计 启发式算法 强化学习
在线阅读 下载PDF
GA-XGBoost模型对路基压实质量的预测
9
作者 赖建平 赵辉 +1 位作者 王东升 冯怀平 《哈尔滨工业大学学报》 北大核心 2025年第7期33-41,共9页
为提升智能压实(intelligent compaction,IC)质量的实时检测与评价精度,提出一种基于GA-XGBoost模型的连续压实质量预测方法,以提高动态变形模量(E vd)的预测精度。模型以动态变形模量为目标,建立机器学习模型,主要采用决策树算法,构建X... 为提升智能压实(intelligent compaction,IC)质量的实时检测与评价精度,提出一种基于GA-XGBoost模型的连续压实质量预测方法,以提高动态变形模量(E vd)的预测精度。模型以动态变形模量为目标,建立机器学习模型,主要采用决策树算法,构建XGBoost模型对压实质量进行预测分析。通过引入遗传算法(genetic algorithm,GA)对模型超参数寻优,以提高模型的预测精度和可靠性。首先,通过现场工程试验,测量压路机碾压时振动加速度,分析加速度信号,计算信号统计量并采用快速傅里叶变换(FFT)得出谐波频率,初步建立各项特征因子与E vd之间的系统联系;其次,筛选各个时频域特征,进行相关性分析,选用相关性较高的特征来建立预测模型;最后,验证了GA-XGBoost预测模型可以较好的预测E vd。研究结果表明:遗传算法(GA)可以高效地确定XGBoost算法的超参数,且较单一的XGBoost模型表现出更优的收敛速度;通过优化特征因子,改变输入参数,提高了GA-XGBoost模型的预测精度,优化后均方误差为3.9%,相关系数为0.748;同时对比了传统CMV拟合E vd的方法,该机器学习模型可以大幅度提高预测精度。 展开更多
关键词 智能压实 机器学习 XGBoost算法 遗传算法 动态变形模量 时域特征
在线阅读 下载PDF
基于改进深度强化学习算法的农业机器人路径规划
10
作者 赵威 张万枝 +4 位作者 侯加林 侯瑞 李玉华 赵乐俊 程进 《浙江大学学报(工学版)》 北大核心 2025年第7期1492-1503,共12页
农业机器人采用深度强化学习算法进行路径规划时存在难以找到目标点、稀疏奖励、收敛缓慢等问题,为此提出基于多目标点导航融合改进深度Q网络算法(MPN-DQN)的路径规划方法.利用激光同步定位与建图(SLAM)扫描全局环境以构建先验地图,划... 农业机器人采用深度强化学习算法进行路径规划时存在难以找到目标点、稀疏奖励、收敛缓慢等问题,为此提出基于多目标点导航融合改进深度Q网络算法(MPN-DQN)的路径规划方法.利用激光同步定位与建图(SLAM)扫描全局环境以构建先验地图,划分行走行和作物行区域;对地图边界进行膨胀拟合处理,形成前向弓字形作业走廊.利用中间目标点分割全局环境,将复杂环境划分为多阶段短程导航环境以简化目标点搜索过程.从动作空间、探索策略和奖励函数3个方面改进深度Q网络算法以改善奖励稀疏问题,加快算法收敛速度,提高导航成功率.实验结果表明,搭载MPN-DQN的农业机器人自主行驶的总碰撞次数为1,平均导航时间为104.27 s,平均导航路程为16.58 m,平均导航成功率为95%. 展开更多
关键词 深度强化学习 农业机器人 中间目标点 多目标点导航融合改进深度Q网络算法(MPN-DQN) 路径规划
在线阅读 下载PDF
基于GA-Q-learning算法的虚拟维修作业规划模型 被引量:1
11
作者 焦玉民 王强 +2 位作者 徐婷 谢庆华 王海涛 《兵工学报》 EI CAS CSCD 北大核心 2013年第5期627-633,共7页
针对虚拟维修环境中任务执行过程存在的不确定性和随机性问题,提出了一种基于Q学习算法的作业策略规划模型,该方法将虚拟维修过程转化为选取不同动作参与状态转移的过程。在该过程中,采用试错机制和逆向求解的方法求解动作策略规划问题... 针对虚拟维修环境中任务执行过程存在的不确定性和随机性问题,提出了一种基于Q学习算法的作业策略规划模型,该方法将虚拟维修过程转化为选取不同动作参与状态转移的过程。在该过程中,采用试错机制和逆向求解的方法求解动作策略规划问题,并将任务特征匹配机制和顺序约束机制作为启发机制,保证策略学习过程中持续进化可行策略;在进化过程中,将动作因子赋予概率值,并采用遗传算法(GA)进化动作因子的概率分布,避免了策略学习过程中强化早期Q值较高的动作,为求解虚拟维修的最佳作业流程提供了一种行之有效的解决方法。将该方法应用于轮式挖掘机虚拟维修训练系统中,仿真结果表明,正确的动作在作业策略迭代过程中均能够获得较高的Q值,验证了方法的可行性和实用性。 展开更多
关键词 人工智能 虚拟维修 Q学习 遗传算法 作业规划
在线阅读 下载PDF
机械臂新型固定时间非奇异终端滑模控制
12
作者 杨佳 杨理 +2 位作者 许强 余希瑞 吴佩林 《重庆理工大学学报(自然科学)》 北大核心 2025年第1期83-92,共10页
针对初始状态未知的机械臂实际运行时,存在外界未知扰动、建模误差等非线性因素,导致机械臂无法进行精准快速工作的问题,提出基于固定时间算法的机械臂优化NTSMC方案。构造新的分段滑动变量来解决终端滑模控制带来的奇异性问题,并在固... 针对初始状态未知的机械臂实际运行时,存在外界未知扰动、建模误差等非线性因素,导致机械臂无法进行精准快速工作的问题,提出基于固定时间算法的机械臂优化NTSMC方案。构造新的分段滑动变量来解决终端滑模控制带来的奇异性问题,并在固定时间内获得更快的收敛速度。为了实时逼近和补偿模型不确定性及外部扰动,采用基于actor-critic架构的强化学习算法。设计辅助系统缓解输入饱和问题,通过对比实验验证了所提方法的优越性和实用性,在相同控制参数下具有更快的固定时间内收敛速度和较高的控制精度。 展开更多
关键词 机械臂 固定时间算法 NTSMC 强化学习
在线阅读 下载PDF
基于改进Agent的空域管制扇区划设方法
13
作者 支博 田勇 +2 位作者 梁满佳 黄潇 吕越 《科学技术与工程》 北大核心 2025年第7期3035-3043,共9页
为解决传统基于主观经验人为划设的扇区所存在的空域资源分配不均问题,满足如今空中交通运行需求,通过改进Agent方法,研究终端区三维扇区划设问题。首先,在满足传统扇区划设约束条件下,以提高扇区同交通流适应性,降低并均衡管制负荷为目... 为解决传统基于主观经验人为划设的扇区所存在的空域资源分配不均问题,满足如今空中交通运行需求,通过改进Agent方法,研究终端区三维扇区划设问题。首先,在满足传统扇区划设约束条件下,以提高扇区同交通流适应性,降低并均衡管制负荷为目标;随后,通过使用遗传算法确定Agent初始解位置以提高计算效率、设计优化Agent生长规则与空域填充规则方式改进传统Agent方法;最后,以上海终端区内数据进行实例分析验证,结果表明:相比现行与传统Agent方法所得扇区划设方案,改进Agent方法能够分别提升25.84%、18.54%的扇区形状特征与空中交通流适应性;同时在降低终端区管制负荷总和基础上,可将各扇区间管制负荷标准差分别降低53.33%、36.58%。可见基于改进Agent的空域管制扇区划设方法为中国本土特色化空域规划提供参考性意见。 展开更多
关键词 空中交通管理 扇区划设 AGENT模型 启发式算法 强化学习
在线阅读 下载PDF
IRS增强的UAV机会接入宽带CR系统资源分配与安全优化
14
作者 赵国兴 刘富辉 +2 位作者 晏子祥 吴伟 田峰 《南京邮电大学学报(自然科学版)》 北大核心 2025年第3期38-47,共10页
提出了一种智能反射面(Intelligent Reflecting Surface,IRS)增强的无人机(Unmanned Aerial Vehicle,UAV)机会接入宽带认知无线电(Cognitive Radio,CR)系统,以提升系统频谱效率并确保物理层安全(Physical Layer Security,PLS)。通过联... 提出了一种智能反射面(Intelligent Reflecting Surface,IRS)增强的无人机(Unmanned Aerial Vehicle,UAV)机会接入宽带认知无线电(Cognitive Radio,CR)系统,以提升系统频谱效率并确保物理层安全(Physical Layer Security,PLS)。通过联合优化UAV的波束赋形和飞行轨迹、IRS的反射系数、用户和IRS的关联选择、子载波选择及感知时间,在满足主用户可容忍最大干扰和次级用户最小安全速率需求的前提下,最大化次级网络的和安全速率。由于包含整数规划约束、非线性约束以及优化变量之间的相互耦合,因此导致问题高度非凸。为此,采用了深度强化学习(Deep Rein‑forcement Learning,DRL)算法,包括决斗双重深度Q网络(Dueling Double Deep Q Network,D3QN)算法和软性演员-评论家(Soft Actor‑Critic,SAC)算法。该方法能够高效处理复杂的混合变量优化问题,以提高算法的稳定性和收敛速度,确保在动态环境中获得更优的资源分配和通信安全性能。仿真结果表明,所提方法在通信安全和频谱效率方面显著优于基准方案。IRS、UAV和CR技术的引入显著提升了系统的频谱利用率和用户的安全速率。此外,所提方法在动态环境中展现了较高的稳定性和快速的收敛速度。 展开更多
关键词 智能反射面 增强无人机 机会接入 认知无线电 物理层安全 深度强化学习算法
在线阅读 下载PDF
吉木萨尔凹陷页岩油储层压裂参数智能优化方法
15
作者 王云金 周福建 +5 位作者 苏航 郑乐怡 李明辉 于馥玮 李源 梁天博 《石油勘探与开发》 北大核心 2025年第3期734-743,共10页
针对准噶尔盆地吉木萨尔凹陷页岩油压裂效果预测精度差、参数优化困难等问题,研发页岩油储层压裂参数智能优化技术,并开展现场应用。建立能够自动抓取、存储、调用和分析的自治理数据库,筛选并分析22个地质、工程变量间的相关关系。提... 针对准噶尔盆地吉木萨尔凹陷页岩油压裂效果预测精度差、参数优化困难等问题,研发页岩油储层压裂参数智能优化技术,并开展现场应用。建立能够自动抓取、存储、调用和分析的自治理数据库,筛选并分析22个地质、工程变量间的相关关系。提出分离式压裂效果预测模型,将压裂学习曲线分解为整体趋势和局部波动两部分:结合卷积神经网络局部连接、参数共享的特点与门控循环单元能够解决梯度消失的优势,构建卷积神经网络-门控循环单元算法,实现整体趋势的预测;利用自适应增强算法集成策略动态调整随机森林权重,实现局部波动的预测。设计策略梯度-遗传-粒子群算法,该算法在迭代过程中能够自适应调整惯性权重和学习因子,显著提升寻优策略的优化能力。将压裂效果预测与寻优策略相结合,实现了压裂参数的智能优化。经现场试验验证,该方法对油井压裂效果提升显著,具有较好的实用性。 展开更多
关键词 吉木萨尔凹陷 页岩油 压裂参数 学习曲线 智能优化 强化学习 粒子群算法
在线阅读 下载PDF
动态车辆网络场景中的协同空地计算卸载和资源优化
16
作者 王俊华 罗菲 +1 位作者 高广鑫 李斌 《电子与信息学报》 北大核心 2025年第1期102-115,共14页
针对移动用户数量迅猛增长和地面基础设施分布稀疏所带来的挑战,该文提出一种能量收集辅助的空地协同计算卸载架构。该架构充分利用无人机(UAVs)的灵活机动性和路侧单元(RSUs)及基站(BS)的强大算力,实现了任务计算的动态实时分发。特别... 针对移动用户数量迅猛增长和地面基础设施分布稀疏所带来的挑战,该文提出一种能量收集辅助的空地协同计算卸载架构。该架构充分利用无人机(UAVs)的灵活机动性和路侧单元(RSUs)及基站(BS)的强大算力,实现了任务计算的动态实时分发。特别地,无人机通过能量收集来维持其持续运行和稳定的计算性能。考虑到无人机与地面车辆的高动态性、车辆计算任务的随机性,以及信道模型的时变性,提出一个能耗受限的长期优化问题,旨在从全局角度有效降低整个系统的平均时延。为了解决这一复杂的混合整数规划(MIP)问题,提出一种基于改进演员-评论家(Actor-Critic)强化学习算法的计算卸载策略(IACA)。该算法运用李雅普诺夫优化技术,将长期系统时延优化问题分解为一系列易于处理的帧级子问题。然后,利用遗传算法计算目标Q值替代目标神经网络输出以调整强化学习进化方向,有效避免了算法陷入局部最优,从而实现动态车辆网络中的高效卸载和资源优化。通过综合仿真验证了所提计算卸载架构和算法的可行性和优越性。 展开更多
关键词 空地一体化车联网 能量收集 计算卸载 强化学习 遗传算法
在线阅读 下载PDF
基于深度强化学习的无人机博弈路径规划
17
作者 薛均晓 张世文 +2 位作者 陆亚飞 严笑然 付玮 《郑州大学学报(理学版)》 北大核心 2025年第4期8-14,共7页
针对深度强化学习方法在复杂环境下面对无人机博弈任务时学习效率较低的问题,提出了知识和数据联合驱动的深度强化学习模型。首先,借鉴了模仿学习的思想,将遗传算法作为启发式搜索策略,并收集专家经验知识;其次,通过深度强化学习与环境... 针对深度强化学习方法在复杂环境下面对无人机博弈任务时学习效率较低的问题,提出了知识和数据联合驱动的深度强化学习模型。首先,借鉴了模仿学习的思想,将遗传算法作为启发式搜索策略,并收集专家经验知识;其次,通过深度强化学习与环境进行交互,收集在线经验数据;最后,构建了知识和数据联合驱动的深度强化学习模型,用于优化无人机博弈策略。实验结果表明,所提模型有效提升了收敛速度和学习稳定性,经过训练的智能体具有较好的自主博弈路径规划能力。 展开更多
关键词 深度强化学习 无人机博弈 路径规划 遗传算法
在线阅读 下载PDF
基于改进TD3的四足机器人非结构化地形运动控制
18
作者 谢子健 秦建军 曹钰 《现代制造工程》 北大核心 2025年第1期33-41,共9页
四足机器人在非结构化地形的运动控制高度依赖于复杂的动力学模型和控制器设计,利用深度强化学习方法设计四足机器人控制器已成为趋势。针对在深度强化学习训练过程中收敛较慢、容易陷入局部最优解及计算资源消耗较大等问题,提出一种融... 四足机器人在非结构化地形的运动控制高度依赖于复杂的动力学模型和控制器设计,利用深度强化学习方法设计四足机器人控制器已成为趋势。针对在深度强化学习训练过程中收敛较慢、容易陷入局部最优解及计算资源消耗较大等问题,提出一种融合记忆组件的双延迟深度确定性策略梯度(Memory-integrated Twin Delayed Deep Deterministic policy gradient,M-TD3)算法。首先,对四足机器人以及非结构化地形建模;其次,分析M-TD3算法收敛状态与学习效率;最后,为验证控制器性能,针对多种地形进行运动控制仿真对比并制作样机进行测试。仿真结果表明,相较于传统TD3算法,M-TD3算法收敛更快,效率更高,运动控制性能有显著改善,样机测试结果证明基于改进TD3算法所设计的控制器能够让四足机器人在非结构化地形进行有效的运动越障。 展开更多
关键词 四足机器人 非结构化地形 深度强化学习 TD3算法
在线阅读 下载PDF
面向高动态城市空中交通网络的多径智能传输策略
19
作者 王煜婷 冷甦鹏 熊凯 《电信科学》 北大核心 2025年第3期64-72,共9页
飞行汽车作为低空经济的重要载体,对于大力发展城市空中交通、构建高效的低空智联网具有十分重要的作用。然而,灵活和广泛的飞行范围导致飞行汽车网络通信链路不稳定,网络拓扑动态变化。针对这些问题,提出了一种多径智能传输策略,以实... 飞行汽车作为低空经济的重要载体,对于大力发展城市空中交通、构建高效的低空智联网具有十分重要的作用。然而,灵活和广泛的飞行范围导致飞行汽车网络通信链路不稳定,网络拓扑动态变化。针对这些问题,提出了一种多径智能传输策略,以实现高效的数据传输。首先提出了一种基于强化学习的多径智能路由算法,该算法不仅能有效提升路由效率、降低路由时延,还能够根据不同的传输需求动态划分数据包,以适应物理环境的变化。为进一步提高路由算法对动态环境的适应性,设计了一种环境检验机制来判断当前路由策略与动态网络的匹配程度,实现了在路由过程中自适应地调整路由策略。仿真实验表明,在不同情境下,基于强化学习的多径智能传输策略在有效降低端到端传输时延的同时,还提高了数据成功恢复的概率。 展开更多
关键词 飞行汽车 多径智能路由算法 动态网络 强化学习 城市空中交通
在线阅读 下载PDF
面向触觉识别的神经结构搜索算法
20
作者 邹子超 李玉良 +1 位作者 陈萌 马飞红 《哈尔滨工程大学学报》 北大核心 2025年第6期1209-1217,共9页
针对手工设计神经网络需要耗费一定时间和精力的问题,本文提出了一种基于自学习遗传算法的两级式神经结构搜索算法,并应用于触觉识别领域。设计了一种自学习遗传算法,利用强化学习优化遗传算法的选择、交叉和变异算子,以求遗传算法加速... 针对手工设计神经网络需要耗费一定时间和精力的问题,本文提出了一种基于自学习遗传算法的两级式神经结构搜索算法,并应用于触觉识别领域。设计了一种自学习遗传算法,利用强化学习优化遗传算法的选择、交叉和变异算子,以求遗传算法加速收敛,并在陷入局部最优时跳出局部最优;基于自学习遗传算法,提出了两级式神经网络结构搜索算法,用于搜索适合处理触觉时序数据的卷积神经网络和循环神经网络串联模型,且为卷积神经网络和循环神经网络模块引入了层间残差连接以解决网络退化问题,并使用公开触觉数据集对算法进行了实验验证。自建包含22类实验样品的触觉数据集,基于数据集进行了搜索算法实验,并对搜索得到的最优网络进行了分类识别测试,识别准确率为96.81%,与长短期记忆网络、门控循环单元网络和卷积神经网络与长短记忆网络串联模型进行对比,对比结果显示:本文搜索算法搜索出的网络性能更加优异,识别率更高,进一步证明了算法的有效性。 展开更多
关键词 神经网络结构搜索 触觉识别 强化学习 遗传算法 卷积神经网络和循环神经网络串联模型 触觉传感器 卷积神经网络与循环神经网络串联模型 层间残差连接循环神经网络模型
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部