期刊文献+
共找到609篇文章
< 1 2 31 >
每页显示 20 50 100
基于深度强化学习的游戏智能引导算法 被引量:2
1
作者 白天 吕璐瑶 +1 位作者 李储 何加亮 《吉林大学学报(理学版)》 北大核心 2025年第1期91-98,共8页
针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输... 针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输入数据量;其次,通过精细化设计奖励机制,加速模型的收敛过程;最后,从主观定性和客观定量两方面对该算法模型与现有方法进行对比实验,实验结果表明,该算法不仅显著提高了模型的训练效率,还大幅度提高了智能体的性能. 展开更多
关键词 深度强化学习 游戏智能体 奖励函数塑形 近端策略优化算法
在线阅读 下载PDF
一种进化梯度引导的强化学习算法
2
作者 许斌 练元洪 +2 位作者 卞鸿根 刘丹 亓晋 《南京邮电大学学报(自然科学版)》 北大核心 2025年第1期99-105,共7页
进化算法(Evolutionary Algorithm,EA)和深度强化学习(Deep Reinforcement Learning,DRL)的组合被认为能够结合二者的优点,即EA的强大随机搜索能力和DRL的样本效率,实现更好的策略学习。然而,现有的组合方法存在EA引入所导致的策略性能... 进化算法(Evolutionary Algorithm,EA)和深度强化学习(Deep Reinforcement Learning,DRL)的组合被认为能够结合二者的优点,即EA的强大随机搜索能力和DRL的样本效率,实现更好的策略学习。然而,现有的组合方法存在EA引入所导致的策略性能不可预测性问题。提出自适应历史梯度引导机制,其利用历史梯度信息,找到平衡探索和利用的线索,从而获得较为稳定的高质量策略,进一步将此机制融合经典的进化强化学习算法,提出一种进化梯度引导的强化学习算法(Evolutionary Gradient Guided Reinforcement Learning,EGG⁃RL)。在连续控制任务方面的实验表明,EGG⁃RL的性能表现优于其他方法。 展开更多
关键词 CEM⁃RL 深度强化学习 进化算法 历史梯度
在线阅读 下载PDF
基于随机对称搜索的进化强化学习算法
3
作者 邸剑 万雪 姜丽梅 《计算机工程与科学》 北大核心 2025年第5期912-920,共9页
进化算法的引入极大地提高了强化学习算法的性能。然而,现有的基于进化强化学习ERL的算法还存在易陷入欺骗性奖励、易收敛到局部最优和稳定性差的问题。为了解决这些问题,提出了一种随机对称搜索策略,直接作用于策略网络参数,在策略网... 进化算法的引入极大地提高了强化学习算法的性能。然而,现有的基于进化强化学习ERL的算法还存在易陷入欺骗性奖励、易收敛到局部最优和稳定性差的问题。为了解决这些问题,提出了一种随机对称搜索策略,直接作用于策略网络参数,在策略网络参数中心的基础上由最优策略网络参数指导全局策略网络参数优化更新,同时辅以梯度优化,引导智能体进行多元探索。在MuJoCo的5个机器人运动连续控制任务中的实验结果表明,提出的算法性能优于以前的进化强化学习算法,且具有更快的收敛速度。 展开更多
关键词 深度强化学习 进化算法 进化强化学习 随机对称搜索
在线阅读 下载PDF
基于强化学习与遗传算法的机器人并行拆解序列规划方法 被引量:2
4
作者 汪开普 马晓艺 +2 位作者 卢超 殷旅江 李新宇 《国防科技大学学报》 北大核心 2025年第2期24-34,共11页
在拆解序列规划问题中,为了提高拆解效率、降低拆解能耗,引入了机器人并行拆解模式,构建了机器人并行拆解序列规划模型,并设计了基于强化学习的遗传算法。为了验证模型的正确性,构造了混合整数线性规划模型。算法构造了基于目标导向的... 在拆解序列规划问题中,为了提高拆解效率、降低拆解能耗,引入了机器人并行拆解模式,构建了机器人并行拆解序列规划模型,并设计了基于强化学习的遗传算法。为了验证模型的正确性,构造了混合整数线性规划模型。算法构造了基于目标导向的编解码策略,以提高初始解的质量;采用Q学习来选择算法迭代过程中的最佳交叉策略和变异策略,以增强算法的自适应能力。在一个34项任务的发动机拆解案例中,通过与四种经典多目标算法对比,验证了所提算法的优越性;分析所得拆解方案,结果表明机器人并行拆解模式可以有效缩短完工时间,并降低拆解能耗。 展开更多
关键词 拆解序列规划 机器人并行拆解 混合整数线性规划模型 遗传算法 强化学习
在线阅读 下载PDF
动态环境下共融机器人深度强化学习导航算法 被引量:1
5
作者 顾金浩 况立群 +2 位作者 韩慧妍 曹亚明 焦世超 《计算机工程与应用》 北大核心 2025年第4期90-98,共9页
在过去的几十年里,移动服务机器人的导航算法得到了广泛研究,但智能体仍然缺乏人类在拥挤环境中展现出的复杂性和合作性。随着人机共融的应用不断拓展,机器人和人类共享工作空间的协作将愈发重要,因此下一代移动服务机器人需要符合社交... 在过去的几十年里,移动服务机器人的导航算法得到了广泛研究,但智能体仍然缺乏人类在拥挤环境中展现出的复杂性和合作性。随着人机共融的应用不断拓展,机器人和人类共享工作空间的协作将愈发重要,因此下一代移动服务机器人需要符合社交要求,才能被人类接受。为了提升多智能体在动态场景中的自主导航能力,针对多智能体导航中社会适应性低和寻找最优值函数问题,提出了一种动态环境下共融机器人深度强化学习避障算法。建立了更贴近人类行为的运动模型并将其添加到深度强化学习框架中,用于提高共融机器人的合作性;为了在行人物理安全的基础上提升其感知安全,重新制定了奖励函数;利用非线性深度神经网络代替传统的值函数,解决寻找最优值函数问题。仿真实验显示,相较于最新的深度强化学习导航方法,该方法在不增加导航时间的情况下实现了100%的导航成功率,且没有发生任何碰撞。结果表明,该方法使共融机器人最大限度地满足人类的社交原则,同时朝着目标前进,有效提高了行人的感知安全。 展开更多
关键词 服务机器人 避障算法 深度强化学习 最优值函数 奖励函数
在线阅读 下载PDF
基于改进深度强化学习算法的自动电压调节器控制 被引量:1
6
作者 阮柏松 刘利 +3 位作者 顾阳 刘琦 王涵 赵晶晶 《电力系统及其自动化学报》 北大核心 2025年第6期150-158,共9页
为适应大容量同步发电机组并网点母线电压波动增加对自动电压调节器(automatic voltage regulator,AVR)系统响应能力的更高要求,提出一种基于含探索网络的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient wi... 为适应大容量同步发电机组并网点母线电压波动增加对自动电压调节器(automatic voltage regulator,AVR)系统响应能力的更高要求,提出一种基于含探索网络的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient with Explorer network,TD3EN)算法的同步发电机励磁电压控制方法。首先,通过传递函数对同步发电机励磁调压子系统进行建模;然后建立TD3EN算法探索网络、动作网络和评价网络,并设置相应参数;接着利用TD3EN算法训练智能体,通过探索网络探索动作空间,并根据评价网络更新动作网络参数,使其为AVR提供控制信号;将训练完成的智能体接入AVR系统,实现对发电机机端电压的控制。仿真结果表明,所提方法提高了AVR系统响应调节指令和应对电压暂降的能力。 展开更多
关键词 双延迟深度确定性策略梯度算法 探索网络 深度强化学习 同步发电机 自动电压调节器
在线阅读 下载PDF
基于深度强化学习的离散状态转移算法求解柔性作业车间调度问题
7
作者 朱家政 王聪 +2 位作者 李新凯 董颖超 张宏立 《北京航空航天大学学报》 北大核心 2025年第4期1385-1394,共10页
柔性作业车间调度问题(FJSP)作为一种在实际生活中应用广泛的调度问题,对其智能算法具有重要价值。为了解决FJSP,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化的离散状态转移算法(DSTA-PPO)。DSTA-PPO具有3个特点:考虑到... 柔性作业车间调度问题(FJSP)作为一种在实际生活中应用广泛的调度问题,对其智能算法具有重要价值。为了解决FJSP,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化的离散状态转移算法(DSTA-PPO)。DSTA-PPO具有3个特点:考虑到FJSP需要同时对工序排序、机器分配同时进行调度安排,结合工序编码和机器编码,设计了一种能够充分表达当前调度问题的状态特征;针对工序排序、机器分配设计了多种基于关键路径的搜索操作;通过强化学习的训练,能够有效地引导智能体选择正确的搜索操作优化当前的调度序列。通过基于不同数据集的仿真实验,验证了算法各环节的有效性,同时在相同算例上以最小化最大完工时间为对比指标与现有算法进行了比较,对比结果表明了所提算法能够在多数算例上以更短的完工时间对算例完成求解,有效地求解了柔性作业车间调度问题。 展开更多
关键词 深度学习 强化学习 离散状态转移算法 近端策略优化算法 柔性作业车间调度
在线阅读 下载PDF
基于改进深度强化学习算法的农业机器人路径规划
8
作者 赵威 张万枝 +4 位作者 侯加林 侯瑞 李玉华 赵乐俊 程进 《浙江大学学报(工学版)》 北大核心 2025年第7期1492-1503,共12页
农业机器人采用深度强化学习算法进行路径规划时存在难以找到目标点、稀疏奖励、收敛缓慢等问题,为此提出基于多目标点导航融合改进深度Q网络算法(MPN-DQN)的路径规划方法.利用激光同步定位与建图(SLAM)扫描全局环境以构建先验地图,划... 农业机器人采用深度强化学习算法进行路径规划时存在难以找到目标点、稀疏奖励、收敛缓慢等问题,为此提出基于多目标点导航融合改进深度Q网络算法(MPN-DQN)的路径规划方法.利用激光同步定位与建图(SLAM)扫描全局环境以构建先验地图,划分行走行和作物行区域;对地图边界进行膨胀拟合处理,形成前向弓字形作业走廊.利用中间目标点分割全局环境,将复杂环境划分为多阶段短程导航环境以简化目标点搜索过程.从动作空间、探索策略和奖励函数3个方面改进深度Q网络算法以改善奖励稀疏问题,加快算法收敛速度,提高导航成功率.实验结果表明,搭载MPN-DQN的农业机器人自主行驶的总碰撞次数为1,平均导航时间为104.27 s,平均导航路程为16.58 m,平均导航成功率为95%. 展开更多
关键词 深度强化学习 农业机器人 中间目标点 多目标点导航融合改进深度Q网络算法(MPN-DQN) 路径规划
在线阅读 下载PDF
基于强化学习的无人机网络自适应QoS路由算法 被引量:2
9
作者 谭周正 范琅 +1 位作者 李宇峰 章小宁 《计算机应用研究》 北大核心 2025年第4期1177-1184,共8页
由于无人机网络的动态特性,要保证其具有可靠的通信保障仍存在一定的挑战,尤其是在军事领域,对无人机网络的QoS保障能力要求更高。针对上述需求,提出了一种基于Q学习的自适应QoS路由算法。在该算法中,每个节点通过HELLO消息和数据包相... 由于无人机网络的动态特性,要保证其具有可靠的通信保障仍存在一定的挑战,尤其是在军事领域,对无人机网络的QoS保障能力要求更高。针对上述需求,提出了一种基于Q学习的自适应QoS路由算法。在该算法中,每个节点通过HELLO消息和数据包相结合的方式来进行邻居信息感知,通过接收邻居节点反馈的ACK来获取链路时延和丢包率,然后根据链路时延和丢包率来更新维护Q表。考虑节点移动特性,算法还引入了节点的位置信息。在路由过程中,节点综合考虑Q表和邻居节点的位置信息来进行最优下一跳选择。通过仿真验证,对比参考的路由算法,提出的路由算法能够在较低的路由开销下提供更低的传输时延和更高的传输成功率。 展开更多
关键词 无人机网络 强化学习 路由算法
在线阅读 下载PDF
基于深度强化学习的变步长LMS算法
10
作者 徐君阳 张红梅 张坤 《仪器仪表学报》 北大核心 2025年第2期70-80,共11页
针对定步长LMS算法在收敛速度和稳态误差之间难以取得平衡的问题以及传统变步长算法对初始参数选择依赖程度高、工作量大且存在主观性的缺陷,提出了一种基于深度强化学习的变步长LMS算法。该算法对初始参数的依赖性小,规避了繁琐的调参... 针对定步长LMS算法在收敛速度和稳态误差之间难以取得平衡的问题以及传统变步长算法对初始参数选择依赖程度高、工作量大且存在主观性的缺陷,提出了一种基于深度强化学习的变步长LMS算法。该算法对初始参数的依赖性小,规避了繁琐的调参流程。首先,构建了一个融合深度强化学习和自适应滤波的算法模型,该模型利用深度强化学习智能体控制步长因子的变化,代替了传统变步长算法中用于步长调整的非线性函数,从而规避了繁琐的实验调参流程,降低了算法使用的复杂性。其次,提出了基于误差的状态奖励和基于步长的动作奖励函数,引入动态奖励与负奖励机制,有效提升算法的收敛速度。此外,设计了基于欠完备编码器的网络结构,提高了强化学习策略的推理能力。通过实验验证,相较于其他较新的变步长算法,所提出的算法具有更快的收敛速度和更小的稳态误差,在不同初始参数下均能快速调整至合理的步长值,减少了实验调参的工作量。将训练完成的网络应用到系统辨识、信号去噪以及截流区龙口水域水位信号的滤波等实际领域中,均取得了良好的性能表现,证明了算法具有一定的泛化能力,并进一步证实了其有效性。 展开更多
关键词 变步长LMS算法 深度强化学习 自适应滤波 奖励函数
在线阅读 下载PDF
基于强化学习动态特征驱动的可靠路由算法研究
11
作者 李姝 谢睿 冯永新 《小型微型计算机系统》 北大核心 2025年第8期1861-1868,共8页
飞行自组织网络FANET的高度动态性和不稳定性,导致通讯节点易失效、易受到攻击、欺骗等,为飞行自组织网络的可靠通信带来了巨大挑战.针对飞行自组织网络的高动态性以及链路不可靠问题,提出了一种基于强化学习动态特征驱动的可靠路由发... 飞行自组织网络FANET的高度动态性和不稳定性,导致通讯节点易失效、易受到攻击、欺骗等,为飞行自组织网络的可靠通信带来了巨大挑战.针对飞行自组织网络的高动态性以及链路不可靠问题,提出了一种基于强化学习动态特征驱动的可靠路由发现算法,并设计了一种基于强化学习的可靠路由协议RR-AODV(Reliable Reinforcement AODV).首先,通过距离和相对运动速度矢量双约束条件进行可靠节点预筛选,预判并规避短期链路中断风险,有效避免因节点高速移动导致的频繁路径重建.其次,通过时间、质量、能量、空间四维联合链路评估方法,建立可靠邻居链路,改善了动态网络中节点易失效、链路易中断等问题.最后,通过Q-learning算法构建拓扑感知的智能决策引擎,将洪泛式路由发现改进为动态链路特征驱动的精准单播探索,解决了AODV协议洪泛广播的资源浪费、链路不可靠的问题.经实验表明,相较于AODV、AODV-ETX和P-AODV协议,该协议在投递率和路由开销性能上均有改善,能够更好地适应飞行自组织网络. 展开更多
关键词 飞行自组织网 强化学习 AODV Q-leaning 路由算法
在线阅读 下载PDF
快速综合学习粒子群优化算法 被引量:3
12
作者 杨帆 乌景秀 +2 位作者 范子武 李子祥 朱沈涛 《水利水电技术(中英文)》 北大核心 2025年第2期30-44,共15页
【目的】粒子群优化算法在反问题求解、函数优化、数据挖掘、机器学习等研究领域广泛应用,但在求解复杂多峰问题时仍存在过早收敛的问题。为了提升粒子群算法在处理复杂多峰问题求解速度和精度,提出了快速综合学习粒子群优化算法(Fast C... 【目的】粒子群优化算法在反问题求解、函数优化、数据挖掘、机器学习等研究领域广泛应用,但在求解复杂多峰问题时仍存在过早收敛的问题。为了提升粒子群算法在处理复杂多峰问题求解速度和精度,提出了快速综合学习粒子群优化算法(Fast Comprehensive Learning Particle Swarm Optimization,FCLPSO)。【方法】FCLPSO算法引入粒子学习概率、个体影响概率、群体影响概率三个属性,表征每个粒子个体“与生俱来”的不同学习能力,同时新增强化学习、粒子重生等策略,提升算法收敛速度以及监测并跳出“伪收敛”状态。选用14个标准测试函数以及6种常用粒子群变体算法开展FCLPSO算法性能分析。【结果】结果显示:在收敛性方面,FCLPSO算法平均排名为1.86,排名第一次数为7次、排名第二的次数为2次、排名最后次数为0,最终综合排名第一;在鲁棒性方面,FCLPSO算法成功率排名第一,平均值为94.3%,14个测试函数中最低成功率为73.3%;达到阈值所需适应度评价次数最少,平均值40817,较其他算法评价次数少一半。【结论】结果表明:FCLPSO算法在收敛精度、收敛速度和鲁棒性方面排名综合第一,对复杂多峰问题求解更具优势,可为工程应用中复杂优化问题求解提供重要手段。 展开更多
关键词 粒子群优化算法 强化学习 粒子属性 粒子重生 过早收敛 影响因素 人工智能 全局搜索
在线阅读 下载PDF
深度强化学习求解动态柔性作业车间调度问题 被引量:1
13
作者 杨丹 舒先涛 +3 位作者 余震 鲁光涛 纪松霖 王家兵 《现代制造工程》 北大核心 2025年第2期10-16,共7页
随着智慧车间等智能制造技术的不断发展,人工智能算法在解决车间调度问题上的研究备受关注,其中车间运行过程中的动态事件是影响调度效果的一个重要扰动因素,为此提出一种采用深度强化学习方法来解决含有工件随机抵达的动态柔性作业车... 随着智慧车间等智能制造技术的不断发展,人工智能算法在解决车间调度问题上的研究备受关注,其中车间运行过程中的动态事件是影响调度效果的一个重要扰动因素,为此提出一种采用深度强化学习方法来解决含有工件随机抵达的动态柔性作业车间调度问题。首先以最小化总延迟为目标建立动态柔性作业车间的数学模型,然后提取8个车间状态特征,建立6个复合型调度规则,采用ε-greedy动作选择策略并对奖励函数进行设计,最后利用先进的D3QN算法进行求解并在不同规模车间算例上进行了有效性验证。结果表明,提出的D3QN算法能非常有效地解决含有工件随机抵达的动态柔性作业车间调度问题,在所有车间算例中的求优胜率为58.3%,相较于传统的DQN和DDQN算法车间延迟分别降低了11.0%和15.4%,进一步提升车间的生产制造效率。 展开更多
关键词 深度强化学习 D3QN算法 工件随机抵达 柔性作业车间调度 动态调度
在线阅读 下载PDF
基于学习型多策略改进鲸鱼算法的路径规划研究 被引量:2
14
作者 岳凡 艾尔肯·亥木都拉 刘拴 《组合机床与自动化加工技术》 北大核心 2025年第2期46-51,56,共7页
为解决机器人在路径规划中路径过长与后期寻优停滞的问题,提出了一种学习型多策略改进鲸鱼优化算法(reinforcement learning multi-strategy improvement whale optimization algorithm,RLMIWOA),并在欧式距离的基础上引入了障碍物信息... 为解决机器人在路径规划中路径过长与后期寻优停滞的问题,提出了一种学习型多策略改进鲸鱼优化算法(reinforcement learning multi-strategy improvement whale optimization algorithm,RLMIWOA),并在欧式距离的基础上引入了障碍物信息与拐点信息,构建了路径规划适应度函数。首先,引入自适应帐篷映射初始化,使得初始化种群更加均匀;其次,引入了非线性收敛策略平衡算法的开发和探索阶段;然后,通过采用非线性加权因子对最优个体进行扰动,避免了其他个体对最优个体的“盲从”;最后,通过采用强化学习结合ε-精英逐维反向学习策略和动态局部最优逃生策略,提高了算法的收敛效率和跳出局部最优的能力。实验结果表明:RLMIWOA算法可以高效地找到最优路径,在路径搜索方面具有显著的优势。 展开更多
关键词 路径规划 强化学习 鲸鱼优化算法 适应度函数 局部最优
在线阅读 下载PDF
基于深度强化学习的空天地一体化网络资源分配算法 被引量:5
15
作者 刘雪芳 毛伟灏 杨清海 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第7期2831-2841,共11页
空天地一体化网络(SAGIN)通过提高地面网络的资源利用率可以有效满足多种业务类型的通信需求,然而忽略了系统的自适应能力和鲁棒性及不同用户的服务质量(QoS)。针对这一问题,该文提出在空天地一体化网络架构下,面向城区和郊区通信的深... 空天地一体化网络(SAGIN)通过提高地面网络的资源利用率可以有效满足多种业务类型的通信需求,然而忽略了系统的自适应能力和鲁棒性及不同用户的服务质量(QoS)。针对这一问题,该文提出在空天地一体化网络架构下,面向城区和郊区通信的深度强化学习(DRL)资源分配算法。基于第3代合作伙伴计划(3GPP)标准中定义的用户参考信号接收功率(RSRP),考虑地面同频干扰情况,以不同域中基站的时频资源作为约束条件,构建了最大化系统用户的下行吞吐量优化问题。利用深度Q网络(DQN)算法求解该优化问题时,定义了能够综合考虑用户服务质量需求、系统自适应能力及系统鲁棒性的奖励函数。仿真结果表明,综合考虑无人驾驶汽车,沉浸式服务及普通移动终端通信业务需求时,表征系统性能的奖励函数值在2 000次迭代下,相较于贪婪算法提升了39.1%;对于无人驾驶汽车业务,利用DQN算法进行资源分配后,相比于贪婪算法,丢包数平均下降38.07%,时延下降了6.05%。 展开更多
关键词 空天地一体化网络 资源分配算法 深度强化学习 深度Q网络
在线阅读 下载PDF
基于强化学习的柴油机调速算法研究 被引量:2
16
作者 姚崇 董璕 +2 位作者 李瑞 龙云 宋恩哲 《内燃机工程》 CAS CSCD 北大核心 2024年第4期71-80,共10页
为了更好地调节柴油机转速,提出一种强化学习–比例积分微分(proportional integral derivative, PID)控制器,并应用到了柴油机转速控制中。基于连续动作空间的柔性动作–评价(soft actor-critic, SAC)算法,结合连续型PID控制器,设计了... 为了更好地调节柴油机转速,提出一种强化学习–比例积分微分(proportional integral derivative, PID)控制器,并应用到了柴油机转速控制中。基于连续动作空间的柔性动作–评价(soft actor-critic, SAC)算法,结合连续型PID控制器,设计了一种强化学习–PID控制器,可代替传统PID控制的转速环。优化设计了基于演员–评论家(actor-critic)框架的输入输出和奖励函数以匹配柴油机特性,采用随机动作增加寻优效率,形成SAC-PID控制柴油机转速的网络交互结构,达到快速调整转速,减小稳定时间的效果。构建了以柴油机D6114为原型机的MATLAB/Simulink平均值模型,并利用试验数据验证了仿真模型的有效性。利用平均值模型,仿真验证了该控制算法效果。经过仿真验证本算法使柴油机转速响应曲线超调量更小,响应时间更快,鲁棒性更强,SAC-PID控制负载瞬态调速率和稳定时间均已达到1级精度指标。仿真对比验证了SAC算法的联合控制效果,结果表明其较其他算法更佳。 展开更多
关键词 柴油机调速 比例积分微分控制器 强化学习算法 非线性复杂系统
在线阅读 下载PDF
基于多Agent深度强化学习的无人机协作规划方法 被引量:2
17
作者 王娜 马利民 +1 位作者 姜云春 宗成国 《计算机应用与软件》 北大核心 2024年第9期83-89,96,共8页
人机协作控制是多无人机任务规划的重要方式。考虑多无人机任务环境协同解释和策略控制一致性需求,提出基于多Agent深度强化学习的无人机协作规划方法。依据任务知识和行为状态,构建基于任务分配Agent的任务规划器,生成人机交互的相互... 人机协作控制是多无人机任务规划的重要方式。考虑多无人机任务环境协同解释和策略控制一致性需求,提出基于多Agent深度强化学习的无人机协作规划方法。依据任务知识和行为状态,构建基于任务分配Agent的任务规划器,生成人机交互的相互依赖关系;设计一种深度学习强化方法,解决群体行为最优策略和协同控制方法,并利用混合主动行为选择机制评估学习策略。实验结果表明:作为人机交互实例,所提方法通过深度强化学习使群体全局联合动作表现较好,学习速度和稳定性均能优于确定性策略梯度方法。同时,在跟随、自主和混合主动3种模式比较下,可以较好地控制无人机飞行路径和任务,为无人机集群任务执行提供了智能决策依据。 展开更多
关键词 多agent规划 深度强化学习 无人机协同规划 混合主动行为
在线阅读 下载PDF
基于深度强化学习的高铁客票动态定价算法 被引量:3
18
作者 毕文杰 陈功 《计算机应用与软件》 北大核心 2024年第4期228-235,261,共9页
为了解决需求函数未知情况下的高铁客票动态定价问题。以最大化单列车期望收益为目标构建Markov多阶段决策模型并设计DQN(Deep Q Net)强化学习框架寻找动态定价最优策略。算法以当日收益为奖励,通过神经网络来逼近所有状态-动作组合的... 为了解决需求函数未知情况下的高铁客票动态定价问题。以最大化单列车期望收益为目标构建Markov多阶段决策模型并设计DQN(Deep Q Net)强化学习框架寻找动态定价最优策略。算法以当日收益为奖励,通过神经网络来逼近所有状态-动作组合的期望最优收益。为验证算法性能,基于市场动态和旅客行为,开发高铁客运需求模拟系统并进行仿真实验。实验结果表明,智能体动态定价策略可以在不同需求水平下灵活调整价格,其性能接近理论上界并且显著优于对比策略。 展开更多
关键词 收益管理 高铁客票定价 动态定价 动态规划 强化学习 环境模拟算法
在线阅读 下载PDF
基于深度强化学习的停机位分配
19
作者 向征 吴秋玥 +1 位作者 储同 岳伊杨 《科学技术与工程》 北大核心 2025年第16期6977-6984,共8页
针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间... 针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间相互关系等参数。结合深度强化学习方法,特别是深度确定性策略梯度算法(deep deterministic policy gradient,DDPG),对停机位分配过程进行优化。为提升算法的寻优能力与性能,设计了改进后的DDPG算法,融入优先级经验回放和多策略融合探索机制。通过对比实验,表明改进后的算法更优,显著减少了最小远机位分配数量并优化了近机位空闲时间,且收敛更快、全局寻优能力更强,充分证实了其有效性。 展开更多
关键词 停机位分配 深度学习 强化学习 深度确定性策略梯度算法(DDPG)
在线阅读 下载PDF
基于深度强化学习的电力系统紧急切机稳控策略生成方法 被引量:2
20
作者 高琴 徐光虎 +3 位作者 夏尚学 杨欢欢 赵青春 黄河 《电力科学与技术学报》 北大核心 2025年第1期39-46,共8页
电力系统快速发展的同时也改变着电力系统的结构,使得系统稳定机理变得更加复杂。为解决新能源电力系统存在的功角稳定问题,提出基于深度强化学习的电力系统紧急切机稳控策略生成方法。首先,归纳并提出电力系统紧急控制切机动作策略以... 电力系统快速发展的同时也改变着电力系统的结构,使得系统稳定机理变得更加复杂。为解决新能源电力系统存在的功角稳定问题,提出基于深度强化学习的电力系统紧急切机稳控策略生成方法。首先,归纳并提出电力系统紧急控制切机动作策略以及涉及的安全约束,并将电力系统稳控模型转换为马尔科夫决策过程,再采用特征评估与斯皮尔曼(Spearman)等级相关系数方法筛选出最典型的特征数据;随后,为提高稳控策略智能体的训练效率,提出基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的稳控策略训练框架;最后,在IEEE 39节点系统和某实际电网中进行测试验证。研究结果显示,所提方法能够根据系统的运行状态和对故障的响应,自动调整生成切机稳控策略,在决策效果和效率方面都表现出更好的性能。 展开更多
关键词 新能源电力系统 稳控策略 强化学习 深度确定性策略梯度算法 马尔科夫模型
在线阅读 下载PDF
上一页 1 2 31 下一页 到第
使用帮助 返回顶部