期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于改进SAC算法的移动机器人路径规划 被引量:12
1
作者 李永迪 李彩虹 +1 位作者 张耀玉 张国胜 《计算机应用》 CSCD 北大核心 2023年第2期654-660,共7页
为解决SAC算法在移动机器人局部路径规划中训练时间长、收敛速度慢等问题,通过引入优先级经验回放(PER)技术,提出了PER-SAC算法。首先从等概率从经验池中随机抽取样本变为按优先级抽取,使网络优先训练误差较大的样本,从而提高了机器人... 为解决SAC算法在移动机器人局部路径规划中训练时间长、收敛速度慢等问题,通过引入优先级经验回放(PER)技术,提出了PER-SAC算法。首先从等概率从经验池中随机抽取样本变为按优先级抽取,使网络优先训练误差较大的样本,从而提高了机器人训练过程的收敛速度和稳定性;其次优化时序差分(TD)误差的计算,以降低训练偏差;然后利用迁移学习,使机器人从简单环境到复杂环境逐步训练,从而提高训练速度;另外,设计了改进的奖励函数,增加机器人的内在奖励,从而解决了环境奖励稀疏的问题;最后在ROS平台上进行仿真测试。仿真结果表明,在不同的障碍物环境中,PER-SAC算法均比原始算法收敛速度更快、规划的路径长度更短,并且PER-SAC算法能够减少训练时间,在路径规划性能上明显优于原始算法。 展开更多
关键词 移动机器人 局部路径规划 SAC算法 优先级经验回放 ROS平台
在线阅读 下载PDF
改进深度Q网络的无人车换道决策算法研究 被引量:3
2
作者 张鑫辰 张军 +2 位作者 刘元盛 路铭 谢龙洋 《计算机工程与应用》 CSCD 北大核心 2022年第7期266-275,共10页
深度Q网络(deep Q network,DQN)模型已被广泛应用于高速公路场景中无人车换道决策,但传统的DQN存在过估计且收敛速度较慢的问题。针对此问题提出了基于改进深度Q网络的无人车换道决策模型。将得到的状态值分别输入到两个结构相同而参数... 深度Q网络(deep Q network,DQN)模型已被广泛应用于高速公路场景中无人车换道决策,但传统的DQN存在过估计且收敛速度较慢的问题。针对此问题提出了基于改进深度Q网络的无人车换道决策模型。将得到的状态值分别输入到两个结构相同而参数更新频率不同的神经网络中,以此来减少经验样本之间的相关性,然后将隐藏层输出的无人车状态信息同时输入到状态价值函数(state value function)流和动作优势函数(action advantage function)流中,从而更准确地得到模型中每个动作对应的Q值,再采用优先级经验回放(prioritized experience replay,PER)的方式从经验回放单元中抽取经验样本,增加经验回放单元中重要样本的利用率。在NGSIM数据集搭建的实验场景中进行模型的训练和测试,实验结果表明,改进的深度Q网络模型可以使无人车更好地理解环境中的状态变化,提高了换道决策成功率的同时网络的收敛速度也得到提升。 展开更多
关键词 无人车 换道决策 状态价值函数 动作优势函数 优先级经验回放
在线阅读 下载PDF
基于改进深度强化学习方法的单交叉口信号控制 被引量:19
3
作者 刘志 曹诗鹏 +1 位作者 沈阳 杨曦 《计算机科学》 CSCD 北大核心 2020年第12期226-232,共7页
利用深度强化学习技术实现路口信号控制是智能交通领域的研究热点。现有研究大多利用强化学习来全面刻画交通状态以及设计有效强化学习算法以解决信号配时问题,但这些研究往往忽略了信号灯状态对动作选择的影响以及经验池中的数据采样效... 利用深度强化学习技术实现路口信号控制是智能交通领域的研究热点。现有研究大多利用强化学习来全面刻画交通状态以及设计有效强化学习算法以解决信号配时问题,但这些研究往往忽略了信号灯状态对动作选择的影响以及经验池中的数据采样效率,导致训练过程不稳定、迭代收敛较慢等问题。为此,文中在智能体模型设计方面,将信号灯状态纳入状态设计,并引入动作奖惩系数来调节智能体动作选择,以满足相位最小绿灯时间和最大绿灯时间的约束。同时,结合短期内交通流存在的时序相关性,文中采用优先级序列经验回放(Priority Sequence Experience Replay,PSER)的方式来更新经验池中序列样本的优先级,使得智能体获取与交通状况匹配度更高的前序相关样本,并通过双Q网络和竞争式Q网络来进一步提升DQN(Deep Q Network)算法的性能。最后,以杭州市萧山区市心中路和山阴路形成的单交叉口为例,在仿真平台SUMO(Simulation of Urban Mobility)上对算法进行验证,实验结果表明,提出的智能体模型优于无约束单一状态模型,在此基础上提出的算法能够有效缩短车辆平均等待时间和路口总排队长度,控制效果优于实际配时策略以及传统的DQN算法。 展开更多
关键词 信号控制 动作奖惩系数 多指标系数加权 优先级序列经验回放 深度Q网络
在线阅读 下载PDF
基于改进DDPG的多能园区典型日调度研究 被引量:11
4
作者 蒋明喆 成贵学 赵晋斌 《电网技术》 EI CSCD 北大核心 2022年第5期1867-1876,共10页
电-气-热综合能源系统(power gas heat integrated energy system,IPGHES)中可再生能源出力的波动性、负荷需求的随机性、热水环流的动态特性给调度过程带来了诸多挑战,传统的随机调度方法无法适应综合能源系统负荷和可再生能源的多样... 电-气-热综合能源系统(power gas heat integrated energy system,IPGHES)中可再生能源出力的波动性、负荷需求的随机性、热水环流的动态特性给调度过程带来了诸多挑战,传统的随机调度方法无法适应综合能源系统负荷和可再生能源的多样性。针对以上问题,提出一种基于改进深度确定性策略梯度(improved deep deterministic policy gradient,IDDPG)算法的典型日调度方法,灵活处理供需过程中的随机性问题。首先将优先级经验回放(prioritized experience replay,PER)机制加入到DDPG的经验池中以区分不同经验的价值,并将采用方差递减高斯过程的OU随机噪声加入到策略网络参数向量中,提高探索性能,使用二阶振荡贝叶斯(second order oscillatory-Bayesian,SOO-Bayes)算法对结构参数进行调节,然后构建以能源交换、设备折旧、供需不平衡量为成本的与IDDPG数据交互的园区动态IPGHES模型后,定义状态空间、调度动作以及奖励函数,继而根据IDDPG对工作日与双休日进行决策调度分析与比对,最后采用某高校实际微电网算例证明所提调度方法在工作日和双休日都比随机调度、Cplex求解器调度和传统的DDPG调度方法具有更好的效果。 展开更多
关键词 综合能源系统 深度确定性策略梯度 优先级经验回放 OU随机噪声 二阶振荡贝叶斯
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部