针对现阶段外骨骼机器人轨迹运动时出现效果不佳的问题,提出了基于优先经验回放与分区奖励(PERDA)融合的深度确定性策略梯度(DDPG)强化学习算法,即PERDA-DDPG。该方法利用时间差分误差(TD-errors)的大小对经验排序,改变了原始采样的策...针对现阶段外骨骼机器人轨迹运动时出现效果不佳的问题,提出了基于优先经验回放与分区奖励(PERDA)融合的深度确定性策略梯度(DDPG)强化学习算法,即PERDA-DDPG。该方法利用时间差分误差(TD-errors)的大小对经验排序,改变了原始采样的策略。此外,相较于以往二值奖励函数,本文根据物理模型提出针对化的分区奖励。在Open AI Gym平台上实现仿真环境,实验结果表明:改进的算法收敛速度提升了约9.2%,学习过程更加稳定。展开更多
面对多障碍、大尺寸障碍、狭窄通道等特殊环境下的USV路径规划问题,快速扩展随机树算法(rapidly-exploring random trees,RRT)存在采样基数大、规划成功率低、规划路径曲折等缺点。基于双延迟深度确定性策略梯度(twin delayed deep dete...面对多障碍、大尺寸障碍、狭窄通道等特殊环境下的USV路径规划问题,快速扩展随机树算法(rapidly-exploring random trees,RRT)存在采样基数大、规划成功率低、规划路径曲折等缺点。基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)提出一种全局路径规划算法(TD3-RRT)。结合RRT算法与深度强化学习建立USV路径搜索模型,利用前视探测感知环境以自适应调整扩展步长,通过策略网络输出路径搜索方向,解决RRT算法扩展盲目的问题;改进后见经验回放策略,通过重选虚拟目标、双经验回放池采样等策略以增强复杂环境下路径搜索能力;通过奖励函数提高规划路径质量,加快路径搜索速度。实验结果表明:不同环境下TD3-RRT相比当前主流算法能够有效提高规划成功率,优化转向角度、路径长度和规划时间,证明了改进算法能有效加快路径搜索速度并提高路径质量,且对不同环境具有良好适应性。展开更多
电-气-热综合能源系统(power gas heat integrated energy system,IPGHES)中可再生能源出力的波动性、负荷需求的随机性、热水环流的动态特性给调度过程带来了诸多挑战,传统的随机调度方法无法适应综合能源系统负荷和可再生能源的多样...电-气-热综合能源系统(power gas heat integrated energy system,IPGHES)中可再生能源出力的波动性、负荷需求的随机性、热水环流的动态特性给调度过程带来了诸多挑战,传统的随机调度方法无法适应综合能源系统负荷和可再生能源的多样性。针对以上问题,提出一种基于改进深度确定性策略梯度(improved deep deterministic policy gradient,IDDPG)算法的典型日调度方法,灵活处理供需过程中的随机性问题。首先将优先级经验回放(prioritized experience replay,PER)机制加入到DDPG的经验池中以区分不同经验的价值,并将采用方差递减高斯过程的OU随机噪声加入到策略网络参数向量中,提高探索性能,使用二阶振荡贝叶斯(second order oscillatory-Bayesian,SOO-Bayes)算法对结构参数进行调节,然后构建以能源交换、设备折旧、供需不平衡量为成本的与IDDPG数据交互的园区动态IPGHES模型后,定义状态空间、调度动作以及奖励函数,继而根据IDDPG对工作日与双休日进行决策调度分析与比对,最后采用某高校实际微电网算例证明所提调度方法在工作日和双休日都比随机调度、Cplex求解器调度和传统的DDPG调度方法具有更好的效果。展开更多
文摘针对现阶段外骨骼机器人轨迹运动时出现效果不佳的问题,提出了基于优先经验回放与分区奖励(PERDA)融合的深度确定性策略梯度(DDPG)强化学习算法,即PERDA-DDPG。该方法利用时间差分误差(TD-errors)的大小对经验排序,改变了原始采样的策略。此外,相较于以往二值奖励函数,本文根据物理模型提出针对化的分区奖励。在Open AI Gym平台上实现仿真环境,实验结果表明:改进的算法收敛速度提升了约9.2%,学习过程更加稳定。
文摘面对多障碍、大尺寸障碍、狭窄通道等特殊环境下的USV路径规划问题,快速扩展随机树算法(rapidly-exploring random trees,RRT)存在采样基数大、规划成功率低、规划路径曲折等缺点。基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)提出一种全局路径规划算法(TD3-RRT)。结合RRT算法与深度强化学习建立USV路径搜索模型,利用前视探测感知环境以自适应调整扩展步长,通过策略网络输出路径搜索方向,解决RRT算法扩展盲目的问题;改进后见经验回放策略,通过重选虚拟目标、双经验回放池采样等策略以增强复杂环境下路径搜索能力;通过奖励函数提高规划路径质量,加快路径搜索速度。实验结果表明:不同环境下TD3-RRT相比当前主流算法能够有效提高规划成功率,优化转向角度、路径长度和规划时间,证明了改进算法能有效加快路径搜索速度并提高路径质量,且对不同环境具有良好适应性。
文摘电-气-热综合能源系统(power gas heat integrated energy system,IPGHES)中可再生能源出力的波动性、负荷需求的随机性、热水环流的动态特性给调度过程带来了诸多挑战,传统的随机调度方法无法适应综合能源系统负荷和可再生能源的多样性。针对以上问题,提出一种基于改进深度确定性策略梯度(improved deep deterministic policy gradient,IDDPG)算法的典型日调度方法,灵活处理供需过程中的随机性问题。首先将优先级经验回放(prioritized experience replay,PER)机制加入到DDPG的经验池中以区分不同经验的价值,并将采用方差递减高斯过程的OU随机噪声加入到策略网络参数向量中,提高探索性能,使用二阶振荡贝叶斯(second order oscillatory-Bayesian,SOO-Bayes)算法对结构参数进行调节,然后构建以能源交换、设备折旧、供需不平衡量为成本的与IDDPG数据交互的园区动态IPGHES模型后,定义状态空间、调度动作以及奖励函数,继而根据IDDPG对工作日与双休日进行决策调度分析与比对,最后采用某高校实际微电网算例证明所提调度方法在工作日和双休日都比随机调度、Cplex求解器调度和传统的DDPG调度方法具有更好的效果。