期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
一种进化梯度引导的强化学习算法
1
作者 许斌 练元洪 +2 位作者 卞鸿根 刘丹 亓晋 《南京邮电大学学报(自然科学版)》 北大核心 2025年第1期99-105,共7页
进化算法(Evolutionary Algorithm,EA)和深度强化学习(Deep Reinforcement Learning,DRL)的组合被认为能够结合二者的优点,即EA的强大随机搜索能力和DRL的样本效率,实现更好的策略学习。然而,现有的组合方法存在EA引入所导致的策略性能... 进化算法(Evolutionary Algorithm,EA)和深度强化学习(Deep Reinforcement Learning,DRL)的组合被认为能够结合二者的优点,即EA的强大随机搜索能力和DRL的样本效率,实现更好的策略学习。然而,现有的组合方法存在EA引入所导致的策略性能不可预测性问题。提出自适应历史梯度引导机制,其利用历史梯度信息,找到平衡探索和利用的线索,从而获得较为稳定的高质量策略,进一步将此机制融合经典的进化强化学习算法,提出一种进化梯度引导的强化学习算法(Evolutionary Gradient Guided Reinforcement Learning,EGG⁃RL)。在连续控制任务方面的实验表明,EGG⁃RL的性能表现优于其他方法。 展开更多
关键词 CEM⁃RL 深度强化学习 进化算法 历史梯度
在线阅读 下载PDF
基于动量梯度下降的自适应干扰对消算法 被引量:8
2
作者 杨启伦 张续莹 +1 位作者 李含超 杜冶 《电子信息对抗技术》 北大核心 2022年第2期30-32,共3页
在同时同频收发系统中,发射信号会泄露到接收通道导致有用的接收信号被淹没。针对同时同频收发系统干扰对消的需求,在传统随机梯度算法的基础上,研究动量梯度下降算法。该方法将历史梯度信息进行指数衰减和平滑,再结合当前梯度估计来更... 在同时同频收发系统中,发射信号会泄露到接收通道导致有用的接收信号被淹没。针对同时同频收发系统干扰对消的需求,在传统随机梯度算法的基础上,研究动量梯度下降算法。该方法将历史梯度信息进行指数衰减和平滑,再结合当前梯度估计来更新权重系数,可以解决噪声引起梯度估计的大小和方向不准确从而导致收敛速度慢的困难。最后通过仿真证明本方法具有比传统随机梯度算法更好的收敛性能。 展开更多
关键词 同时同频收发系统 自适应干扰对消 动量梯度下降 历史梯度信息 收敛速度
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部