-
题名一种进化梯度引导的强化学习算法
- 1
-
-
作者
许斌
练元洪
卞鸿根
刘丹
亓晋
-
机构
南京邮电大学物联网学院
-
出处
《南京邮电大学学报(自然科学版)》
北大核心
2025年第1期99-105,共7页
-
基金
国家自然科学基金(62172235)
江苏省高等学校基础科学(自然科学)研究项目(22KJB520028)资助项目。
-
文摘
进化算法(Evolutionary Algorithm,EA)和深度强化学习(Deep Reinforcement Learning,DRL)的组合被认为能够结合二者的优点,即EA的强大随机搜索能力和DRL的样本效率,实现更好的策略学习。然而,现有的组合方法存在EA引入所导致的策略性能不可预测性问题。提出自适应历史梯度引导机制,其利用历史梯度信息,找到平衡探索和利用的线索,从而获得较为稳定的高质量策略,进一步将此机制融合经典的进化强化学习算法,提出一种进化梯度引导的强化学习算法(Evolutionary Gradient Guided Reinforcement Learning,EGG⁃RL)。在连续控制任务方面的实验表明,EGG⁃RL的性能表现优于其他方法。
-
关键词
CEM⁃RL
深度强化学习
进化算法
历史梯度
-
Keywords
CEM-reinforcement learning(CEM-RL)
deep reinforcement learning(DRL)
evolutionary algorithm(EA)
historical gradient guidance
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于动量梯度下降的自适应干扰对消算法
被引量:8
- 2
-
-
作者
杨启伦
张续莹
李含超
杜冶
-
机构
电子信息控制重点实验室
-
出处
《电子信息对抗技术》
北大核心
2022年第2期30-32,共3页
-
文摘
在同时同频收发系统中,发射信号会泄露到接收通道导致有用的接收信号被淹没。针对同时同频收发系统干扰对消的需求,在传统随机梯度算法的基础上,研究动量梯度下降算法。该方法将历史梯度信息进行指数衰减和平滑,再结合当前梯度估计来更新权重系数,可以解决噪声引起梯度估计的大小和方向不准确从而导致收敛速度慢的困难。最后通过仿真证明本方法具有比传统随机梯度算法更好的收敛性能。
-
关键词
同时同频收发系统
自适应干扰对消
动量梯度下降
历史梯度信息
收敛速度
-
Keywords
co-time co-frequency transmitting-receiving system
adaptive self-interference cancel
momentum gradient descent
historical gradient information
convergence velocity
-
分类号
TN971.1
[电子电信—信号与信息处理]
-