期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于多参数联合逐级离散的快速通信干扰决策方法
1
作者 叶立诚 王军 +1 位作者 毛少卿 刘帅 《系统工程与电子技术》 EI CSCD 北大核心 2023年第5期1518-1525,共8页
在实时未知通信环境中,干扰机通过自主交互学习尽快找到最优干扰策略是智能干扰对抗的关键。现有基于强化学习的干扰决策优化方法常常需要在大量交互后才能趋近于最优,而在通信对抗中所需的多参数联合优化问题极大地增加了干扰决策选择... 在实时未知通信环境中,干扰机通过自主交互学习尽快找到最优干扰策略是智能干扰对抗的关键。现有基于强化学习的干扰决策优化方法常常需要在大量交互后才能趋近于最优,而在通信对抗中所需的多参数联合优化问题极大地增加了干扰决策选择空间,导致现有强化学习类方法难以适用于时间受限的对抗环境。提出了一种逐级离散干扰决策(jamming bandit based on stepwise discretization,JBSD)方法,通过干扰参数逐级离散方法细化并缩小了多干扰参数选择空间,通过干扰摇臂剪枝机制对低收益干扰参数进行了消除。数值仿真结果表明,在时间受限的实时干扰环境中,方法具有更快的干扰策略寻优速度和更高的平均干扰收益。 展开更多
关键词 通信 干扰 强化学习 快速决策 逐级离散
在线阅读 下载PDF
时变环境下基于最大期望加权估计的干扰决策方法 被引量:2
2
作者 王军 叶立诚 +1 位作者 刘帅 韩冬梅 《现代雷达》 CSCD 北大核心 2021年第3期30-36,共7页
认知雷达对抗技术可使干扰系统具有自主学习能力来实现智能干扰决策。现有基于强化学习理论的干扰决策方法难以在实时性要求高、对抗时间受限、雷达策略快变的雷达对抗环境中获得高期望收益。文中基于多臂匪徒决策理论提出了一种时变环... 认知雷达对抗技术可使干扰系统具有自主学习能力来实现智能干扰决策。现有基于强化学习理论的干扰决策方法难以在实时性要求高、对抗时间受限、雷达策略快变的雷达对抗环境中获得高期望收益。文中基于多臂匪徒决策理论提出了一种时变环境下基于最大期望加权估计的在线干扰决策方法,通过最大期望加权方法提高了对收益最大臂估计正确率,通过学习时间漂移方法使得干扰决策具有对雷达时变环境的适应性。典型时变环境设置的数值仿真表明,该方法具有在时变环境中更高的决策收益和环境时变适应能力。 展开更多
关键词 认知雷达对抗 时变环境 干扰决策 多臂匪徒 最大期望加权
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部