期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于贝叶斯网络强化学习的复杂装备维修排故策略生成 被引量:1
1
作者 刘宝鼎 于劲松 +2 位作者 韩丹阳 唐荻音 李鑫 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第4期1354-1364,共11页
为解决传统启发式维修排故决策方法决策时间长、生成策略总成本高的问题,提出一种基于贝叶斯网络(BN)结合强化学习(RL)进行复杂装备维修排故策略生成方法。为更好地利用复杂装备模型知识,使用BN进行维修排故知识表述,并且为更加贴近复... 为解决传统启发式维修排故决策方法决策时间长、生成策略总成本高的问题,提出一种基于贝叶斯网络(BN)结合强化学习(RL)进行复杂装备维修排故策略生成方法。为更好地利用复杂装备模型知识,使用BN进行维修排故知识表述,并且为更加贴近复杂装备实际情况,依据故障模式、影响和危害性分析(FMECA)的故障概率,经合理转化后作为BN的先验概率;为使用RL的决策过程生成维修排故策略,提出一种维修排故决策问题转化为RL问题的方法;为更好地求解转化得到的强化学习问题,引入观测-修复动作对(O-A)以减小问题规模,并设置动作掩码处理动态动作空间。仿真结果表明:在统一的性能指标下,所提BN-RL方法较传统方法获得更高的指标值,证明该方法的有效性和优越性。 展开更多
关键词 强化学习 贝叶斯网络 维修排故策略生成 复杂装备 动态动作空间
在线阅读 下载PDF
基于作战过程的岛礁兵力配置强化学习算法
2
作者 肖凡 乔勇军 《兵工自动化》 2022年第5期39-47,共9页
针对岛礁守备作战过程中涉及的对海、对陆、对空3类武器,根据岛礁守备作战过程建立模型,提出一种动态动作空间方法。设置敌方武器装备、预设阵地、防守要地3类影响因素,利用不同的基于值函数的强化学习算法进行测试,通过测试能得到各武... 针对岛礁守备作战过程中涉及的对海、对陆、对空3类武器,根据岛礁守备作战过程建立模型,提出一种动态动作空间方法。设置敌方武器装备、预设阵地、防守要地3类影响因素,利用不同的基于值函数的强化学习算法进行测试,通过测试能得到各武器装备最佳位置并判断预设阵地是否合理,通过比较可看出算法间各有优劣,适合的环境各不相同。结果表明:该方法能够运用于不同的环境,减少时空开销,提高岛礁守备决策的效率,有助于策略改进。 展开更多
关键词 强化学习 值函数 岛礁守备 动态动作空间
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部