-
题名基于优势函数输入扰动的多无人艇协同策略优化方法
被引量:1
- 1
-
-
作者
任璐
柯亚男
柳文章
穆朝絮
孙长银
-
机构
安徽大学人工智能学院
安徽省安全人工智能重点实验室
天津大学电气自动化与信息工程学院
-
出处
《自动化学报》
北大核心
2025年第4期824-834,共11页
-
基金
国家自然科学基金(62303009)资助。
-
文摘
多无人艇(Multiple unmanned surface vehicles,Multi-USVs)协同导航对于实现高效的海上作业至关重要,而如何在开放未知海域处理多艇之间复杂的协作关系、实现多艇自主协同决策是当前亟待解决的难题.近年来,多智能体强化学习(Multi-agent reinforcement learning,MARL)在解决复杂的多体决策问题上展现出巨大的潜力,被广泛应用于多无人艇协同导航任务中.然而,这种基于数据驱动的方法通常存在探索效率低、探索与利用难平衡、易陷入局部最优等问题.因此,在集中训练和分散执行(Centralized training and decentralized execution,CTDE)框架的基础上,考虑从优势函数输入端注入扰动量来提升优势函数的泛化能力,提出一种新的基于优势函数输入扰动的多智能体近端策略优化(Noise-advantage multi-agent proximal policy optimization,NA-MAPPO)方法,从而提升多无人艇协同策略的探索效率.实验结果表明,与现有的基准算法相比,所提方法能够有效提升多无人艇协同导航任务的成功率,缩短策略的训练时间以及任务的完成时间,从而提升多无人艇协同探索效率,避免策略陷入局部最优.
-
关键词
多无人艇协同
近端策略优化
多智能体强化学习
输入扰动
-
Keywords
Multi-USV cooperation
proximal policy optimization
multi-agent reinforcement learning(MARL)
input disturbance
-
分类号
U664.82
[交通运输工程—船舶及航道工程]
-