期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于强化学习的合作线性二次微分博弈研究
1
作者 赵子豪 彭称称 张维海 《山东科技大学学报(自然科学版)》 北大核心 2025年第4期121-130,共10页
本研究利用强化学习研究了系统部分未知的无限时域合作线性二次微分博弈的Pareto最优性问题。首先,在仅知道部分系统动力学矩阵参数的前提下,通过收集每个玩家的状态信息来推导策略迭代算法,得到相应代数黎卡提方程的近似解;然后,通过... 本研究利用强化学习研究了系统部分未知的无限时域合作线性二次微分博弈的Pareto最优性问题。首先,在仅知道部分系统动力学矩阵参数的前提下,通过收集每个玩家的状态信息来推导策略迭代算法,得到相应代数黎卡提方程的近似解;然后,通过递归推导严格证明了算法的收敛性。在凸优化理论的基础上,采用加权法求解Pareto最优策略和Pareto最优解。最后,通过仿真结果验证了所提理论算法的可行性。 展开更多
关键词 策略迭代 PARETO最优 合作微分博弈 线性二次理论 强化学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部