-
题名分布式在线鞍点问题的Bandit反馈优化算法
- 1
-
-
作者
张文韬
张保勇
袁德明
徐胜元
-
机构
南京理工大学自动化学院
-
出处
《自动化学报》
北大核心
2025年第4期857-874,共18页
-
基金
国家自然科学基金(62273181,62373190,62221004)资助。
-
文摘
本文研究了多智能体时变网络上基于Bandit反馈的分布式在线鞍点问题,其中每个智能体通过本地计算和局部信息交流去协作最小化全局损失函数.在Bandit反馈下,包括梯度在内的损失函数信息是不可用的,每个智能体仅能获得和使用在某决策或其附近产生的函数值.为此,结合单点梯度估计方法和预测映射技术,提出一种非欧几里得意义上的分布式在线Bandit鞍点优化算法.以动态鞍点遗憾作为性能指标,对于一般的凸−凹损失函数,建立了遗憾上界并在某些预设条件下确保所提算法的次线性收敛.此外,考虑到在迭代优化中计算优化子程序的精确解通常较为困难,进一步扩展一种基于近似计算方法的算法变种,并严格分析精确度设置对扩展算法遗憾上界的影响.最后,通过一个目标跟踪案例对算法的有效性和先进性进行仿真验证.
-
关键词
BANDIT
反馈
分布式优化
在线鞍点问题
镜面下降
动态鞍点遗憾
-
Keywords
Bandit feedback
distributed optimization
online saddle point problem
mirror descent
dynamic saddle point regret
-
分类号
O224
[理学—运筹学与控制论]
-