检索结果-维普期刊中文期刊服务平台

分布式在线鞍点问题的Bandit反馈优化算法被引量：1: 1; 作者张文韬张保勇 +1 位作者袁德明徐胜元《自动化学报》北大核心 2025年第4期857-874,共18页; 本文研究了多智能体时变网络上基于Bandit反馈的分布式在线鞍点问题,其中每个智能体通过本地计算和局部信息交流去协作最小化全局损失函数.在Bandit反馈下,包括梯度在内的损失函数信息是不可用的,每个智能体仅能获得和使用在某决策或其... 展开更多; 关键词 bandit 反馈分布式优化在线鞍点问题镜面下降动态鞍点遗憾; 在线阅读下载PDF 职称材料

基于边缘动态事件触发的在线分布式复合Bandit优化算法: 2; 作者熊梦辉杨春雨 +2 位作者赵建国张保勇袁德明《自动化学报》北大核心 2025年第8期1811-1828,共18页; 研究带宽受限的非平衡有向多智能体网络环境下的在线分布式复合Bandit优化问题.该问题中每个智能体的局部目标函数具有复合结构:其一为梯度信息不可获取的时变损失函数,其二为具有特定结构的正则化项.为应对网络带宽的受限,设计具有控... 展开更多; 关键词在线分布式优化复合优化动态事件触发通信 bandit反馈动态遗憾; 在线阅读下载PDF 职称材料

具有反馈延迟分布式在线复合优化的动态遗憾性能被引量：1: 3; 作者侯瑞捷李修贤 +2 位作者易新蕾洪奕光谢立华《自动化学报》北大核心 2025年第4期835-856,共22页; 研究分布式在线复合优化场景中的几种反馈延迟,包括梯度反馈、单点Bandit反馈和两点Bandit反馈.其中,每个智能体的局部目标函数由一个强凸光滑函数与一个凸的非光滑正则项组成.在分布式场景下,研究每个智能体具有不同时变延迟的场景.基... 展开更多; 关键词分布式在线凸优化复合优化反馈延迟 bandit 反馈动态遗憾; 在线阅读下载PDF 职称材料

基于Bandit反馈的自适应量化分布式在线镜像下降算法被引量：1: 4; 作者谢俊如高文华谢奕彬《控制理论与应用》 EI CAS CSCD 北大核心 2023年第10期1774-1782,共9页; 多智能体系统的在线分布式优化常用于处理动态环境下的优化问题,节点间需要实时传输数据流.在很多情况下,各节点无法获取个体目标函数的全部信息(包括梯度信息),并且节点间信息传输存在一定的通信约束.考虑到非欧投影意义下的镜像下降... 展开更多; 关键词镜像下降算法多智能体系统优化量化 bandit反馈; 在线阅读下载PDF 职称材料

基于Bandit反馈的在线分布式镜面下降算法: 5; 作者朱小梅李觉友《西南大学学报（自然科学版）》 CAS CSCD 北大核心 2022年第1期99-107,共9页; 针对在线分布式优化中一类损失函数梯度信息获取困难的问题,提出一种基于Bandit反馈的在线分布式镜面下降(ODMD-B)算法.首先,推广在线分布式镜面梯度下降(ODMD)算法到免梯度的情形,提出了一种新的仅利用函数值信息来对梯度进行估计的方... 展开更多; 关键词在线学习分布式优化镜面下降算法 bandit反馈 Regret界; 在线阅读下载PDF 职称材料

针对新用户冷启动问题的改进Epsilon-greedy算法被引量：2: 6; 作者王素琴张洋 +1 位作者蒋浩朱登明《计算机工程》 CAS CSCD 北大核心 2018年第11期172-177,共6页; 在解决新用户冷启动问题时,固定不变的Epsilon参数会使传统Epsilon-greedy算法收敛缓慢。为此,提出一种改进的Epsilon-greedy算法。利用免疫反馈模型动态调整Epsilon参数,从而使算法快速收敛。使用蒙特卡罗模拟方法对算法进行实验验证,... 展开更多; 关键词推荐系统冷启动 Epsilon-greedy算法免疫反馈模型 bandit算法; 在线阅读下载PDF 职称材料

题名分布式在线鞍点问题的Bandit反馈优化算法被引量：1: 1; 作者张文韬张保勇袁德明徐胜元; 机构南京理工大学自动化学院; 出处《自动化学报》北大核心 2025年第4期857-874,共18页; 基金国家自然科学基金(62273181,62373190,62221004)资助。; 文摘本文研究了多智能体时变网络上基于Bandit反馈的分布式在线鞍点问题,其中每个智能体通过本地计算和局部信息交流去协作最小化全局损失函数.在Bandit反馈下,包括梯度在内的损失函数信息是不可用的,每个智能体仅能获得和使用在某决策或其附近产生的函数值.为此,结合单点梯度估计方法和预测映射技术,提出一种非欧几里得意义上的分布式在线Bandit鞍点优化算法.以动态鞍点遗憾作为性能指标,对于一般的凸−凹损失函数,建立了遗憾上界并在某些预设条件下确保所提算法的次线性收敛.此外,考虑到在迭代优化中计算优化子程序的精确解通常较为困难,进一步扩展一种基于近似计算方法的算法变种,并严格分析精确度设置对扩展算法遗憾上界的影响.最后,通过一个目标跟踪案例对算法的有效性和先进性进行仿真验证.; 关键词 bandit 反馈分布式优化在线鞍点问题镜面下降动态鞍点遗憾; Keywords bandit feedback distributed optimization online saddle point problem mirror descent dynamic saddle point regret; 分类号 O224 [理学—运筹学与控制论]; 在线阅读下载PDF 职称材料

题名基于边缘动态事件触发的在线分布式复合Bandit优化算法: 2; 作者熊梦辉杨春雨赵建国张保勇袁德明; 机构中国矿业大学信息与控制工程学院南京理工大学自动化学院; 出处《自动化学报》北大核心 2025年第8期1811-1828,共18页; 基金国家自然科学基金(62403466,62273350,62403467,62273181,62373190) 江苏省卓博计划(2024ZB835,2024ZB604) 江苏省自然科学青年基金(BK20241635)资助。; 文摘研究带宽受限的非平衡有向多智能体网络环境下的在线分布式复合Bandit优化问题.该问题中每个智能体的局部目标函数具有复合结构:其一为梯度信息不可获取的时变损失函数,其二为具有特定结构的正则化项.为应对网络带宽的受限,设计具有控制因子的边缘动态事件触发通信协议,以降低通信开销.同时,针对局部损失函数梯度信息难以获取的挑战,分别引入单点和两点梯度估计方法,以支撑损失函数梯度信息的获取.基于此,结合近端算子,分别设计仅要求加权邻接矩阵满足行随机性质的在线分布式复合单点和两点Bandit优化算法,并使用动态遗憾指标分析两种算法的收敛性.结果表明,在合理的假设和参数设定下,两种算法在期望意义下分别可获得O(K^(3/4)(1+P_(K)))和O(K^(1/2)(1+P_(K)))的动态遗憾上界,其中K是总迭代次数,P_(K)是路径变差度量.进一步,当P_(K)能够被提前估计时,两种算法分别可获得O(K^(3/4)√1+P_(K))和O(K^(1/2)√1+P_(K))的期望动态遗憾上界.最后,通过对在线分布式岭回归问题的仿真实验,验证了算法的收敛性以及理论结果的正确性.; 关键词在线分布式优化复合优化动态事件触发通信 bandit反馈动态遗憾; Keywords Online distributed optimization composite optimization dynamic event-triggered communication bandit feedback dynamic regret; 分类号 TP18 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名具有反馈延迟分布式在线复合优化的动态遗憾性能被引量：1: 3; 作者侯瑞捷李修贤易新蕾洪奕光谢立华; 机构同济大学电子与信息工程学院控制科学与工程系自主智能无人系统全国重点实验室麻省理工学院信息与决策系统实验室南洋理工大学电气与电子工程学院; 出处《自动化学报》北大核心 2025年第4期835-856,共22页; 基金国家自然科学基金(62473292,62088101) 上海市科技重大专项(2021SHZDZX0100)资助。; 文摘研究分布式在线复合优化场景中的几种反馈延迟,包括梯度反馈、单点Bandit反馈和两点Bandit反馈.其中,每个智能体的局部目标函数由一个强凸光滑函数与一个凸的非光滑正则项组成.在分布式场景下,研究每个智能体具有不同时变延迟的场景.基于近端梯度下降算法,分别设计这三种延迟反馈的分布式在线复合优化算法,并且对动态遗憾上界进行分析.分析结果表示,延迟梯度反馈和延迟两点Bandit反馈的动态遗憾上界阶数在期望意义下相同,而延迟单点Bandit反馈的动态遗憾上界稍差于前两者.这表明,存在延迟时,两点Bandit反馈可以在期望意义下达到与梯度反馈相同阶数的动态遗憾上界,且在步长选择合适的情况下,三种反馈类型的平均延迟在动态遗憾上具有相同的阶数.最后通过仿真实验验证了算法的性能和理论分析结果.; 关键词分布式在线凸优化复合优化反馈延迟 bandit 反馈动态遗憾; Keywords Distributed online convex optimization composite optimization feedback delays bandit feedback dynamic regret; 分类号 O224 [理学—运筹学与控制论]; 在线阅读下载PDF 职称材料

题名基于Bandit反馈的自适应量化分布式在线镜像下降算法被引量：1: 4; 作者谢俊如高文华谢奕彬; 机构华南理工大学数学学院; 出处《控制理论与应用》 EI CAS CSCD 北大核心 2023年第10期1774-1782,共9页; 基金国家自然科学基金项目(62273157) 广州市科技计划项目(202002030158)资助。; 文摘多智能体系统的在线分布式优化常用于处理动态环境下的优化问题,节点间需要实时传输数据流.在很多情况下,各节点无法获取个体目标函数的全部信息(包括梯度信息),并且节点间信息传输存在一定的通信约束.考虑到非欧投影意义下的镜像下降算法在处理高维数据和大规模在线学习上的优势,本文使用个体目标函数在两点处的函数值信息对缺失的梯度信息进行估计,并且根据镜像下降算法的性质设计自适应量化器,提出基于Bandit反馈的自适应量化分布式在线镜像下降算法.然后分析了量化误差界和Regret界的关系,适当选择参数可得所提算法的Regret界为O(√T).最后,通过数值仿真验证了算法和理论结果的有效性.; 关键词镜像下降算法多智能体系统优化量化 bandit反馈; Keywords mirror descent algorithm multi-agent systems optimization quantization bandit feedback; 分类号 TP18 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名基于Bandit反馈的在线分布式镜面下降算法: 5; 作者朱小梅李觉友; 机构重庆师范大学数学科学学院重庆两江新区博雅小学校; 出处《西南大学学报（自然科学版）》 CAS CSCD 北大核心 2022年第1期99-107,共9页; 基金国家自然科学基金项目(11871128,11971083).; 文摘针对在线分布式优化中一类损失函数梯度信息获取困难的问题,提出一种基于Bandit反馈的在线分布式镜面下降(ODMD-B)算法.首先,推广在线分布式镜面梯度下降(ODMD)算法到免梯度的情形,提出了一种新的仅利用函数值信息来对梯度进行估计的方法即Bandit反馈,其关键在于利用损失函数值信息逼近梯度信息,能有效克服梯度信息难以获取或计算复杂的困难.然后,给出算法的收敛性分析.结果表明算法的收敛速度为O(T),其中T是迭代次数.最后,使用投资组合选择模型进行了数值仿真实验.实验结果表明,ODMD-B算法的收敛速度与已有的ODMD算法的收敛速度接近.对比ODMD算法,本文所提出算法的优点在于仅仅使用了计算花费较小的函数值信息,使其更适用于梯度信息难以获取的优化问题.; 关键词在线学习分布式优化镜面下降算法 bandit反馈 Regret界; Keywords online learning distributed optimization mirror descent algorithm bandit feedback regret estimate; 分类号 O224 [理学—运筹学与控制论] O236 [理学—运筹学与控制论]; 在线阅读下载PDF 职称材料

题名针对新用户冷启动问题的改进Epsilon-greedy算法被引量：2: 6; 作者王素琴张洋蒋浩朱登明; 机构华北电力大学控制与计算机工程学院中国科学院计算技术研究所; 出处《计算机工程》 CAS CSCD 北大核心 2018年第11期172-177,共6页; 基金国家自然科学基金"逼真稳定的服装动画方法研究"(61300131) 北京市共建项目(2014JG48); 文摘在解决新用户冷启动问题时,固定不变的Epsilon参数会使传统Epsilon-greedy算法收敛缓慢。为此,提出一种改进的Epsilon-greedy算法。利用免疫反馈模型动态调整Epsilon参数,从而使算法快速收敛。使用蒙特卡罗模拟方法对算法进行实验验证,结果表明,该算法能够在用户与推荐系统交互较少的情况下为用户进行有效推荐,且推荐效果优于传统的Epsilon-greedy、Softmax和UCB算法。; 关键词推荐系统冷启动 Epsilon-greedy算法免疫反馈模型 bandit算法; Keywords recommendation system cold-start Epsilon-greedy algorithm immune feedback model bandit algorithm; 分类号 TP181 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	分布式在线鞍点问题的Bandit反馈优化算法	张文韬张保勇袁德明徐胜元	《自动化学报》北大核心	2025	1	在线阅读下载PDF 职称材料
2	基于边缘动态事件触发的在线分布式复合Bandit优化算法	熊梦辉杨春雨赵建国张保勇袁德明	《自动化学报》北大核心	2025	0	在线阅读下载PDF 职称材料
3	具有反馈延迟分布式在线复合优化的动态遗憾性能	侯瑞捷李修贤易新蕾洪奕光谢立华	《自动化学报》北大核心	2025	1	在线阅读下载PDF 职称材料
4	基于Bandit反馈的自适应量化分布式在线镜像下降算法	谢俊如高文华谢奕彬	《控制理论与应用》 EI CAS CSCD 北大核心	2023	1	在线阅读下载PDF 职称材料
5	基于Bandit反馈的在线分布式镜面下降算法	朱小梅李觉友	《西南大学学报（自然科学版）》 CAS CSCD 北大核心	2022	0	在线阅读下载PDF 职称材料
6	针对新用户冷启动问题的改进Epsilon-greedy算法	王素琴张洋蒋浩朱登明	《计算机工程》 CAS CSCD 北大核心	2018	2	在线阅读下载PDF 职称材料