期刊文献+
共找到98篇文章
< 1 2 5 >
每页显示 20 50 100
分布式在线鞍点问题的Bandit反馈优化算法 被引量:1
1
作者 张文韬 张保勇 +1 位作者 袁德明 徐胜元 《自动化学报》 北大核心 2025年第4期857-874,共18页
本文研究了多智能体时变网络上基于Bandit反馈的分布式在线鞍点问题,其中每个智能体通过本地计算和局部信息交流去协作最小化全局损失函数.在Bandit反馈下,包括梯度在内的损失函数信息是不可用的,每个智能体仅能获得和使用在某决策或其... 本文研究了多智能体时变网络上基于Bandit反馈的分布式在线鞍点问题,其中每个智能体通过本地计算和局部信息交流去协作最小化全局损失函数.在Bandit反馈下,包括梯度在内的损失函数信息是不可用的,每个智能体仅能获得和使用在某决策或其附近产生的函数值.为此,结合单点梯度估计方法和预测映射技术,提出一种非欧几里得意义上的分布式在线Bandit鞍点优化算法.以动态鞍点遗憾作为性能指标,对于一般的凸−凹损失函数,建立了遗憾上界并在某些预设条件下确保所提算法的次线性收敛.此外,考虑到在迭代优化中计算优化子程序的精确解通常较为困难,进一步扩展一种基于近似计算方法的算法变种,并严格分析精确度设置对扩展算法遗憾上界的影响.最后,通过一个目标跟踪案例对算法的有效性和先进性进行仿真验证. 展开更多
关键词 bandit 反馈 分布式优化 在线鞍点问题 镜面下降 动态鞍点遗憾
在线阅读 下载PDF
基于边缘动态事件触发的在线分布式复合Bandit优化算法
2
作者 熊梦辉 杨春雨 +2 位作者 赵建国 张保勇 袁德明 《自动化学报》 北大核心 2025年第8期1811-1828,共18页
研究带宽受限的非平衡有向多智能体网络环境下的在线分布式复合Bandit优化问题.该问题中每个智能体的局部目标函数具有复合结构:其一为梯度信息不可获取的时变损失函数,其二为具有特定结构的正则化项.为应对网络带宽的受限,设计具有控... 研究带宽受限的非平衡有向多智能体网络环境下的在线分布式复合Bandit优化问题.该问题中每个智能体的局部目标函数具有复合结构:其一为梯度信息不可获取的时变损失函数,其二为具有特定结构的正则化项.为应对网络带宽的受限,设计具有控制因子的边缘动态事件触发通信协议,以降低通信开销.同时,针对局部损失函数梯度信息难以获取的挑战,分别引入单点和两点梯度估计方法,以支撑损失函数梯度信息的获取.基于此,结合近端算子,分别设计仅要求加权邻接矩阵满足行随机性质的在线分布式复合单点和两点Bandit优化算法,并使用动态遗憾指标分析两种算法的收敛性.结果表明,在合理的假设和参数设定下,两种算法在期望意义下分别可获得O(K^(3/4)(1+P_(K)))和O(K^(1/2)(1+P_(K)))的动态遗憾上界,其中K是总迭代次数,P_(K)是路径变差度量.进一步,当P_(K)能够被提前估计时,两种算法分别可获得O(K^(3/4)√1+P_(K))和O(K^(1/2)√1+P_(K))的期望动态遗憾上界.最后,通过对在线分布式岭回归问题的仿真实验,验证了算法的收敛性以及理论结果的正确性. 展开更多
关键词 在线分布式优化 复合优化 动态事件触发通信 bandit反馈 动态遗憾
在线阅读 下载PDF
单臂Erlang(k) Bandit报酬过程 被引量:1
3
作者 邹捷中 邓倩 梁友 《长沙电力学院学报(自然科学版)》 2006年第4期69-71,77,共4页
应用贝叶斯方法,对未知Band it报酬过程的抽样报酬基于Erlang(k)分布的单臂Erlang(k)Band it报酬过程提出计算描述最优选择的平衡值序列的算法.有效解决了单臂Erlang(k)Band it报酬过程的最优决策问题,将Band it报酬过程基于的分布从负... 应用贝叶斯方法,对未知Band it报酬过程的抽样报酬基于Erlang(k)分布的单臂Erlang(k)Band it报酬过程提出计算描述最优选择的平衡值序列的算法.有效解决了单臂Erlang(k)Band it报酬过程的最优决策问题,将Band it报酬过程基于的分布从负指数分布推广至目前在实际中应用更为广泛的分布,是对Band it报酬过程的补充和推广.使用本算法通过数值计算可以得到G ittins指数的近似解. 展开更多
关键词 贝叶斯方法 多臂bandit过程 单臂bandit过程 Gittins指数 平衡值 bandit报酬过程 分布
在线阅读 下载PDF
融合协同过滤的神经Bandits推荐算法 被引量:3
4
作者 张婷婷 欧阳丹彤 +1 位作者 孙成林 白洪涛 《吉林大学学报(理学版)》 CAS 北大核心 2024年第1期92-99,共8页
针对数据稀疏性和“冷启动”对协同过滤的限制以及现有的协同多臂老虎机算法不适用于非线性奖励函数的问题,提出一种融合协同过滤的神经Ba ndits推荐算法COEENet.首先,采用双神经网络结构学习预期奖励及潜在增益;其次,考虑邻居协同作用... 针对数据稀疏性和“冷启动”对协同过滤的限制以及现有的协同多臂老虎机算法不适用于非线性奖励函数的问题,提出一种融合协同过滤的神经Ba ndits推荐算法COEENet.首先,采用双神经网络结构学习预期奖励及潜在增益;其次,考虑邻居协同作用;最后,构造决策器进行最终决策.实验结果表明,该方法在累积遗憾上优于4种基线算法,推荐效果较好. 展开更多
关键词 协同过滤 多臂老虎机算法 推荐系统 冷启动
在线阅读 下载PDF
对新产品开发的最优价值分析——基于Bandit过程的模型研究 被引量:6
5
作者 谢武 陈晓剑 巩国顺 《预测》 CSSCI 2003年第4期75-77,80,共4页
新产品开发的成败直接关系到企业的生存和发展,因而有效的新产品开发始终是企业追求的目标。本文运用备择Bandit过程的原理对新产品开发的最优价值进行了一定程度的探讨。本文的最后结论认为新产品开发的最优价值取决于Gittins指标法则... 新产品开发的成败直接关系到企业的生存和发展,因而有效的新产品开发始终是企业追求的目标。本文运用备择Bandit过程的原理对新产品开发的最优价值进行了一定程度的探讨。本文的最后结论认为新产品开发的最优价值取决于Gittins指标法则的有效性,即最终取决于市场占有率,对新产品需求预测的准确性,对消费者认知价值预测的准确性以及新产品投放市场的有效性,对这些变量的预测越精确,最优规则越有效,新产品开发成功的价值越大。 展开更多
关键词 新产品开发 顺序 bandit过程 Gittins定理 最优价值
在线阅读 下载PDF
考虑抽样时间间隔的特殊单臂Bandit报酬过程
6
作者 邹捷中 梁友 《铁道科学与工程学报》 CAS CSCD 北大核心 2006年第6期87-90,共4页
应用动态规划向后归纳法和贝叶斯方法,研究了一类特殊单臂Bandit报酬过程的最优决策问题。在这个模型中,未知Bandit过程是抽样时间间隔服从负指数分布,抽样值服从Erlang(2)分布,允许在任意时刻跳转的Bandit报酬过程。讨论了这类Bandit... 应用动态规划向后归纳法和贝叶斯方法,研究了一类特殊单臂Bandit报酬过程的最优决策问题。在这个模型中,未知Bandit过程是抽样时间间隔服从负指数分布,抽样值服从Erlang(2)分布,允许在任意时刻跳转的Bandit报酬过程。讨论了这类Bandit报酬过程Gittins指数的单调性质,并在此基础上将包含这类过程的单臂Bandit报酬过程的最优决策问题简化为一个最优停止问题,构造了计算过程最优停止时间的算法。 展开更多
关键词 贝叶斯方法 特殊单臂bandit报酬过程 Gittins指灵敏 Erlang(2)布
在线阅读 下载PDF
基于Bandit反馈的自适应量化分布式在线镜像下降算法 被引量:1
7
作者 谢俊如 高文华 谢奕彬 《控制理论与应用》 EI CAS CSCD 北大核心 2023年第10期1774-1782,共9页
多智能体系统的在线分布式优化常用于处理动态环境下的优化问题,节点间需要实时传输数据流.在很多情况下,各节点无法获取个体目标函数的全部信息(包括梯度信息),并且节点间信息传输存在一定的通信约束.考虑到非欧投影意义下的镜像下降... 多智能体系统的在线分布式优化常用于处理动态环境下的优化问题,节点间需要实时传输数据流.在很多情况下,各节点无法获取个体目标函数的全部信息(包括梯度信息),并且节点间信息传输存在一定的通信约束.考虑到非欧投影意义下的镜像下降算法在处理高维数据和大规模在线学习上的优势,本文使用个体目标函数在两点处的函数值信息对缺失的梯度信息进行估计,并且根据镜像下降算法的性质设计自适应量化器,提出基于Bandit反馈的自适应量化分布式在线镜像下降算法.然后分析了量化误差界和Regret界的关系,适当选择参数可得所提算法的Regret界为O(√T).最后,通过数值仿真验证了算法和理论结果的有效性. 展开更多
关键词 镜像下降算法 多智能体系统 优化 量化 bandit反馈
在线阅读 下载PDF
融合用户聚类与Bandits算法的微博推荐模型 被引量:1
8
作者 何羽丰 徐建民 张彬 《小型微型计算机系统》 CSCD 北大核心 2022年第10期2122-2130,共9页
针对微博推荐系统中存在的新用户冷启动和数据稀疏性问题,提出一种微博推荐模型.该模型通过重要用户聚类和普通用户分类构建完整用户类,基于类兴趣表征普通用户兴趣,利用Bandits算法为完整用户类中的普通用户产生微博推荐列表,根据普通... 针对微博推荐系统中存在的新用户冷启动和数据稀疏性问题,提出一种微博推荐模型.该模型通过重要用户聚类和普通用户分类构建完整用户类,基于类兴趣表征普通用户兴趣,利用Bandits算法为完整用户类中的普通用户产生微博推荐列表,根据普通用户对推荐列表的反馈更新其所属完整用户类的历史数据,合理应对新用户冷启动,降低了数据稀疏度,实现了较为准确的微博推荐,为微博推荐模型的构建提供了新的思路.实验结果表明,该模型能够推荐给用户感兴趣的博文,推荐效果较现有随机探索类算法、置信区间类算法和概率匹配类算法分别最低提高5.62%、5.43%和33.37%. 展开更多
关键词 微博推荐 用户聚类 bandits算法 冷启动 数据稀疏
在线阅读 下载PDF
基于应急融合网络应用的多路径Bandit优化算法
9
作者 伍富 郑霖 李晓记 《计算机工程》 CAS CSCD 北大核心 2017年第3期134-139,共6页
传统的无线通信网络由于结构单一,性能上诸多受限,难以保障应急通信的质量。为此,在认知无线自组织网络与移动蜂窝网络相融合的新背景下,提出一种多路径Bandit算法。将通信中的选路过程分为多时隙路径选择子阶段,通过对权衡网络时延和... 传统的无线通信网络由于结构单一,性能上诸多受限,难以保障应急通信的质量。为此,在认知无线自组织网络与移动蜂窝网络相融合的新背景下,提出一种多路径Bandit算法。将通信中的选路过程分为多时隙路径选择子阶段,通过对权衡网络时延和能效目标函数的计算进行路径优选,从而合理地分布网络中各节点的能耗。仿真结果表明,对比非应急业务应用和贪婪算法,在融合网络应急业务应用下,多路径Bandit算法的网络生存期提高了3%~20%。 展开更多
关键词 融合网络 应急通信 bandit理论 有限状态马尔科夫链 多路径 多网关
在线阅读 下载PDF
基于鲁棒Restless Bandits模型的多水下自主航行器任务分配策略 被引量:2
10
作者 李鑫滨 章寿涛 +1 位作者 闫磊 韩松 《计算机应用》 CSCD 北大核心 2019年第10期2795-2801,共7页
针对水下监测网络中多自主航行器(AUV)协同信息采集任务分配问题进行了研究。首先,为了同时考虑系统中目标传感器的节点状态与声学信道状态对AUV任务分配问题的影响,构建了水声监测网络系统的综合模型;其次,针对水下存在的多未知干扰因... 针对水下监测网络中多自主航行器(AUV)协同信息采集任务分配问题进行了研究。首先,为了同时考虑系统中目标传感器的节点状态与声学信道状态对AUV任务分配问题的影响,构建了水声监测网络系统的综合模型;其次,针对水下存在的多未知干扰因素并考虑了模型产生不精确的情况,基于强化学习理论将多AUV任务分配系统建模为鲁棒无休止赌博机问题(RBP)。最后,提出鲁棒Whittle算法求解所建立的RBP,从而求解得出多AUV的任务分配策略。仿真结果表明,在干扰环境下与未考虑干扰因素的分配策略相比,在系统分别选择1、2、3个目标时,鲁棒AUV分配策略对应的系统累计回报值参数的性能分别提升了5.5%、12.3%和9.6%,验证了所提方法的有效性。 展开更多
关键词 水声监测网络 水下自主航行器任务分配 鲁棒控制 不确定模型 无休止赌博机问题
在线阅读 下载PDF
Distributed Weighted Data Aggregation Algorithm in End-to-Edge Communication Networks Based on Multi-armed Bandit 被引量:1
11
作者 Yifei ZOU Senmao QI +1 位作者 Cong'an XU Dongxiao YU 《计算机科学》 CSCD 北大核心 2023年第2期13-22,共10页
As a combination of edge computing and artificial intelligence,edge intelligence has become a promising technique and provided its users with a series of fast,precise,and customized services.In edge intelligence,when ... As a combination of edge computing and artificial intelligence,edge intelligence has become a promising technique and provided its users with a series of fast,precise,and customized services.In edge intelligence,when learning agents are deployed on the edge side,the data aggregation from the end side to the designated edge devices is an important research topic.Considering the various importance of end devices,this paper studies the weighted data aggregation problem in a single hop end-to-edge communication network.Firstly,to make sure all the end devices with various weights are fairly treated in data aggregation,a distributed end-to-edge cooperative scheme is proposed.Then,to handle the massive contention on the wireless channel caused by end devices,a multi-armed bandit(MAB)algorithm is designed to help the end devices find their most appropriate update rates.Diffe-rent from the traditional data aggregation works,combining the MAB enables our algorithm a higher efficiency in data aggregation.With a theoretical analysis,we show that the efficiency of our algorithm is asymptotically optimal.Comparative experiments with previous works are also conducted to show the strength of our algorithm. 展开更多
关键词 Weighted data aggregation End-to-edge communication Multi-armed bandit Edge intelligence
在线阅读 下载PDF
基于Bandit反馈的在线分布式镜面下降算法
12
作者 朱小梅 李觉友 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第1期99-107,共9页
针对在线分布式优化中一类损失函数梯度信息获取困难的问题,提出一种基于Bandit反馈的在线分布式镜面下降(ODMD-B)算法.首先,推广在线分布式镜面梯度下降(ODMD)算法到免梯度的情形,提出了一种新的仅利用函数值信息来对梯度进行估计的方... 针对在线分布式优化中一类损失函数梯度信息获取困难的问题,提出一种基于Bandit反馈的在线分布式镜面下降(ODMD-B)算法.首先,推广在线分布式镜面梯度下降(ODMD)算法到免梯度的情形,提出了一种新的仅利用函数值信息来对梯度进行估计的方法即Bandit反馈,其关键在于利用损失函数值信息逼近梯度信息,能有效克服梯度信息难以获取或计算复杂的困难.然后,给出算法的收敛性分析.结果表明算法的收敛速度为O(T),其中T是迭代次数.最后,使用投资组合选择模型进行了数值仿真实验.实验结果表明,ODMD-B算法的收敛速度与已有的ODMD算法的收敛速度接近.对比ODMD算法,本文所提出算法的优点在于仅仅使用了计算花费较小的函数值信息,使其更适用于梯度信息难以获取的优化问题. 展开更多
关键词 在线学习 分布式优化 镜面下降算法 bandit反馈 Regret界
在线阅读 下载PDF
Strict greedy design paradigm applied to the stochastic multi-armed bandit problem
13
作者 Joey Hong 《机床与液压》 北大核心 2015年第6期1-6,共6页
The process of making decisions is something humans do inherently and routinely,to the extent that it appears commonplace. However,in order to achieve good overall performance,decisions must take into account both the... The process of making decisions is something humans do inherently and routinely,to the extent that it appears commonplace. However,in order to achieve good overall performance,decisions must take into account both the outcomes of past decisions and opportunities of future ones. Reinforcement learning,which is fundamental to sequential decision-making,consists of the following components: 1 A set of decisions epochs; 2 A set of environment states; 3 A set of available actions to transition states; 4 State-action dependent immediate rewards for each action.At each decision,the environment state provides the decision maker with a set of available actions from which to choose. As a result of selecting a particular action in the state,the environment generates an immediate reward for the decision maker and shifts to a different state and decision. The ultimate goal for the decision maker is to maximize the total reward after a sequence of time steps.This paper will focus on an archetypal example of reinforcement learning,the stochastic multi-armed bandit problem. After introducing the dilemma,I will briefly cover the most common methods used to solve it,namely the UCB and εn- greedy algorithms. I will also introduce my own greedy implementation,the strict-greedy algorithm,which more tightly follows the greedy pattern in algorithm design,and show that it runs comparably to the two accepted algorithms. 展开更多
关键词 Greedy algorithms Allocation strategy Stochastic multi-armed bandit problem
在线阅读 下载PDF
融合协同过滤与上下文信息的Bandits推荐算法 被引量:12
14
作者 王宇琛 王宝亮 侯永宏 《计算机科学与探索》 CSCD 北大核心 2019年第3期361-373,共13页
随着推荐算法在众多领域的广泛应用,冷启动问题得到了越来越多的关注。针对仅可获得老用户对商品文字评价的场景,提出了一套解决用户冷启动问题的方案与算法。首先通过分析发现了文章主题提取与基于商品评价提取特征的相似性,因此引入... 随着推荐算法在众多领域的广泛应用,冷启动问题得到了越来越多的关注。针对仅可获得老用户对商品文字评价的场景,提出了一套解决用户冷启动问题的方案与算法。首先通过分析发现了文章主题提取与基于商品评价提取特征的相似性,因此引入自然语言处理领域的LDA(latent Dirichlet allocation)生成模型提取商品潜在特征;然后在传统Bandits算法的基础上融入邻居用户的协同作用提出了COLINBA(collaborativefiltering context linear Bandits)算法,该算法通过相似度权重因子控制邻居用户对推荐结果的贡献,使得协同作用更加精确有效,推荐完成后根据用户真实反馈以及所推荐商品的特征更新用户特征。最后采用真实数据集Delicious和Last.fm将该算法与该领域的最新方法进行比较,实验结果表明该算法对推荐效果有提升作用。 展开更多
关键词 推荐系统 冷启动 多臂赌博机 协同过滤
在线阅读 下载PDF
具有反馈延迟分布式在线复合优化的动态遗憾性能 被引量:1
15
作者 侯瑞捷 李修贤 +2 位作者 易新蕾 洪奕光 谢立华 《自动化学报》 北大核心 2025年第4期835-856,共22页
研究分布式在线复合优化场景中的几种反馈延迟,包括梯度反馈、单点Bandit反馈和两点Bandit反馈.其中,每个智能体的局部目标函数由一个强凸光滑函数与一个凸的非光滑正则项组成.在分布式场景下,研究每个智能体具有不同时变延迟的场景.基... 研究分布式在线复合优化场景中的几种反馈延迟,包括梯度反馈、单点Bandit反馈和两点Bandit反馈.其中,每个智能体的局部目标函数由一个强凸光滑函数与一个凸的非光滑正则项组成.在分布式场景下,研究每个智能体具有不同时变延迟的场景.基于近端梯度下降算法,分别设计这三种延迟反馈的分布式在线复合优化算法,并且对动态遗憾上界进行分析.分析结果表示,延迟梯度反馈和延迟两点Bandit反馈的动态遗憾上界阶数在期望意义下相同,而延迟单点Bandit反馈的动态遗憾上界稍差于前两者.这表明,存在延迟时,两点Bandit反馈可以在期望意义下达到与梯度反馈相同阶数的动态遗憾上界,且在步长选择合适的情况下,三种反馈类型的平均延迟在动态遗憾上具有相同的阶数.最后通过仿真实验验证了算法的性能和理论分析结果. 展开更多
关键词 分布式在线凸优化 复合优化 反馈延迟 bandit 反馈 动态遗憾
在线阅读 下载PDF
一种自适应的网格化联邦学习客户端调度算法 被引量:1
16
作者 吴家皋 蒋宇栋 刘林峰 《南京邮电大学学报(自然科学版)》 北大核心 2025年第1期79-89,共11页
针对联邦学习(Federated Learning,FL)系统异构性而导致的训练性能下降问题,提出了一种自适应的网格化联邦学习客户端调度算法。首先,全面考虑FL的异构性特点,将3种异构性分别定义为3个独立的维度,包括训练速度、数据量和数据分布维度,... 针对联邦学习(Federated Learning,FL)系统异构性而导致的训练性能下降问题,提出了一种自适应的网格化联邦学习客户端调度算法。首先,全面考虑FL的异构性特点,将3种异构性分别定义为3个独立的维度,包括训练速度、数据量和数据分布维度,提出了一种新的FL客户端三维网格模型,并将所有客户端分配到该模型中相应的单元格内,以对其进行分类管理。在此基础上,为了克服传统启发式算法的不足,提出了一种基于多臂老虎机的网格化客户端调度算法,该算法能自适应地选择模型精度较低的单元格中的客户端子集参与每轮的FL训练,以改善客户端选择的公平性。仿真实验表明,与几种相关的最新FL算法相比,所提出的算法能显著提高模型精度,同时减少训练时间,从而验证了其有效性。 展开更多
关键词 联邦学习 异构性 三维网格 客户端选择 多臂老虎机
在线阅读 下载PDF
基于LSTM-MAB融合框架的动态股票交易决策优化研究
17
作者 李斌 于涵阅 《经济理论与经济管理》 北大核心 2025年第9期117-132,共16页
为提升短期股票交易的收益表现并有效控制风险,本文构建了一个融合长短期记忆网络(Long Short-term Memory,LSTM)和多臂老虎机模型(Multiarmed Bandit,MAB)的动态交易决策优化框架。该框架以LSTM对未来股价进行精准预测,捕捉市场时间序... 为提升短期股票交易的收益表现并有效控制风险,本文构建了一个融合长短期记忆网络(Long Short-term Memory,LSTM)和多臂老虎机模型(Multiarmed Bandit,MAB)的动态交易决策优化框架。该框架以LSTM对未来股价进行精准预测,捕捉市场时间序列特征,同时采用Decayε-Greedy算法动态调整探索与利用的平衡策略,从而实现股票选择与持仓决策的双重优化。本文通过对中国A股市场开展实证回测,并与遗传算法、传统ε-Greedy、随机选择和汤普森抽样等策略进行对比,验证了LSTM-MAB模型在动态市场条件下的收益能力和稳健性。实验结果表明,LSTMMAB模型在平均回报率、夏普比率和风险控制方面均优于对照组,表现出更强的抗风险能力和决策适应性。 展开更多
关键词 交易决策 股价预测 多臂老虎机 长短期记忆网络
在线阅读 下载PDF
基于多臂赌博机遗传算法的无人机与卡车协同配送
18
作者 朱烨娜 刘敏 +1 位作者 赵肄江 陈萱霖 《计算机科学与探索》 北大核心 2025年第8期2261-2272,共12页
无人机与卡车协同配送新模式凭借其高效、环保、不受地形限制等优势,正在改变传统的物流配送方式。带无人机的旅行商问题(TSP-D)是上述配送新模式中的一种经典问题,比纯卡车物流配送更为复杂,需要从无人机和卡车间的协同交互中寻找最优... 无人机与卡车协同配送新模式凭借其高效、环保、不受地形限制等优势,正在改变传统的物流配送方式。带无人机的旅行商问题(TSP-D)是上述配送新模式中的一种经典问题,比纯卡车物流配送更为复杂,需要从无人机和卡车间的协同交互中寻找最优的配送组合,带来了新的挑战。提出了一种基于多臂赌博机的混合遗传算法来求解TSP-D。采用了自然数排列的染色体编码,并应用基于动态规划的精确划分方法对其解码,以生成无人机与卡车协同配送解方案。新设计了一种多臂赌博机局部搜索策略,将局部搜索算子池中的五种不同搜索算子视作赌博机的多个“臂”。先通过赌博机摇臂搜索后解方案适应值的提升程度来计算奖励,再根据ε-greedy强化学习方法计算各个“臂”被选中的概率,以便选择合适的搜索算子来增强算法的局部搜索能力。实验结果表明,提出的算法与其他主流的算法相比,在不同分布与不同规模的多数测试实例上均有更低的解方案成本。进一步的实验分析验证了多臂赌博机局部搜索策略比其他局部搜索策略具有更好的自适应能力,能显著提升算法的性能。最后,将提出的算法应用于长沙市一个实际的配送案例,展示了其现实应用效果。 展开更多
关键词 无人机卡车协同配送 带无人机的旅行商问题 混合遗传算法 多臂赌博机
在线阅读 下载PDF
通信高效的个性化联邦多臂赌博机推荐框架
19
作者 陈家晟 秦航 《计算机应用研究》 北大核心 2025年第11期3257-3264,共8页
针对现有基于内容的个性化推荐系统中面临的数据异质性、隐私保护、快速通信和可拓展性挑战,提出了名为FTMAB的联邦学习算法。该算法利用联邦学习框架实现隐私保护,通过多臂赌博机技术对本地模型进行全局聚合处理数据异质性。该架构在... 针对现有基于内容的个性化推荐系统中面临的数据异质性、隐私保护、快速通信和可拓展性挑战,提出了名为FTMAB的联邦学习算法。该算法利用联邦学习框架实现隐私保护,通过多臂赌博机技术对本地模型进行全局聚合处理数据异质性。该架构在服务器端采用置信区间上界方法进行全局臂筛选推荐,并通过动态客户端采样策略优化通信,在本地客户端聚合用户效用评分加强推荐的个性化。理论分析证明FTMAB的遗憾上界为O(log T)。在合成数据集及真实数据集上的实验表明,相较于现有方法,FTMAB在显著降低通信成本和运行时间的同时,保持了较低的遗憾值。FTMAB框架有效平衡了隐私保护、推荐质量与通信效率,为解决个性化推荐中的数据异质性和可扩展性问题提供了高效方案。 展开更多
关键词 个性化推荐 数据隐私 多臂赌博机 数据异质性 联邦学习
在线阅读 下载PDF
基于上下文多臂赌博机的边缘计算任务卸载动态定价算法
20
作者 甘楠 付晓东 冯艳 《计算机工程》 北大核心 2025年第10期182-190,共9页
现有边缘计算动态定价算法普遍基于博弈论模型与拍卖机制提出。以最大化服务提供商总收益为优化目标,现有定价算法在事先获取用户效用信息方面面临一定的难度,并且多数拍卖机制在选取价格时倾向于局部最优而非全局最优。针对上述问题,... 现有边缘计算动态定价算法普遍基于博弈论模型与拍卖机制提出。以最大化服务提供商总收益为优化目标,现有定价算法在事先获取用户效用信息方面面临一定的难度,并且多数拍卖机制在选取价格时倾向于局部最优而非全局最优。针对上述问题,提出一种基于上下文多臂赌博机(CMAB)的边缘计算任务卸载动态定价算法。首先,将边缘计算动态定价问题建模为CMAB模型;然后,设计一种基于汤姆森采样(TS)的任务卸载动态定价算法,运用贝叶斯后验来诱导服务提供商进行价格选取,通过每一轮的奖励收益更新对应参数,有效减少了动态定价过程中总收益的亏损值。最后,模拟真实的边缘环境进行实验,验证了定价算法的有效性。仿真实验结果表明,该定价算法在期望累积遗憾值与期望累积收益值方面都优于现有多臂赌博机(MAB)算法和定价算法。 展开更多
关键词 边缘计算 任务卸载 动态定价 上下文多臂赌博机 汤姆森采样
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部