期刊文献+
共找到35篇文章
< 1 2 >
每页显示 20 50 100
基于多臂赌博机遗传算法的无人机与卡车协同配送
1
作者 朱烨娜 刘敏 +1 位作者 赵肄江 陈萱霖 《计算机科学与探索》 北大核心 2025年第8期2261-2272,共12页
无人机与卡车协同配送新模式凭借其高效、环保、不受地形限制等优势,正在改变传统的物流配送方式。带无人机的旅行商问题(TSP-D)是上述配送新模式中的一种经典问题,比纯卡车物流配送更为复杂,需要从无人机和卡车间的协同交互中寻找最优... 无人机与卡车协同配送新模式凭借其高效、环保、不受地形限制等优势,正在改变传统的物流配送方式。带无人机的旅行商问题(TSP-D)是上述配送新模式中的一种经典问题,比纯卡车物流配送更为复杂,需要从无人机和卡车间的协同交互中寻找最优的配送组合,带来了新的挑战。提出了一种基于多臂赌博机的混合遗传算法来求解TSP-D。采用了自然数排列的染色体编码,并应用基于动态规划的精确划分方法对其解码,以生成无人机与卡车协同配送解方案。新设计了一种多臂赌博机局部搜索策略,将局部搜索算子池中的五种不同搜索算子视作赌博机的多个“臂”。先通过赌博机摇臂搜索后解方案适应值的提升程度来计算奖励,再根据ε-greedy强化学习方法计算各个“臂”被选中的概率,以便选择合适的搜索算子来增强算法的局部搜索能力。实验结果表明,提出的算法与其他主流的算法相比,在不同分布与不同规模的多数测试实例上均有更低的解方案成本。进一步的实验分析验证了多臂赌博机局部搜索策略比其他局部搜索策略具有更好的自适应能力,能显著提升算法的性能。最后,将提出的算法应用于长沙市一个实际的配送案例,展示了其现实应用效果。 展开更多
关键词 无人机卡车协同配送 带无人机的旅行商问题 混合遗传算法 多臂赌博机
在线阅读 下载PDF
基于信任和K臂赌博机问题选择多问题协商对象 被引量:14
2
作者 王黎明 黄厚宽 柴玉梅 《软件学报》 EI CSCD 北大核心 2006年第12期2537-2546,共10页
Agent之间的多问题协商(multi-issuenegotiation)是一个复杂的动态交互过程.解决协商之前的对象选择问题在电子商务中有着重要的应用价值.为了提高多问题协商的准确性和购物Agent的效用,主要解决协商前的销售Agent的选择问题.为了充分... Agent之间的多问题协商(multi-issuenegotiation)是一个复杂的动态交互过程.解决协商之前的对象选择问题在电子商务中有着重要的应用价值.为了提高多问题协商的准确性和购物Agent的效用,主要解决协商前的销售Agent的选择问题.为了充分利用协商历史,实现探索(exploration)和利用(exploitation)的折衷,把销售Agent的选择问题转变成K臂赌博机问题(K-armedbanditproblem)来求解.提出了信任和声誉的度量模型,结合K臂赌博机问题的求解技术,采用学习机制,提出了几个确定奖励分布的改进算法.最后,以模拟协商过程为基础,将改进算法、信任和声誉有机地结合起来,提高了选择销售Agent的准确性和实用性.几个实验都说明了该工作在应用中的有效性. 展开更多
关键词 AGENT 协商水赌博机问题 信任 声誉 效用
在线阅读 下载PDF
一种自适应的多臂赌博机算法 被引量:9
3
作者 章晓芳 周倩 +1 位作者 梁斌 徐进 《计算机研究与发展》 EI CSCD 北大核心 2019年第3期643-654,共12页
多臂赌博机问题是强化学习中研究探索和利用两者平衡的经典问题,其中,随机多臂赌博机问题是最经典的一类多臂赌博机问题,是众多新型多臂赌博机问题的基础.针对现有多臂赌博机算法未能充分使用环境反馈信息以及泛化能力较弱的问题,提出... 多臂赌博机问题是强化学习中研究探索和利用两者平衡的经典问题,其中,随机多臂赌博机问题是最经典的一类多臂赌博机问题,是众多新型多臂赌博机问题的基础.针对现有多臂赌博机算法未能充分使用环境反馈信息以及泛化能力较弱的问题,提出一种自适应的多臂赌博机算法.该算法利用当前估计值最小的动作被选择的次数来调整探索和利用的概率(chosen number of arm with minimal estimation, CNAME),有效缓解了探索和利用不平衡的问题.同时,该算法不依赖于上下文信息,在不同场景的多臂赌博机问题中有更好的泛化能力.通过理论分析给出了该算法的悔值(regret)上界,并通过不同场景的实验结果表明:CNAME算法可以高效地获得较高的奖赏和较低的悔值,并且具有更好的泛化能力. 展开更多
关键词 强化学习 多臂赌博机 探索和利用 自适应 上下文相关
在线阅读 下载PDF
认知无线网络中基于无休止多臂赌博机模型的多用户频谱接入机制 被引量:5
4
作者 朱江 韩超 +1 位作者 杨浩磊 彭著勋 《计算机应用》 CSCD 北大核心 2014年第10期2782-2786,共5页
针对如何协调多个认知用户择机接入多段空闲频域信道的问题,提出了一种基于无休止多臂赌博机(RMAB)模型的动态频谱接入机制。首先,考虑到实际环境下认知用户的信道感知误差,推导出能有效处理感知误差的Whittle索引值算法,该算法通过历... 针对如何协调多个认知用户择机接入多段空闲频域信道的问题,提出了一种基于无休止多臂赌博机(RMAB)模型的动态频谱接入机制。首先,考虑到实际环境下认知用户的信道感知误差,推导出能有效处理感知误差的Whittle索引值算法,该算法通过历史经验积累给予每个信道一定的信任值,并综合考虑在当前信任值下选择每个信道的立即收益与未来收益的多少,选择出需要感知接入的信道;其次,对于多个认知用户接入相同信道时产生冲突的问题,提出了基于多标拍卖的协调机制,通过多标拍卖的方式处理认知用户之间的冲突。仿真结果表明,在相同的环境中,所提出的频谱接入机制与未处理误差的或者未采用多标拍卖的接入机制相比,认知用户获得的吞吐量更大。 展开更多
关键词 多用户多信道 无休止多臂赌博机模型 多标拍卖 Whittle索引值算法
在线阅读 下载PDF
基于多臂赌博机在线学习的频谱共享方法 被引量:2
5
作者 张娟 蒋和松 《计算机工程与设计》 CSCD 北大核心 2014年第7期2515-2519,共5页
针对频谱共享中信道状态建模为完全知识马尔科夫时,应用受限的问题,提出了不同信道下基于信道感知的在线学习。根据授权用户是否存在于当前信道来选择激进发送或保守发送,由于保守发送时,信道状态是不可观测的,因此将信道模型建模为部... 针对频谱共享中信道状态建模为完全知识马尔科夫时,应用受限的问题,提出了不同信道下基于信道感知的在线学习。根据授权用户是否存在于当前信道来选择激进发送或保守发送,由于保守发送时,信道状态是不可观测的,因此将信道模型建模为部分可观测马尔科夫决策过程。将信道未知情况下的最优传输策略建模为多臂赌博机模型。仿真结果表明,在信道不完全可知情况下的多臂赌博机在线学习算法能获得最优K步策略,并通过UCB-TUNED方法改善了最优传输的K步保守策略的收敛性。 展开更多
关键词 频谱共享 多臂赌博机 在线学习 部分可观察的马尔科夫 最优传输
在线阅读 下载PDF
基于多臂赌博机模型的信道选择 被引量:4
6
作者 朱江 陈红翠 熊加毫 《电讯技术》 北大核心 2015年第10期1094-1100,共7页
在择机频谱接入系统中,为解决未知信道环境先验知识下的信道选择问题,提出了一种基于多臂赌博机(MAB)模型的改进UCB(Upper Confidence Bound)索引选择策略。该策略是通过在UCB索引的置信因子中引入收益方差值来调整对未知信道环境的探... 在择机频谱接入系统中,为解决未知信道环境先验知识下的信道选择问题,提出了一种基于多臂赌博机(MAB)模型的改进UCB(Upper Confidence Bound)索引选择策略。该策略是通过在UCB索引的置信因子中引入收益方差值来调整对未知信道环境的探索过程,以降低探索成本。结合理论证明了本策略有较快的收敛速度,还证明了本策略下的学习后悔值曲线与时隙呈近似对数关系而较缓慢增长。仿真结果表明,与原UCB策略以及贪心算法相比,所提策略更能自适应地选择可用性较好的信道,有效降低学习后悔值并加快其收敛速度,从而提高了系统吞吐量。 展开更多
关键词 认知无线电 择机频谱接入 信道选择 多臂赌博机模型 UCB索引
在线阅读 下载PDF
基于多摇臂赌博机的产品定价算法 被引量:1
7
作者 毕文杰 郭乐薇 《计算机工程与应用》 CSCD 北大核心 2021年第11期224-231,共8页
针对在线零售商在不完全需求信息下的单产品定价问题,提出了一种基于多摇臂赌博机的产品定价算法。为了提升多摇臂赌博机算法在定价问题中的效果,该算法利用了需求曲线的单调性,并加入了消费者偏好识别。对消费者的保留价格进行分析得... 针对在线零售商在不完全需求信息下的单产品定价问题,提出了一种基于多摇臂赌博机的产品定价算法。为了提升多摇臂赌博机算法在定价问题中的效果,该算法利用了需求曲线的单调性,并加入了消费者偏好识别。对消费者的保留价格进行分析得到消费者购买概率,将在线零售商的定价问题建模为多摇臂赌博机模型,给出了相应的定价算法并进行了理论分析,最后通过仿真实验比较了相关算法的定价效果。仿真结果表明该算法提高了在线零售商的收益。 展开更多
关键词 动态定价 多摇赌博机 UCB1算法
在线阅读 下载PDF
基于非稳态MAB的低地球轨道卫星系统异构用户接入方法
8
作者 林敏 孙昊 +2 位作者 赵柏 郭焱 杨绿溪 《通信学报》 北大核心 2025年第3期212-220,共9页
针对吞吐量敏感用户和时延敏感用户同时接入低地球轨道卫星系统的场景,提出了一种基于非稳态多臂赌博机(MAB)的非正交多址接入(NOMA)接入方法,以提高系统的频谱效率和异构用户的接入灵活性。首先,在构建联合效用函数以同时考虑时延敏感... 针对吞吐量敏感用户和时延敏感用户同时接入低地球轨道卫星系统的场景,提出了一种基于非稳态多臂赌博机(MAB)的非正交多址接入(NOMA)接入方法,以提高系统的频谱效率和异构用户的接入灵活性。首先,在构建联合效用函数以同时考虑时延敏感用户信息年龄(AoI)和吞吐量敏感用户传输速率需求的基础上,建立以联合效用函数最大化为目标,以速率门限和数据包缓存时间为约束条件的优化问题。由于传统的凸优化方法无法进行求解,在采用波束成形抑制组间干扰的基础上,提出了基于非稳态MAB的动态接入方案,实现异构用户的智能配对与调度,以及可靠接入。最后,计算机仿真验证了所提方法的可靠性和优越性,并进一步分析了折扣因子和数据包缓存门限值对系统性能的影响。 展开更多
关键词 低地球轨道卫星系统 非正交多址接入 信息年龄 非稳态多臂赌博机
在线阅读 下载PDF
融合矩阵分解的多臂赌博机推荐算法 被引量:4
9
作者 成石 王宝亮 +1 位作者 毛陆虹 常鹏 《小型微型计算机系统》 CSCD 北大核心 2017年第12期2754-2758,共5页
近几年,随着推荐系统广泛应用在各个领域,冷启动问题受到了越来越多的关注.本文针对只可获得用户对商品评价的情况,解决冷启动难题.大部分已有研究通常先构建用户和商品的静态特征,再采用多臂赌博机策略进行推荐,其缺点是没有深入提取... 近几年,随着推荐系统广泛应用在各个领域,冷启动问题受到了越来越多的关注.本文针对只可获得用户对商品评价的情况,解决冷启动难题.大部分已有研究通常先构建用户和商品的静态特征,再采用多臂赌博机策略进行推荐,其缺点是没有深入提取和更新特征,限制了推荐性能.本文提出一种新的算法来解决特征提取问题,具体来说,根据用户对商品真实评价与预测评价的误差,使用矩阵分解算法更新用户和商品特征;再对新的特征使用多臂赌博机策略进行商品推荐.新算法很好地将多臂赌博机策略和矩阵分解算法结合起来,并有很强的通用性和可扩展性.最后,采用真实的数据集Movielens和Last.fm将本文算法与其他不采用上下文信息的最新方法进行比较,实验结果表明该方法在一定程度上提升了推荐性能. 展开更多
关键词 推荐系统 冷启动 多臂赌博机 矩阵分解
在线阅读 下载PDF
一种核的上下文多臂赌博机推荐算法 被引量:3
10
作者 王鼎 门昌骞 王文剑 《智能系统学报》 CSCD 北大核心 2022年第3期625-633,共9页
个性化推荐服务在当今互联网时代越来越重要,但是传统推荐算法不适应一些高度变化场景。将线性上下文多臂赌博机算法(linear upper confidence bound,LinUCB)应用于个性化推荐可以有效改善传统推荐算法存在的问题,但遗憾的是准确率并不... 个性化推荐服务在当今互联网时代越来越重要,但是传统推荐算法不适应一些高度变化场景。将线性上下文多臂赌博机算法(linear upper confidence bound,LinUCB)应用于个性化推荐可以有效改善传统推荐算法存在的问题,但遗憾的是准确率并不是很高。本文针对LinUCB算法推荐准确率不高这一问题,提出了一种改进算法K-UCB(kernel upper confidence bound)。该算法突破了LinUCB算法中不合理的线性假设前提,利用核方法拟合预测收益与上下文间的非线性关系,得到了一种新的在非线性数据下计算预测收益置信区间上界的方法,以解决推荐过程中的探索–利用困境。实验表明,本文提出的K-UCB算法相比其他基于多臂赌博机推荐算法有更高的点击率(click-through rate,CTR),能更好地适应变化场景下个性化推荐的需求。 展开更多
关键词 个性化推荐 变化场景 多臂赌博机 线性上下文多臂赌博机 核方法 点击率 非线性 探索–利用困境
在线阅读 下载PDF
基于多臂赌博机的卫星通信系统子载波分配算法 被引量:2
11
作者 刘智鹏 赵柏 +2 位作者 林敏 孙士勇 欧阳键 《南京邮电大学学报(自然科学版)》 北大核心 2023年第3期35-43,共9页
为了提升卫星通信系统的频谱效率,在卫星系统采用正交频分多址(Orthogonal Frequency Division Multiple Access,OFDMA)传输技术的情况下,提出了一种基于多臂赌博机(Multi⁃Armed Bandit,MAB)的子载波分配算法。首先,建立基于OFDMA的卫... 为了提升卫星通信系统的频谱效率,在卫星系统采用正交频分多址(Orthogonal Frequency Division Multiple Access,OFDMA)传输技术的情况下,提出了一种基于多臂赌博机(Multi⁃Armed Bandit,MAB)的子载波分配算法。首先,建立基于OFDMA的卫星系统上行链路多用户传输模型。然后建立以用户总速率最大化为目标,以用户最大发射功率和用户服务质量为约束条件的资源分配问题。接着,利用MAB能在环境信息部分未知时在线学习摇臂选择策略的特性来求解该优化问题,并获得子载波分配方案。仿真结果表明,所提算法能实现系统子载波的自适应分配,同时用户总速率与贪婪算法在已知信道状态信息下获得的用户总速率几乎相同。 展开更多
关键词 卫星通信 OFDMA 子载波分配 多臂赌博机
在线阅读 下载PDF
基于多臂赌博机的频率捷变雷达在线决策方法
12
作者 朱鸿宇 何丽丽 +2 位作者 刘峥 谢荣 冉磊 《雷达学报(中英文)》 EI CSCD 北大核心 2023年第6期1263-1274,共12页
频率捷变技术发挥了雷达在电子对抗中主动对抗优势,可以有效提升雷达的抗噪声压制式干扰性能。然而,随着干扰环境的日益复杂,在无法事先了解环境性质的情况下,设计一种具有动态适应能力的频率捷变雷达在线决策方法是一个具有挑战性的问... 频率捷变技术发挥了雷达在电子对抗中主动对抗优势,可以有效提升雷达的抗噪声压制式干扰性能。然而,随着干扰环境的日益复杂,在无法事先了解环境性质的情况下,设计一种具有动态适应能力的频率捷变雷达在线决策方法是一个具有挑战性的问题。该文根据干扰策略的特征,将压制式干扰场景分为3类,并以最大化检测概率为目标,设计了一种基于多臂赌博机(MAB)的频率捷变雷达在线决策方法。该方法是一种在线学习算法,无需干扰环境的先验知识和离线训练过程,在不同干扰场景下均实现了优异的学习性能。理论分析和仿真结果表明,与经典算法和随机捷变策略相比,所提方法具有更强的灵活性,在多种干扰场景下均能够有效提升频率捷变雷达的抗干扰和目标检测性能。 展开更多
关键词 频率捷变 噪声压制式干扰 检测概率 多臂赌博机(mab) 在线学习
在线阅读 下载PDF
基于组合多臂赌博机的移动群智感知用户招募算法 被引量:2
13
作者 蒋伟进 陈萍萍 +2 位作者 张婉清 孙永霞 陈君鹏 《电子与信息学报》 EI CSCD 北大核心 2022年第3期1119-1128,共10页
在移动群智感知任务分配中,数据平台不知道用户的感知质量或成本值的前提下,如何建立合适的用户招募机制是该文需要解决的关键问题,不仅需要在用户执行的过程学习其感知质量值,还要尽可能保证移动群智感知平台的高效性和利润最大化。因... 在移动群智感知任务分配中,数据平台不知道用户的感知质量或成本值的前提下,如何建立合适的用户招募机制是该文需要解决的关键问题,不仅需要在用户执行的过程学习其感知质量值,还要尽可能保证移动群智感知平台的高效性和利润最大化。因此该文提出基于组合多臂赌博机(CMAB)的移动群智感知用户招募算法来解决用户成本已知和未知的招募问题。首先把用户招募过程建模为组合多臂赌博机模型,每个摇臂代表选择不同的用户,所获得的收益代表用户的感知质量;其次提出基于上限置信区间(UCB)算法的感知质量函数,根据任务完成情况更新用户的感知质量;然后在每轮的用户招募过程中,学习用户的感知质量和成本,并提出一种新颖的贪婪修复算法。该算法是将用户的感知质量值从高到低进行排序,再选择满足预算条件下感知质量值与招募成本最大比率的用户,最后分配任务和更新其感知质量。最后进行了大量基于真实数据集的实验仿真,以此验证算法的可行性与有效性。 展开更多
关键词 移动群智感知 组合多臂赌博机 用户招募 感知质量 强化学习
在线阅读 下载PDF
在线核选择的对抗式多臂赌博机模型 被引量:2
14
作者 李峻樊 廖士中 《计算机科学》 CSCD 北大核心 2019年第1期57-63,共7页
在线核选择是在线核方法的重要工作,可分为过滤式、包裹式和嵌入式3种类型。已有在线核选择探索了包裹式方法和嵌入式方法,也经验地采用了过滤式方法,但迄今尚没有一个统一的框架来比较、分析并研究各种在线核选择问题。文中提出一种在... 在线核选择是在线核方法的重要工作,可分为过滤式、包裹式和嵌入式3种类型。已有在线核选择探索了包裹式方法和嵌入式方法,也经验地采用了过滤式方法,但迄今尚没有一个统一的框架来比较、分析并研究各种在线核选择问题。文中提出一种在线核选择的多臂赌博机模型,该模型可作为一个统一框架,同时给出在线核选择的包裹式方法和嵌入式方法。给定候选核集合,候选集中的一个核对应多臂赌博机模型中的一个臂,在线核选择的每回合依据一个概率分布重复地随机选择多个核,并应用指数加权的方法来更新该概率分布。这样,在线核选择问题本质上可归约为一个非遗忘对手环境下的对抗式多臂赌博机问题,并可应用对抗式多臂赌博机模型统一地给出在线核选择的包裹式方法和嵌入式方法。文中进一步提出一个新的在线核选择后悔的概念,理论证明包裹式方法具有关于回合数亚线性的弱期望后悔界,并且嵌入式方法具有关于回合数亚线性的期望后悔界。最后,在标准数据集上通过实验验证了所提统一框架的可行性。 展开更多
关键词 在线核选择 对抗式多臂赌博机 非遗忘对手 统一框架
在线阅读 下载PDF
以多臂赌博机建模的多目标互动式推荐系统 被引量:1
15
作者 何炜俊 艾丹祥 《小型微型计算机系统》 CSCD 北大核心 2021年第6期1192-1198,共7页
许多推荐技术(如协同过滤)存在以下不足,降低了用户的体验满意度和忠诚度:1)忽略了“用户兴趣和商品属性会随时间而改变”这一事实;2)过度追求预测准确性而牺牲了推荐多样性和新颖性.为此,提出一种能动态适应上述变化,同时优化推荐准确... 许多推荐技术(如协同过滤)存在以下不足,降低了用户的体验满意度和忠诚度:1)忽略了“用户兴趣和商品属性会随时间而改变”这一事实;2)过度追求预测准确性而牺牲了推荐多样性和新颖性.为此,提出一种能动态适应上述变化,同时优化推荐准确度、多样度和新颖度的互动式推荐系统.主要步骤:1)采用理想点法构造多目标优化函数;2)收集用户反馈信息,及时地更新推荐策略;3)基于多臂赌博机构建互动式推荐框架.实验表明,经过与用户不断地互动推荐,该系统的平均列表准确度、多样度和新颖度都在逐步提升. 展开更多
关键词 推荐系统 多目标规划 多臂赌博机 互动式推荐
在线阅读 下载PDF
基于三元多臂赌博机的树结构最优动作识别
16
作者 刘郭庆 王婕婷 +1 位作者 胡治国 钱宇华 《计算机应用》 CSCD 北大核心 2019年第8期2252-2260,共9页
蒙特卡罗树搜索(MCTS)在棋类博弈问题中展现出卓越的性能,但目前多数研究仅考虑胜负两种反馈从而假设博弈结果服从伯努利分布,然而这种设定忽略了常出现的平局结果,导致不能准确地评估盘面状态甚至错失最优动作。针对这个问题,首先构建... 蒙特卡罗树搜索(MCTS)在棋类博弈问题中展现出卓越的性能,但目前多数研究仅考虑胜负两种反馈从而假设博弈结果服从伯努利分布,然而这种设定忽略了常出现的平局结果,导致不能准确地评估盘面状态甚至错失最优动作。针对这个问题,首先构建了基于三元分布的多臂赌博机(TMAB)模型并提出了最优臂确认算法TBBA;然后,将TBBA算法应用到三元极大极小采样树(TMST)中,提出了简单迭代TBBA算法的TBBA_tree算法和通过将树结构转化成TMAB的三元极大极小采样树TMST最优动作识别(TTBA)算法。在实验部分,建立了两个精度不同的摇臂空间并在其基础上构造了多个具有对比性的TMAB和TMST。实验结果表明,相比均匀采样算法,TBBA算法准确率保持稳步上升且部分能达到100%,TBBA算法准确率基本保持在80%以上且具有良好的泛化性和稳定性,不会出现异常值和波动区间。 展开更多
关键词 蒙特卡罗树搜索 三元多臂赌博机 最优确认 序列决策 纯探索
在线阅读 下载PDF
基于K-臂赌博机的多无人机空地网络动态资源分配方法 被引量:2
17
作者 马楠 许魁 +3 位作者 夏晓晨 谢威 徐键卉 申麦英 《电子与信息学报》 EI CSCD 北大核心 2022年第9期3117-3125,共9页
针对配置大规模MIMO的多无人机空地网络中的动态资源分配问题,从最大化系统吞吐量的角度出发,该文提出一种基于K-臂赌博机的强化学习算法联合优化多个无人机的用户选择与功率分配策略。首先根据地理位置对用户进行分簇,利用簇中心节点... 针对配置大规模MIMO的多无人机空地网络中的动态资源分配问题,从最大化系统吞吐量的角度出发,该文提出一种基于K-臂赌博机的强化学习算法联合优化多个无人机的用户选择与功率分配策略。首先根据地理位置对用户进行分簇,利用簇中心节点规划无人机飞行路径;其次在不考虑无人机之间端到端通信的情况下,将多无人机资源分配问题转化为相互独立的多个智能体强化学习问题;最后提出分幕式多智能体多状态K-臂赌博机算法来实现用户选择与功率分配的联合优化。通过将无人机每个时刻的位置索引定义为状态空间,从而使得无人机可动态适配自身位置及信道的动态变化。仿真结果表明,所提方案可根据环境状态变化自主智能调整资源分配策略,相比于已有方案能有效提升系统总吞吐量。 展开更多
关键词 无人机空地网络 动态资源分配 多智能体强化学习 K-赌博机 大规模MIMO
在线阅读 下载PDF
基于时间反演的多臂赌博机跳空图案生成算法
18
作者 吕志强 朱江 《系统工程与电子技术》 EI CSCD 北大核心 2020年第12期2906-2914,共9页
在多输入多输出(multiple input multiple output,MIMO)系统中,为了实现系统的防窃听能力,并提高系统容量,提出了一种基于时间反演的多臂赌博机跳空图案生成算法。该算法考虑信道状态信息的误差,以时间反演和跳空通信为基础,结合使用多... 在多输入多输出(multiple input multiple output,MIMO)系统中,为了实现系统的防窃听能力,并提高系统容量,提出了一种基于时间反演的多臂赌博机跳空图案生成算法。该算法考虑信道状态信息的误差,以时间反演和跳空通信为基础,结合使用多臂赌博机算法选取最优跳空图案以提高系统容量的同时降低因防窃听对合法接收端性能的影响。理论分析和仿真结果表明,该算法在防窃听性能、系统容量方面具有优势。 展开更多
关键词 时间反演 多臂赌博机 跳空图案 系统容量
在线阅读 下载PDF
基于预算时变的多臂赌博机模型 被引量:1
19
作者 林宝玲 贾日恒 +2 位作者 林飞龙 郑忠龙 李明禄 《计算机科学》 CSCD 北大核心 2022年第S02期175-180,共6页
目前已有很多有关预算的多臂赌博机模型,但这些模型能解决的实际问题具有局限性,即这些问题必须都是全程受一个总预算限制。对此,文中提出基于预算时变的多臂赌博机模型,该模型能够打破这种局限性,并被用于解决其他更多的实际问题。该... 目前已有很多有关预算的多臂赌博机模型,但这些模型能解决的实际问题具有局限性,即这些问题必须都是全程受一个总预算限制。对此,文中提出基于预算时变的多臂赌博机模型,该模型能够打破这种局限性,并被用于解决其他更多的实际问题。该模型抓住了学习者每一轮的动作都受到相应这一轮预算限制的情况。更具体地说,每一轮,玩家都需要在相应这一轮预算的限制下选择拉L(L≥1)个臂(L不是一个固定值)。玩家的目标就是在每一轮预算的限制下,最大化总的平均奖励。根据这个模型,文中提出基于置信界的动态规划算法。该算法利用模型的特点,每一轮都以臂的经验平均奖励的置信上界为依据,然后使用动态规划算法进行拉臂操作。文中进一步引入遗憾的概念,并从理论上推导得出该算法遗憾的上界与最终预算的总和存在一定的关系。最后,通过实验,将所提算法在不同场景下和其他几个传统的预算受限的多臂赌博机算法(ε-first,KUBE,BTS)进行比较,验证了所提算法的可行性。 展开更多
关键词 多臂赌博机 预算时变 经验平均奖励 动态规划 遗憾
在线阅读 下载PDF
移动群智感知中发掘潜在高质量用户的激励机制
20
作者 江海峰 商景杰 +1 位作者 王树豪 张寿军 《小型微型计算机系统》 北大核心 2025年第3期620-626,共7页
在移动群智感知的激励机制中,用户的感知质量和能力是重要的指标,对不同类型的任务是有差异的,用笼统的感知质量与能力标准选择用户往往会埋没潜在的高质量用户.针对这一问题,本文将用户的感知质量与能力根据任务的不同类型进行细分,在... 在移动群智感知的激励机制中,用户的感知质量和能力是重要的指标,对不同类型的任务是有差异的,用笼统的感知质量与能力标准选择用户往往会埋没潜在的高质量用户.针对这一问题,本文将用户的感知质量与能力根据任务的不同类型进行细分,在用户感知质量与能力未知的情况下,将用户选择问题建模成反向拍卖与多臂赌博机模型,不断学习与更新用户的感知质量与能力值,使用置信区间上界的方法估计用户的感知质量,并将其与用户的能力和报价作为选择用户的标准,提出了基于置信区间上界的质量与能力并驱的激励机制.当能力值均值达到平台规定的阈值时,用户将拥有招募其他用户的权限,并从其招募的用户完成的任务中获得额外的收益.本文证明了该激励机制满足计算有效性、真实性和个体理性.仿真实验结果表明,本文所提的激励机制在用户平均效用、任务平均质量和不同任务类型高能力值用户占比等方面具有良好的性能. 展开更多
关键词 移动群智感知 激励机制 多臂赌博机 置信区间上界
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部