期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
考虑时变奖励的多摇臂算法在动态定价中的应用 被引量:1
1
作者 乔勋双 毕文杰 《计算机工程与应用》 CSCD 北大核心 2021年第12期237-242,共6页
考虑到动态定价是一个非固定性的多摇臂(Multi-Armed Bandit,MAB)问题,即厂商的利润会随时间变化,因此在相关研究基础上,研究了需求不确定情况下考虑时变奖励的置信区间上界(Upper Confidence Bound,UCB)算法在动态定价问题上的应用。... 考虑到动态定价是一个非固定性的多摇臂(Multi-Armed Bandit,MAB)问题,即厂商的利润会随时间变化,因此在相关研究基础上,研究了需求不确定情况下考虑时变奖励的置信区间上界(Upper Confidence Bound,UCB)算法在动态定价问题上的应用。将商品定价问题描述为一个多摇臂问题,并构建利润最大化模型求得最优解。仿真结果表明,通过将考虑时变奖励的置信区间上界算法与基础的多摇臂算法进行对比分析,所提出的算法学得的奖励更加接近真实奖励,收敛速度更快。相较于前人研究,该模型考虑了时变因素,更加符合现实场景中的动态定价,为厂商定价提供了相应的决策支持。 展开更多
关键词 多摇臂算法 动态定价 置信区间上界算法
在线阅读 下载PDF
高速铁路场景中基于MAB模型的多信道选择算法
2
作者 朱豪 彭艺 +1 位作者 张申 李启骞 《吉林大学学报(理学版)》 CAS 北大核心 2021年第2期365-371,共7页
针对高速列车越区切换过程中,切换带为多信道分布的问题,提出一种基于多臂老虎机(multi-armed bandit,MAB)模型的信道选择算法.首先,以置信区间上界(UCB)算法为基础,通过设置信道空闲差异因子,使算法快速收敛于最优信道;其次,通过引入... 针对高速列车越区切换过程中,切换带为多信道分布的问题,提出一种基于多臂老虎机(multi-armed bandit,MAB)模型的信道选择算法.首先,以置信区间上界(UCB)算法为基础,通过设置信道空闲差异因子,使算法快速收敛于最优信道;其次,通过引入满意通信概率(SCP),衡量移动列车的通信质量,分析与切换过程中误码率之间的关系;最后,利用最优信道选择比率、成功传输率和累积接入损失作为评判标准,分析算法的性能.仿真结果表明,该算法的累积接入损失比原始UCB算法减少了约18.5%;对比随机选择算法与原始UCB算法,成功传输率提高了约30.2%和3.3%;最优选择比率提高了约88.3%和13.5%. 展开更多
关键词 越区切换 多臂老虎机模型 置信区间上界算法 满意通信概率
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部