-
题名考虑时变奖励的多摇臂算法在动态定价中的应用
被引量:1
- 1
-
-
作者
乔勋双
毕文杰
-
机构
中南大学商学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2021年第12期237-242,共6页
-
基金
国家自然科学基金重大研究计划-培育项目(91646115)。
-
文摘
考虑到动态定价是一个非固定性的多摇臂(Multi-Armed Bandit,MAB)问题,即厂商的利润会随时间变化,因此在相关研究基础上,研究了需求不确定情况下考虑时变奖励的置信区间上界(Upper Confidence Bound,UCB)算法在动态定价问题上的应用。将商品定价问题描述为一个多摇臂问题,并构建利润最大化模型求得最优解。仿真结果表明,通过将考虑时变奖励的置信区间上界算法与基础的多摇臂算法进行对比分析,所提出的算法学得的奖励更加接近真实奖励,收敛速度更快。相较于前人研究,该模型考虑了时变因素,更加符合现实场景中的动态定价,为厂商定价提供了相应的决策支持。
-
关键词
多摇臂算法
动态定价
置信区间上界算法
-
Keywords
multi-armed bandit algorithm
dynamic pricing
upper confidence bound
-
分类号
C93
[经济管理—管理学]
-
-
题名高速铁路场景中基于MAB模型的多信道选择算法
- 2
-
-
作者
朱豪
彭艺
张申
李启骞
-
机构
昆明理工大学信息工程与自动化学院
-
出处
《吉林大学学报(理学版)》
CAS
北大核心
2021年第2期365-371,共7页
-
基金
国家自然科学基金(批准号:61761025,61861023).
-
文摘
针对高速列车越区切换过程中,切换带为多信道分布的问题,提出一种基于多臂老虎机(multi-armed bandit,MAB)模型的信道选择算法.首先,以置信区间上界(UCB)算法为基础,通过设置信道空闲差异因子,使算法快速收敛于最优信道;其次,通过引入满意通信概率(SCP),衡量移动列车的通信质量,分析与切换过程中误码率之间的关系;最后,利用最优信道选择比率、成功传输率和累积接入损失作为评判标准,分析算法的性能.仿真结果表明,该算法的累积接入损失比原始UCB算法减少了约18.5%;对比随机选择算法与原始UCB算法,成功传输率提高了约30.2%和3.3%;最优选择比率提高了约88.3%和13.5%.
-
关键词
越区切换
多臂老虎机模型
置信区间上界算法
满意通信概率
-
Keywords
handover
multi-armed bandit(MAB)model
upper-confidence bound(UCB)algorithm
satisfactory communication probability(SCP)
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
TN929.5
[电子电信—通信与信息系统]
-