-
题名基于多摇臂赌博机的产品定价算法
被引量:1
- 1
-
-
作者
毕文杰
郭乐薇
-
机构
中南大学商学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2021年第11期224-231,共8页
-
基金
国家自然科学基金重大研究计划(91646115)。
-
文摘
针对在线零售商在不完全需求信息下的单产品定价问题,提出了一种基于多摇臂赌博机的产品定价算法。为了提升多摇臂赌博机算法在定价问题中的效果,该算法利用了需求曲线的单调性,并加入了消费者偏好识别。对消费者的保留价格进行分析得到消费者购买概率,将在线零售商的定价问题建模为多摇臂赌博机模型,给出了相应的定价算法并进行了理论分析,最后通过仿真实验比较了相关算法的定价效果。仿真结果表明该算法提高了在线零售商的收益。
-
关键词
动态定价
多摇臂赌博机
UCB1算法
-
Keywords
dynamic pricing
multi-armed bandit
UCB1 algorithm
-
分类号
F272
[经济管理—企业管理]
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名在线学习方法综述:汤普森抽样和其他方法
被引量:6
- 2
-
-
作者
何斯迈
金羽佳
王华
葛冬冬
-
机构
上海财经大学信息管理与工程学院
复旦大学数学科学学院
上海财经大学交叉科学研究院
-
出处
《运筹学学报》
CSCD
北大核心
2017年第4期84-102,共19页
-
基金
国家自然科学基金(No.11471205)
上海高校特聘教授(东方学者)岗位计划(No.15140002)
+1 种基金
上海财经大学创新团队支持计划(Nos.2014110354
2016110392)
-
文摘
本文尝试对在线学习领域的最新研究成果、相关主要理论和算法进行综述.在线学习的内容非常广博,本文希望能够为读者介绍其中一些基本的算法和想法,从最经典的理论模型和算法设计开始,对在线学习的发展情况作一个一般性的介绍.首先,以经典的在线优化模型——多摇臂赌博机问题为例,引入了汤普森抽样算法和信心上界算法,分析、展示了它们的基本思路和最新成果,并进一步讨论了汤普森抽样算法在更复杂的在线学习问题中的变式和应用.本文同时对在线凸优化算法做了初步探讨,它也是解决多摇臂赌博机问题和其他许多在线学习的应用问题时一种强有力的工具.
-
关键词
在线学习
多摇臂赌博机
汤普森抽样
信心上界算法
情境多摇臂赌博机
在线凸优化
-
Keywords
online learning, multi-armed bandit, Thompson sampling, upper confi-dence bound, contextual multi-armed bandit, online convex optimization
-
分类号
O212.2
[理学—概率论与数理统计]
-
-
题名基于探索-利用模型优化AFL变异的方法
- 3
-
-
作者
徐鹏
刘嘉勇
林波
-
机构
四川大学电子信息学院
四川大学网络空间安全学院
-
出处
《信息网络安全》
CSCD
北大核心
2019年第6期61-67,共7页
-
基金
国家重点研发计划[2017YFB0802904]
-
文摘
模糊测试是通过不断生成不同的输入来测试程序从而发现并识别安全漏洞,已经广泛应用于漏洞挖掘中。目前灰盒模糊测试是最流行的模糊测试策略,它将轻量级代码插桩与数据反馈驱动相结合,以生成新的程序输入。AFL(American Fuzzy Lop)是一种卓越的灰盒模糊测试工具,其以高效的forkserver执行、可靠的遗传算法和多种的变异策略著称,但其变异策略主要采样随机变异,存在较大的盲目性。文章提出了一种运用强化学习的方法来优化变异的策略,以多摇臂赌博机问题为模型,记录不同变异方式产生的输入在目标程序中的执行效果,利用探索-利用算法自适应地学习变异操作结果的概率分布情况,智能地进行变异操作策略调整,提升AFL的模糊测试性能。文章选择汤普森采样为优化算法设计实现了AFL-EE模糊测试工具,并对5类常用的文件类程序进行了验证测试,实验表明该方法能自动调整变异操作策略,有效地产生覆盖率高的测试输入,方法可行、额外资源消耗较小,总体上优于AFL工具。
-
关键词
AFL
多摇臂赌博机
探索-利用
汤普森采样
-
Keywords
AFL
multi-armed bandit
exploration-exploitation
thompson sampling
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-