期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
单臂Erlang(k) Bandit报酬过程
被引量:
1
1
作者
邹捷中
邓倩
梁友
《长沙电力学院学报(自然科学版)》
2006年第4期69-71,77,共4页
应用贝叶斯方法,对未知Band it报酬过程的抽样报酬基于Erlang(k)分布的单臂Erlang(k)Band it报酬过程提出计算描述最优选择的平衡值序列的算法.有效解决了单臂Erlang(k)Band it报酬过程的最优决策问题,将Band it报酬过程基于的分布从负...
应用贝叶斯方法,对未知Band it报酬过程的抽样报酬基于Erlang(k)分布的单臂Erlang(k)Band it报酬过程提出计算描述最优选择的平衡值序列的算法.有效解决了单臂Erlang(k)Band it报酬过程的最优决策问题,将Band it报酬过程基于的分布从负指数分布推广至目前在实际中应用更为广泛的分布,是对Band it报酬过程的补充和推广.使用本算法通过数值计算可以得到G ittins指数的近似解.
展开更多
关键词
贝叶斯方法
多臂
bandit
过程
单臂
bandit
过程
Gittins指数
平衡值
bandit
报酬过程
分布
在线阅读
下载PDF
职称材料
考虑抽样时间间隔的特殊单臂Bandit报酬过程
2
作者
邹捷中
梁友
《铁道科学与工程学报》
CAS
CSCD
北大核心
2006年第6期87-90,共4页
应用动态规划向后归纳法和贝叶斯方法,研究了一类特殊单臂Bandit报酬过程的最优决策问题。在这个模型中,未知Bandit过程是抽样时间间隔服从负指数分布,抽样值服从Erlang(2)分布,允许在任意时刻跳转的Bandit报酬过程。讨论了这类Bandit...
应用动态规划向后归纳法和贝叶斯方法,研究了一类特殊单臂Bandit报酬过程的最优决策问题。在这个模型中,未知Bandit过程是抽样时间间隔服从负指数分布,抽样值服从Erlang(2)分布,允许在任意时刻跳转的Bandit报酬过程。讨论了这类Bandit报酬过程Gittins指数的单调性质,并在此基础上将包含这类过程的单臂Bandit报酬过程的最优决策问题简化为一个最优停止问题,构造了计算过程最优停止时间的算法。
展开更多
关键词
贝叶斯方法
特殊单臂
bandit
报酬过程
Gittins指灵敏
Erlang(2)布
在线阅读
下载PDF
职称材料
题名
单臂Erlang(k) Bandit报酬过程
被引量:
1
1
作者
邹捷中
邓倩
梁友
机构
中南大学数学科学与计算技术学院
出处
《长沙电力学院学报(自然科学版)》
2006年第4期69-71,77,共4页
文摘
应用贝叶斯方法,对未知Band it报酬过程的抽样报酬基于Erlang(k)分布的单臂Erlang(k)Band it报酬过程提出计算描述最优选择的平衡值序列的算法.有效解决了单臂Erlang(k)Band it报酬过程的最优决策问题,将Band it报酬过程基于的分布从负指数分布推广至目前在实际中应用更为广泛的分布,是对Band it报酬过程的补充和推广.使用本算法通过数值计算可以得到G ittins指数的近似解.
关键词
贝叶斯方法
多臂
bandit
过程
单臂
bandit
过程
Gittins指数
平衡值
bandit
报酬过程
分布
Keywords
bayesian approach
multi-armed
bandit
process
es
one-armed
bandit
process
gittins index
break-even values
bandit reward process
distribution
分类号
O211.64 [理学—概率论与数理统计]
在线阅读
下载PDF
职称材料
题名
考虑抽样时间间隔的特殊单臂Bandit报酬过程
2
作者
邹捷中
梁友
机构
中南大学数学科学与计算技术学院
出处
《铁道科学与工程学报》
CAS
CSCD
北大核心
2006年第6期87-90,共4页
基金
国家自然科学基金资助项目(10671212)
文摘
应用动态规划向后归纳法和贝叶斯方法,研究了一类特殊单臂Bandit报酬过程的最优决策问题。在这个模型中,未知Bandit过程是抽样时间间隔服从负指数分布,抽样值服从Erlang(2)分布,允许在任意时刻跳转的Bandit报酬过程。讨论了这类Bandit报酬过程Gittins指数的单调性质,并在此基础上将包含这类过程的单臂Bandit报酬过程的最优决策问题简化为一个最优停止问题,构造了计算过程最优停止时间的算法。
关键词
贝叶斯方法
特殊单臂
bandit
报酬过程
Gittins指灵敏
Erlang(2)布
Keywords
Bayesian approach
a special one- armed
bandit reward process
Gittins index
Erlang(2) distribution
分类号
O211.64 [理学—概率论与数理统计]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
单臂Erlang(k) Bandit报酬过程
邹捷中
邓倩
梁友
《长沙电力学院学报(自然科学版)》
2006
1
在线阅读
下载PDF
职称材料
2
考虑抽样时间间隔的特殊单臂Bandit报酬过程
邹捷中
梁友
《铁道科学与工程学报》
CAS
CSCD
北大核心
2006
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部