期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
7
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于马尔科夫决策的目标选择策略
被引量:
5
1
作者
雷霆
朱承
张维明
《国防科技大学学报》
EI
CAS
CSCD
北大核心
2014年第2期161-167,共7页
目标选择是军事计划的关键要素之一。基于马尔科夫决策方法,解决具有复杂目标间关联的多阶段目标选择问题。使用与或树描述目标体系各层状态间的影响关联,并以目标体系整体失效为求解目的,建立了基于离散时间MDP的多阶段打击目标选择模...
目标选择是军事计划的关键要素之一。基于马尔科夫决策方法,解决具有复杂目标间关联的多阶段目标选择问题。使用与或树描述目标体系各层状态间的影响关联,并以目标体系整体失效为求解目的,建立了基于离散时间MDP的多阶段打击目标选择模型。在LRTDP算法基础上提出一种启发式方法,通过判断从当前目标体系状态到达体系失效状态的演化过程中的可能资源消耗和失败概率,来提供对当前状态的评估值,该方法能有效排除问题搜索空间中不能到达体系失效目的的中间状态,压缩了由于目标间复杂关联而增长的巨大状态空间。用实验验证了该方法有效性,实验结果表明,该方法直观实用,对目标间具有复杂关联关系的目标打击决策有一定参考价值。
展开更多
关键词
目标选择
目标体系
与或树
离散时间马尔科夫决策过程
在线阅读
下载PDF
职称材料
基于离散Markov决策过程的发电公司多阶段决策
被引量:
2
2
作者
张宏刚
宋依群
《上海交通大学学报》
EI
CAS
CSCD
北大核心
2004年第8期1238-1240,1245,共4页
采用离散时间Markov决策过程(DTMDP)对以多阶段总利润最优为目标的发电公司决策问题进行研究.市场环境下,发电公司根据自身条件,其竞争策略可以是价格的接受者,也可以是价格的制定者.考虑了发电公司不同策略情况下市场均衡状态间的转换...
采用离散时间Markov决策过程(DTMDP)对以多阶段总利润最优为目标的发电公司决策问题进行研究.市场环境下,发电公司根据自身条件,其竞争策略可以是价格的接受者,也可以是价格的制定者.考虑了发电公司不同策略情况下市场均衡状态间的转换概率,分别给出了发电公司作为价格接受者和价格制定者时的多阶段决策模型.通过算例验证了所提模型的有效性和可行性.
展开更多
关键词
电力市场
离散
时间
Markov
决策
过程
决策
问题
在线阅读
下载PDF
职称材料
基于时间策略的连续时间Markov过程验证
被引量:
1
3
作者
黄镇谨
陈波
欧阳浩
《广西科技大学学报》
CAS
2014年第3期59-62,86,共5页
对系统模型进行验证是保证系统安全的一个关键.连续时间Markov过程可以刻画复杂并发系统的随机、概率、不确定性特征.提出时间依赖策略下连续时间Markov过程验证方法,将连续时间Markov过程转换成为交互式马尔科夫链,给出模型的转换方法...
对系统模型进行验证是保证系统安全的一个关键.连续时间Markov过程可以刻画复杂并发系统的随机、概率、不确定性特征.提出时间依赖策略下连续时间Markov过程验证方法,将连续时间Markov过程转换成为交互式马尔科夫链,给出模型的转换方法及不确定性选择策略的转换方法,最终通过求解交互式马尔科夫链的时间可达概率最值实现对连续时间Markov过程模型的验证.理论分析表明,提出的方法具有可行性.
展开更多
关键词
马尔科夫
决策
过程
交互式
马尔科夫
链
时间
有界可达概率
时间
策略
在线阅读
下载PDF
职称材料
风险概率准则下的非平稳马氏决策过程
4
作者
温馨
徐小雅
郭先平
《应用概率统计》
CSCD
北大核心
2023年第4期589-603,共15页
本文研究一类非平稳离散马氏决策过程的风险概率最小化问题,其中转移概率和奖励函数随时间变化.与现有文献中的期望报酬/成本准则不同,本文考虑最小化系统在首次到达某个目标集之前获得的总报酬未能达到给定利润目标的概率.在合理的假...
本文研究一类非平稳离散马氏决策过程的风险概率最小化问题,其中转移概率和奖励函数随时间变化.与现有文献中的期望报酬/成本准则不同,本文考虑最小化系统在首次到达某个目标集之前获得的总报酬未能达到给定利润目标的概率.在合理的假设条件下,我们建立了相应的最优方程序列,验证了最优风险函数序列是最优方程序列的唯一解,并证明了最优马氏策略的存在性.
展开更多
关键词
非平稳
离散
马氏
决策
过程
风险概率准则
最优方程序列
首达
时间
最优马氏策略
在线阅读
下载PDF
职称材料
一种基于随机投影的贝叶斯时间差分算法
被引量:
1
5
作者
刘全
于俊
+2 位作者
王辉
傅启明
朱斐
《电子学报》
EI
CAS
CSCD
北大核心
2016年第11期2752-2757,共6页
在强化学习方法中,大部分的算法都是基于值函数评估的算法.高斯过程时间差分算法利用贝叶斯方法来评估值函数,通过贝尔曼公式和贝叶斯规则,建立立即奖赏与值函数之间的概率生成模型.在状态空间中,通过在线核稀疏化并利用最小二乘方法来...
在强化学习方法中,大部分的算法都是基于值函数评估的算法.高斯过程时间差分算法利用贝叶斯方法来评估值函数,通过贝尔曼公式和贝叶斯规则,建立立即奖赏与值函数之间的概率生成模型.在状态空间中,通过在线核稀疏化并利用最小二乘方法来求解新样本的近似线性逼近,以提高算法的执行速度,但时间复杂度依然较高.针对在状态空间中近似状态的选择问题,在高斯过程框架下提出一种基于随机投影的贝叶斯时间差分算法,该算法利用哈希函数把字典状态集合中的元素映射成哈希值,根据哈希值进行分组,进而减少状态之间的比较.实验结果表明,该方法不仅能够提高算法的执行速度,而且较好地平衡了评估状态值函数精度和算法执行时间.
展开更多
关键词
强化学习
马尔科夫
决策
过程
高斯
过程
随机投影
时间
差分算法
在线阅读
下载PDF
职称材料
特大城市居民出行行为决策研究
被引量:
2
6
作者
顾玉磊
陈文强
吴群琪
《湘潭大学自然科学学报》
CAS
CSCD
北大核心
2012年第4期8-12,共5页
为研究特大城市居民出行决策规律,以居民常规出行方式(步行和乘公交车)为研究对象,以期望效用理论为理论基础,以居民出行时间价值损失最小为约束条件,构建居民出行行为的马尔科夫决策模型.研究结果显示:在特定的出行范围内,居民出行行...
为研究特大城市居民出行决策规律,以居民常规出行方式(步行和乘公交车)为研究对象,以期望效用理论为理论基础,以居民出行时间价值损失最小为约束条件,构建居民出行行为的马尔科夫决策模型.研究结果显示:在特定的出行范围内,居民出行行为决策与居民的出行时间价值关系密切,出行时间价值越高,选择可靠性高、时间价值实现风险低的出行方式概率越大.
展开更多
关键词
出行
决策
出行
时间
价值
出行方式
马尔科夫
决策
过程
在线阅读
下载PDF
职称材料
基于POMDP的认知无线电自适应频谱感知算法
被引量:
12
7
作者
许瑞琛
蒋挺
《通信学报》
EI
CSCD
北大核心
2013年第6期49-56,共8页
针对如何建立适合毫秒级频谱空洞场景的频谱感知机制这一问题,推导出最佳次级用户单次数据传输时间长度,解决了数据传输量最大化的问题;其次提出一种基于部分可观测马尔科夫决策过程(POMDP,partiallyobservable Markov decision process...
针对如何建立适合毫秒级频谱空洞场景的频谱感知机制这一问题,推导出最佳次级用户单次数据传输时间长度,解决了数据传输量最大化的问题;其次提出一种基于部分可观测马尔科夫决策过程(POMDP,partiallyobservable Markov decision process)的自适应频谱感知算法,解决了快速接入毫秒级频谱空洞的问题。该算法根据上一决策时段的信念向量和感知结果自适应确定在当前决策时段内进行频谱感知或数据传输行为。仿真结果表明,该自适应频谱感知算法能够有效控制次级用户和主用户的冲突概率并增加频谱利用率。
展开更多
关键词
部分可观测
马尔科夫
决策
过程
自适应感知
数据传输
时间
冲突概率
频谱利用率
在线阅读
下载PDF
职称材料
题名
基于马尔科夫决策的目标选择策略
被引量:
5
1
作者
雷霆
朱承
张维明
机构
国防科技大学信息系统工程重点实验室
军事科学院运筹所
出处
《国防科技大学学报》
EI
CAS
CSCD
北大核心
2014年第2期161-167,共7页
基金
国家自然科学基金资助项目(61273322
71001105
91024006)
文摘
目标选择是军事计划的关键要素之一。基于马尔科夫决策方法,解决具有复杂目标间关联的多阶段目标选择问题。使用与或树描述目标体系各层状态间的影响关联,并以目标体系整体失效为求解目的,建立了基于离散时间MDP的多阶段打击目标选择模型。在LRTDP算法基础上提出一种启发式方法,通过判断从当前目标体系状态到达体系失效状态的演化过程中的可能资源消耗和失败概率,来提供对当前状态的评估值,该方法能有效排除问题搜索空间中不能到达体系失效目的的中间状态,压缩了由于目标间复杂关联而增长的巨大状态空间。用实验验证了该方法有效性,实验结果表明,该方法直观实用,对目标间具有复杂关联关系的目标打击决策有一定参考价值。
关键词
目标选择
目标体系
与或树
离散时间马尔科夫决策过程
Keywords
target selecting
target system of system
and-or tree
discrete time Markov decision process.
分类号
E917 [军事]
在线阅读
下载PDF
职称材料
题名
基于离散Markov决策过程的发电公司多阶段决策
被引量:
2
2
作者
张宏刚
宋依群
机构
上海交通大学电气工程系
出处
《上海交通大学学报》
EI
CAS
CSCD
北大核心
2004年第8期1238-1240,1245,共4页
文摘
采用离散时间Markov决策过程(DTMDP)对以多阶段总利润最优为目标的发电公司决策问题进行研究.市场环境下,发电公司根据自身条件,其竞争策略可以是价格的接受者,也可以是价格的制定者.考虑了发电公司不同策略情况下市场均衡状态间的转换概率,分别给出了发电公司作为价格接受者和价格制定者时的多阶段决策模型.通过算例验证了所提模型的有效性和可行性.
关键词
电力市场
离散
时间
Markov
决策
过程
决策
问题
Keywords
Decision making
Discrete time control systems
Electric power systems
Markov processes
Optimization
分类号
TM732 [电气工程—电力系统及自动化]
在线阅读
下载PDF
职称材料
题名
基于时间策略的连续时间Markov过程验证
被引量:
1
3
作者
黄镇谨
陈波
欧阳浩
机构
广西科技大学计算机工程学院
出处
《广西科技大学学报》
CAS
2014年第3期59-62,86,共5页
基金
广西自然科学基金项目(2013GXNSFBA019280)
同济大学嵌入式与服务计算教育部重点实验室开放课题基金(2011-02)
广西高校科学技术研究项目(LX2014186)资助
文摘
对系统模型进行验证是保证系统安全的一个关键.连续时间Markov过程可以刻画复杂并发系统的随机、概率、不确定性特征.提出时间依赖策略下连续时间Markov过程验证方法,将连续时间Markov过程转换成为交互式马尔科夫链,给出模型的转换方法及不确定性选择策略的转换方法,最终通过求解交互式马尔科夫链的时间可达概率最值实现对连续时间Markov过程模型的验证.理论分析表明,提出的方法具有可行性.
关键词
马尔科夫
决策
过程
交互式
马尔科夫
链
时间
有界可达概率
时间
策略
Keywords
Markov decision process
interactive Markov chains
time -bounded reachability probability
timedschedulers
分类号
TP301 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
风险概率准则下的非平稳马氏决策过程
4
作者
温馨
徐小雅
郭先平
机构
中山大学管理学院
广东财经大学工商管理学院
中山大学数学学院
出处
《应用概率统计》
CSCD
北大核心
2023年第4期589-603,共15页
基金
The research was supported by the National Natural Science Foundation of China(Grant Nos.11931018,72101059)
Guangdong Natural Science Foundation(Grant No.2020A1515010924).
文摘
本文研究一类非平稳离散马氏决策过程的风险概率最小化问题,其中转移概率和奖励函数随时间变化.与现有文献中的期望报酬/成本准则不同,本文考虑最小化系统在首次到达某个目标集之前获得的总报酬未能达到给定利润目标的概率.在合理的假设条件下,我们建立了相应的最优方程序列,验证了最优风险函数序列是最优方程序列的唯一解,并证明了最优马氏策略的存在性.
关键词
非平稳
离散
马氏
决策
过程
风险概率准则
最优方程序列
首达
时间
最优马氏策略
Keywords
nonstationary discrete-time Markov decision process
risk probability criterion
optimality equations
first passage time
optimal Markov policy
分类号
O211.62 [理学—概率论与数理统计]
在线阅读
下载PDF
职称材料
题名
一种基于随机投影的贝叶斯时间差分算法
被引量:
1
5
作者
刘全
于俊
王辉
傅启明
朱斐
机构
苏州大学计算机科学与技术学院
吉林大学符号计算与知识工程教育部重点实验室
软件新技术与产业化协同创新中心
出处
《电子学报》
EI
CAS
CSCD
北大核心
2016年第11期2752-2757,共6页
基金
国家自然科学基金(No.61272005
No.61303108
+8 种基金
No.61373094
No.61472262
No.61502323
No.61502329)
江苏省自然科学基金(No.BK2012616)
江苏省高校自然科学研究项目(No.13KJB520020)
吉林大学符号计算与知识工程教育部重点实验室项目(No.93K172014K04)
苏州市应用基础研究计划工业部分(No.SYG201422
No.SY201308)
文摘
在强化学习方法中,大部分的算法都是基于值函数评估的算法.高斯过程时间差分算法利用贝叶斯方法来评估值函数,通过贝尔曼公式和贝叶斯规则,建立立即奖赏与值函数之间的概率生成模型.在状态空间中,通过在线核稀疏化并利用最小二乘方法来求解新样本的近似线性逼近,以提高算法的执行速度,但时间复杂度依然较高.针对在状态空间中近似状态的选择问题,在高斯过程框架下提出一种基于随机投影的贝叶斯时间差分算法,该算法利用哈希函数把字典状态集合中的元素映射成哈希值,根据哈希值进行分组,进而减少状态之间的比较.实验结果表明,该方法不仅能够提高算法的执行速度,而且较好地平衡了评估状态值函数精度和算法执行时间.
关键词
强化学习
马尔科夫
决策
过程
高斯
过程
随机投影
时间
差分算法
Keywords
reinforcement learning
markov decision process
gaussian process
random projection
temporal differ-ence learning
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
特大城市居民出行行为决策研究
被引量:
2
6
作者
顾玉磊
陈文强
吴群琪
机构
长安大学经济管理学院
出处
《湘潭大学自然科学学报》
CAS
CSCD
北大核心
2012年第4期8-12,共5页
基金
教育部人文社科项目(11YJA630155)
中央高校基本科研业务费专项资金项目(CHDW2011JC022)
长安大学基础研究支持计划专项基金
文摘
为研究特大城市居民出行决策规律,以居民常规出行方式(步行和乘公交车)为研究对象,以期望效用理论为理论基础,以居民出行时间价值损失最小为约束条件,构建居民出行行为的马尔科夫决策模型.研究结果显示:在特定的出行范围内,居民出行行为决策与居民的出行时间价值关系密切,出行时间价值越高,选择可靠性高、时间价值实现风险低的出行方式概率越大.
关键词
出行
决策
出行
时间
价值
出行方式
马尔科夫
决策
过程
Keywords
travel decisions
travel time value
travel modes
Markov decision process
分类号
U491.14 [交通运输工程—交通运输规划与管理]
在线阅读
下载PDF
职称材料
题名
基于POMDP的认知无线电自适应频谱感知算法
被引量:
12
7
作者
许瑞琛
蒋挺
机构
北京邮电大学信息与通信工程学院
出处
《通信学报》
EI
CSCD
北大核心
2013年第6期49-56,共8页
基金
国家科技重大专项基金资助项目(2010ZX03006-006)
国家自然科学基金资助项目(61171176)~~
文摘
针对如何建立适合毫秒级频谱空洞场景的频谱感知机制这一问题,推导出最佳次级用户单次数据传输时间长度,解决了数据传输量最大化的问题;其次提出一种基于部分可观测马尔科夫决策过程(POMDP,partiallyobservable Markov decision process)的自适应频谱感知算法,解决了快速接入毫秒级频谱空洞的问题。该算法根据上一决策时段的信念向量和感知结果自适应确定在当前决策时段内进行频谱感知或数据传输行为。仿真结果表明,该自适应频谱感知算法能够有效控制次级用户和主用户的冲突概率并增加频谱利用率。
关键词
部分可观测
马尔科夫
决策
过程
自适应感知
数据传输
时间
冲突概率
频谱利用率
Keywords
POMDP
auto-adaptive spectrum sensing
data transmission time
collision probability
spectrum utilization
分类号
TN911.22 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于马尔科夫决策的目标选择策略
雷霆
朱承
张维明
《国防科技大学学报》
EI
CAS
CSCD
北大核心
2014
5
在线阅读
下载PDF
职称材料
2
基于离散Markov决策过程的发电公司多阶段决策
张宏刚
宋依群
《上海交通大学学报》
EI
CAS
CSCD
北大核心
2004
2
在线阅读
下载PDF
职称材料
3
基于时间策略的连续时间Markov过程验证
黄镇谨
陈波
欧阳浩
《广西科技大学学报》
CAS
2014
1
在线阅读
下载PDF
职称材料
4
风险概率准则下的非平稳马氏决策过程
温馨
徐小雅
郭先平
《应用概率统计》
CSCD
北大核心
2023
0
在线阅读
下载PDF
职称材料
5
一种基于随机投影的贝叶斯时间差分算法
刘全
于俊
王辉
傅启明
朱斐
《电子学报》
EI
CAS
CSCD
北大核心
2016
1
在线阅读
下载PDF
职称材料
6
特大城市居民出行行为决策研究
顾玉磊
陈文强
吴群琪
《湘潭大学自然科学学报》
CAS
CSCD
北大核心
2012
2
在线阅读
下载PDF
职称材料
7
基于POMDP的认知无线电自适应频谱感知算法
许瑞琛
蒋挺
《通信学报》
EI
CSCD
北大核心
2013
12
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部