期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
Markov控制过程基于神经元动态规划的优化算法 被引量:1
1
作者 唐昊 奚宏生 殷保群 《中国科学技术大学学报》 CAS CSCD 北大核心 2001年第5期549-557,共9页
论文在Markov性能势理论基础上 ,研究了Markov控制过程在神经元网络等逼近结构表示的随机平稳策略作用下的仿真优化算法 ;分析了它们在一个无限长的样本轨道上以概率 1的收敛性 ;并给出了一个三
关键词 Markov性能势理论 MARKOV控制过程 随机平稳策略 样本轨道 神经元动态规划 随机决策问题
在线阅读 下载PDF
SDN中DASH路由规划和码率调节联合决策算法 被引量:3
2
作者 姜俊超 朱坤杰 +1 位作者 张云飞 杨坚 《小型微型计算机系统》 CSCD 北大核心 2017年第6期1169-1174,共6页
随着互联网技术的快速发展以及智能设备的普及,基于HTTP的动态自适应流媒体(Dynamic Adaptive Streaming over HTTP,DASH)业务发展迅速.但在带宽受限网络中,大规模用户的视频请求,将会加重网络负载,严重影响网络带宽资源的有效利用,同... 随着互联网技术的快速发展以及智能设备的普及,基于HTTP的动态自适应流媒体(Dynamic Adaptive Streaming over HTTP,DASH)业务发展迅速.但在带宽受限网络中,大规模用户的视频请求,将会加重网络负载,严重影响网络带宽资源的有效利用,同时用户码率调节缺乏全局协调控制机制,容易造成网络拥塞.针对软件定义网络中的DASH视频传输业务,将视频业务提供商长期平均收益最大化作为优化目标,设计并实现了基于神经元动态规划的DASH视频路由和用户码率调节联合决策算法.最后,通过在Mininet平台上建立SDN(Software-Defined Networking)网络环境并进行对比实验,我们验证了本文提出的联合决策算法能够提高网络带宽资源利用率,最大化DASH视频业务提供商长期平均收益. 展开更多
关键词 自适应流媒体码率调节 路由算法 神经元动态规划 软件定义网络
在线阅读 下载PDF
平均和折扣准则MDP基于TD(0)学习的统一NDP方法 被引量:5
3
作者 唐昊 周雷 袁继彬 《控制理论与应用》 EI CAS CSCD 北大核心 2006年第2期292-296,共5页
为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行... 为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行逼近策略评估;然后,根据性能势的逼近值,通过逼近策略迭代来实现两种准则下统一的神经元动态规划(neuro-dynam ic programm ing,NDP)优化方法.研究结果适用于半M arkov决策过程,并通过一个数值例子,说明了文中的神经元策略迭代算法对两种准则都适用,验证了平均问题是折扣问题当折扣因子趋近于零时的极限情况. 展开更多
关键词 MARKOV决策过程 性能势 TD(0)学习 神经元动态规划
在线阅读 下载PDF
随机平稳策略下半Markov决策过程的仿真优化算法
4
作者 代桂平 唐昊 奚宏生 《控制理论与应用》 EI CAS CSCD 北大核心 2006年第4期547-551,共5页
基于性能势理论和等价Markov过程方法,研究了一类半Markov决策过程(SMDP)在参数化随机平稳策略下的仿真优化算法,并简要分析了算法的收敛性.通过SMDP的等价Markov过程,定义了一个一致化Markov链,然后根据该一致化Markov链的单个样本轨... 基于性能势理论和等价Markov过程方法,研究了一类半Markov决策过程(SMDP)在参数化随机平稳策略下的仿真优化算法,并简要分析了算法的收敛性.通过SMDP的等价Markov过程,定义了一个一致化Markov链,然后根据该一致化Markov链的单个样本轨道来估计SMDP的平均代价性能指标关于策略参数的梯度,以寻找最优(或次优)策略.文中给出的算法是利用神经元网络来逼近参数化随机平稳策略,以节省计算机内存,避免了“维数灾”问题,适合于解决大状态空间系统的性能优化问题.最后给出了一个仿真实例来说明算法的应用. 展开更多
关键词 随机平稳策略 等价Markov过程 一致化Markov链 神经元动态规划 仿真优化
在线阅读 下载PDF
Rollout及其并行求解算法在多类商品库存控制中的应用 被引量:1
5
作者 李豹 程文娟 +1 位作者 周雷 唐昊 《系统仿真学报》 EI CAS CSCD 北大核心 2007年第17期3883-3887,共5页
Rollout算法是Bertsekas提出的求解马尔科夫决策过程(MDP)问题的一种仿真优化算法。文章研究Rollout算法求解多类商品库存控制问题,给出了基于性能势和神经元动态规划的Rollout优化算法。另外,为了降低运算时间,文章提出了两种Rollout... Rollout算法是Bertsekas提出的求解马尔科夫决策过程(MDP)问题的一种仿真优化算法。文章研究Rollout算法求解多类商品库存控制问题,给出了基于性能势和神经元动态规划的Rollout优化算法。另外,为了降低运算时间,文章提出了两种Rollout并行求解算法,并讨论了这两种并行算法各自的适用场合。实验结果表明,Rollout算法能满足模型未知系统的优化要求,具有较好的并行性能。 展开更多
关键词 ROLLOUT算法 库存控制 MARKOV决策过程 性能势 并行算法 神经元动态规划
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部