期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于序贯检测的快速马尔可夫决策:理论、方法及应用 被引量:1
1
作者 陈祖旭 陈巍 +1 位作者 李长坤 韩宇星 《信号处理》 北大核心 2025年第3期448-471,共24页
本文立足存在突变状态与检测噪声复杂环境,针对控制后效性与动作迟滞性问题,探索提升决策与控制时效性的方法,提出了一种基于序贯检测的快速马尔可夫决策框架,并应用于智能电网、疾控、水利等若干典型场景。具体的,本文发掘了统计信号... 本文立足存在突变状态与检测噪声复杂环境,针对控制后效性与动作迟滞性问题,探索提升决策与控制时效性的方法,提出了一种基于序贯检测的快速马尔可夫决策框架,并应用于智能电网、疾控、水利等若干典型场景。具体的,本文发掘了统计信号处理中的变化点最速检测与随机最优控制中的马尔可夫决策之间的关联,建立了一种包含四维状态的受约束马尔可夫决策框架。该框架可选择一种可行的联合检测-控制策略,最大化控制对象的期望回报,或达到平均收益与风险的最佳折中。相对于传统的“先检测变化点、后调整可控量”的分层策略,所提出的新方法实现了“边检测变化点,边调整可控量”的跨层协同,可有效应对检测延时、反应迟滞对决策控制时效性带来的挑战。在智能电网、疾控、水利等场景中,均展示了“检中调”的思路显著优于“检后调”的传统方法。最后,本文还简要展望了基于序贯检测的快速马尔可夫决策在海上碳封存、网络攻击检测防御中的潜在应用价值。 展开更多
关键词 统计信号处理 随机最优控制 序贯检测 最速变化点检测 马尔可夫决策过程 受约束马尔可夫决策过程
在线阅读 下载PDF
基于部分可观察马尔可夫决策过程的受控无线网络系统动态资源分配 被引量:2
2
作者 李萌 司鹏搏 +1 位作者 孙恩昌 张延华 《高技术通讯》 北大核心 2017年第3期220-227,共8页
研究了受控无线网络的动态资源分配。针对传统无线通信传输模型的局限性随着无线通信系统架构的发展日益凸显的问题,提出了一种引入反馈控制策略的受控无线网络模型。该模型结合部分可观察马尔可夫决策过程(POMDP),将用户接收功率与数... 研究了受控无线网络的动态资源分配。针对传统无线通信传输模型的局限性随着无线通信系统架构的发展日益凸显的问题,提出了一种引入反馈控制策略的受控无线网络模型。该模型结合部分可观察马尔可夫决策过程(POMDP),将用户接收功率与数据传输误码率作为反馈观测对象,对通信小区内基站天线开启数与用户接入数进行动态资源最优匹配。仿真结果表明,这种方法能够有效提升系统传输能效性与可靠性,降低传输误码率,改善系统资源动态匹配控制性能。 展开更多
关键词 控网络 反馈策略 资源分配 部分可观察马尔可夫决策过程(POMDP)
在线阅读 下载PDF
基于马尔可夫决策过程的接纳控制模型研究 被引量:3
3
作者 史继飞 刘婷 李浩 《计算机应用研究》 CSCD 北大核心 2014年第4期1163-1166,共4页
针对异构网络中系统容量有限、资源利用率低的问题,在分析对比传统呼叫接纳控制模型的基础上,提出一种基于马尔可夫决策过程理论的接纳控制模型。理论采用定义五元组的方式来描述建模过程,推导出目标评价函数,并通过求解具有QoS约束条... 针对异构网络中系统容量有限、资源利用率低的问题,在分析对比传统呼叫接纳控制模型的基础上,提出一种基于马尔可夫决策过程理论的接纳控制模型。理论采用定义五元组的方式来描述建模过程,推导出目标评价函数,并通过求解具有QoS约束条件下的方程进行数值分析。仿真结果表明,该模型能满足网络动态实时性,解决系统容量有限情况下的最优接纳控制问题,从而能够在一定程度上降低各类呼叫业务的阻塞概率,达到提高不同用户服务质量的体验性、网络的系统收益最大化的目的。 展开更多
关键词 异构网络 呼叫接纳控制 马尔可夫决策过程 QOS约束 系统收益
在线阅读 下载PDF
受控排队系统的平均最优与约束平均最优 被引量:1
4
作者 张兰兰 郭先平 《控制理论与应用》 EI CAS CSCD 北大核心 2009年第2期139-144,共6页
根据连续时间马尔可夫决策过程的平均准则,给出了一种特殊的马尔可夫决策过程—受控排队系统平均最优以及约束最优的新条件.这个新条件仅使用模型的初始数据,但利用了生灭过程的遍历性理论.可以证明受控排队系统存在平均最优平稳策略与... 根据连续时间马尔可夫决策过程的平均准则,给出了一种特殊的马尔可夫决策过程—受控排队系统平均最优以及约束最优的新条件.这个新条件仅使用模型的初始数据,但利用了生灭过程的遍历性理论.可以证明受控排队系统存在平均最优平稳策略与约束平均最优策略. 展开更多
关键词 连续时间马尔可夫决策过程 平均准则 控排队系统 平均最优平稳策略 约束平均最优策略
在线阅读 下载PDF
室内环境下基于边际约束的快速路径自主探索算法 被引量:4
5
作者 徐晓苏 梁紫依 +1 位作者 杨博 王迪 《中国惯性技术学报》 EI CSCD 北大核心 2019年第4期474-480,共7页
为了提高移动机器人在室内未知环境的自主探索能力,实现移动机器人在探索目标点之间的安全、快速移动,提出一种基于边际约束的快速路径自主探索算法。首先,将机器人自主探索问题描述为部分可观测马尔可夫决策过程模型。之后,在传统的快... 为了提高移动机器人在室内未知环境的自主探索能力,实现移动机器人在探索目标点之间的安全、快速移动,提出一种基于边际约束的快速路径自主探索算法。首先,将机器人自主探索问题描述为部分可观测马尔可夫决策过程模型。之后,在传统的快速扩展随机树(RRT)算法基础上,将随机树的生长空间划分为边际四象限空间,结合启发式评估函数的评价。该算法加快了移动机器人在探索目标点之间的移动速度,同时减少了随机树的节点,降低了对内存空间的占用。通过Matlab仿真实验,在实验设定的仿真环境中,该算法比传统RRT算法在时间上缩短约了75%,节点数量减少了约80%,并在机器人操作系统的仿真实验中验证了算法的实用性。 展开更多
关键词 移动机器人 自主探索 部分可观测马尔可夫决策过程 快速扩展随机树 边际约束
在线阅读 下载PDF
基于融合经验安全强化学习的配电网电压控制
6
作者 冯昌森 汤飞霞 +2 位作者 王国烽 文福拴 张有兵 《电力系统自动化》 北大核心 2025年第8期169-177,共9页
随着分布式可再生能源在配电网中的渗透率逐渐提高,分布式并网逆变器参与电压-无功控制对提升电力系统运行的安全性和经济性具有重要意义。然而,在基于强化学习的电压-无功控制模型中,安全运行约束难以建模,且无法确保控制策略满足运行... 随着分布式可再生能源在配电网中的渗透率逐渐提高,分布式并网逆变器参与电压-无功控制对提升电力系统运行的安全性和经济性具有重要意义。然而,在基于强化学习的电压-无功控制模型中,安全运行约束难以建模,且无法确保控制策略满足运行约束。针对上述问题,文中提出一种基于安全强化学习的配电网电压控制策略。首先,将带约束的电压控制问题建模为约束马尔可夫决策过程。然后,采用原始-对偶方法学习最优策略,确保控制策略满足系统运行约束。随后,引入增强经验融合方法来改进强化学习经验利用方式,从而提高算法样本效率。最后,通过配电系统算例验证了所提方法的有效性。 展开更多
关键词 配电网 电压控制 强化学习 约束马尔可夫决策过程 经验融合
在线阅读 下载PDF
基于受限MDP的无模型安全强化学习方法 被引量:3
7
作者 朱斐 葛洋洋 +1 位作者 凌兴宏 刘全 《软件学报》 EI CSCD 北大核心 2022年第8期3086-3102,共17页
很多强化学习方法较少地考虑决策的安全性,但研究领域和工业应用领域都要求的智能体所做决策是安全的.解决智能体决策安全问题的传统方法主要有改变目标函数、改变智能体的探索过程等,然而这些方法忽略了智能体遭受的损害和成本,因此不... 很多强化学习方法较少地考虑决策的安全性,但研究领域和工业应用领域都要求的智能体所做决策是安全的.解决智能体决策安全问题的传统方法主要有改变目标函数、改变智能体的探索过程等,然而这些方法忽略了智能体遭受的损害和成本,因此不能有效地保障决策的安全性.在受限马尔可夫决策过程的基础上,通过对动作空间添加安全约束,设计了安全Sarsa(λ)方法和安全Sarsa方法.在求解过程中,不仅要求智能体得到最大的状态-动作值,还要求其满足安全约束的限制,从而获得安全的最优策略.由于传统的强化学习求解方法不再适用于求解带约束的安全Sarsa(λ)模型和安全Sarsa模型,为在满足约束条件下得到全局最优状态-动作值函数,提出了安全强化学习的求解模型.求解模型基于线性化多维约束,采用拉格朗日乘数法,在保证状态-动作值函数和约束函数具有可微性的前提下,将安全强化学习模型转化为凸模型,避免了在求解过程中陷入局部最优解的问题,提高了算法的求解效率和精确度.同时,给出了算法的可行性证明.最后,实验验证了算法的有效性. 展开更多
关键词 马尔可夫决策过程 安全强化学习 多维约束 Sarsa(λ)算法 Sarsa算法
在线阅读 下载PDF
考虑主/被动资源约束的随机MDP项目调度优化 被引量:1
8
作者 杨建卫 任晓莉 李乃乾 《计算机科学与探索》 CSCD 北大核心 2018年第9期1496-1505,共10页
为提高项目调度优化过程的合理性,引入一种新的项目调度优化应对冲突的方法,一旦冲突发生在调度方案中,不是重新定义项目的开始时间,而是对冲突的时间调度表进行状态的迁移,得到另一个可行的调度时间表,实现了算法计算效率的提升。然后... 为提高项目调度优化过程的合理性,引入一种新的项目调度优化应对冲突的方法,一旦冲突发生在调度方案中,不是重新定义项目的开始时间,而是对冲突的时间调度表进行状态的迁移,得到另一个可行的调度时间表,实现了算法计算效率的提升。然后,将主动和被动项目调度问题作为单一的综合问题来制定,并利用Markov决策过程对上述项目调度优化问题进行建模,有针对性地设计了一种基于随机图的动态规划求解方法。实验结果显示了所提方法在收敛精度和计算效率上的有效性,并通过甘特图方式对调度方案的合理性进行了论证。 展开更多
关键词 资源约束 随机图 马尔可夫决策过程 甘特图 状态转移
在线阅读 下载PDF
传感器工作时长约束及辐射控制的调度方法 被引量:5
9
作者 乔成林 段修生 +1 位作者 单甘霖 王俭臣 《探测与控制学报》 CSCD 北大核心 2018年第3期91-96,102,共7页
针对多传感器调度中辐射控制及频繁切换的问题,提出传感器工作时长约束及辐射控制的调度方法。该方法将目标跟踪及辐射控制过程建立为部分可观马尔可夫决策过程;采用不敏卡尔曼滤波更新目标信念状态,预测目标跟踪精度;同时,结合隐马尔... 针对多传感器调度中辐射控制及频繁切换的问题,提出传感器工作时长约束及辐射控制的调度方法。该方法将目标跟踪及辐射控制过程建立为部分可观马尔可夫决策过程;采用不敏卡尔曼滤波更新目标信念状态,预测目标跟踪精度;同时,结合隐马尔可夫滤波器推导多步辐射代价,动态确定传感器工作时长;考虑跟踪任务需求,得到工作时长约束及辐射控制的调度策略。仿真结果表明,在满足跟踪任务需求下,该方法有效降低了系统辐射代价,避免了频繁切换问题,增强了系统稳定性和实用性。 展开更多
关键词 传感器调度 频繁切换 部分可观马尔可夫决策过程 时长约束 辐射代价
在线阅读 下载PDF
面向实际信道观测环境的时限约束无线下行调度策略
10
作者 张帆 宫傲宇 +3 位作者 邓磊 刘芳 林艳 张一晋 《计算机科学》 CSCD 北大核心 2021年第9期264-270,共7页
时限约束无线下行传输广泛应用于各类关系国计民生的实时通信业务,要求每个数据分组在严格传输时限内进行高可靠性传输。尽管如此,基站往往不能完全观测自身与各设备之间的信道状态,而需要借助反馈所携的信息对信道状态进行观测,从而增... 时限约束无线下行传输广泛应用于各类关系国计民生的实时通信业务,要求每个数据分组在严格传输时限内进行高可靠性传输。尽管如此,基站往往不能完全观测自身与各设备之间的信道状态,而需要借助反馈所携的信息对信道状态进行观测,从而增加了下行调度策略的设计难度。文章基于此实际信道观测环境设计时限约束下行调度策略,允许基站根据当前数据分组信息以及部分观测的各信道状态决定传输优先级。首先仅考虑队首数据分组信息对下行传输进行无限时域部分观测马尔可夫决策过程简化建模,但求解此建模的最优或近优策略在计算上不可行。鉴于此,文章应用有限时域Q函数马尔可夫决策过程算法,提出了一种低复杂度次优策略,并进一步提出一种更简单的启发式策略。仿真结果验证了所提策略相比对照策略在各种网络场景下的网络吞吐率优势,并且表明了信道的部分观测特性对吞吐率性能有较大影响。 展开更多
关键词 时限约束 下行传输策略 部分观测马尔可夫决策过程 吞吐率
在线阅读 下载PDF
基于安全深度强化学习的电网有功频率协同优化控制 被引量:1
11
作者 周毅 周良才 +2 位作者 史迪 赵小英 闪鑫 《上海交通大学学报》 EI CAS CSCD 北大核心 2024年第5期682-692,共11页
可再生能源占比不断增加给互联电网频率控制带来严峻考验.由于常规的自动发电控制(AGC)策略没有考虑电网潮流安全约束,所以传统方法根据专家知识和经验进行尝试性发电机功率调整,需耗费较多时间;基于最优电力潮流的互联电网AGC优化模型... 可再生能源占比不断增加给互联电网频率控制带来严峻考验.由于常规的自动发电控制(AGC)策略没有考虑电网潮流安全约束,所以传统方法根据专家知识和经验进行尝试性发电机功率调整,需耗费较多时间;基于最优电力潮流的互联电网AGC优化模型由于非凸性和大规模性,求解时间较长且存在收敛性问题.鉴于常规深度强化学习具有“离线训练、在线端对端形成策略”的优点,但在动作探索过程中无法保证系统安全性,提出一种基于安全深度强化学习的电网有功频率协同优化控制方法.首先,将电网频率控制建模为约束马尔可夫决策过程,对决策过程添加相关安全约束进行智能体设计;然后,基于华东电网实际系统算例对智能体进行训练和性能提升;最后,对比智能体决策与常规AGC策略效果.结果表明:所提方法在多种运行方式下可快速生成有功频率控制策略,且保证系统频率恢复过程中电网的安全性,可辅助调度员在线决策. 展开更多
关键词 有功频率协同控制 人工智能 深度强化学习 约束马尔可夫决策过程 智能体
在线阅读 下载PDF
一种基于认知无线电技术的能效传输控制方案
12
作者 朱江 黄海洋 李少谦 《计算机工程与应用》 CSCD 北大核心 2008年第31期28-32,共5页
提出了一种基于认知无线电(CR)技术的跨层传输控制方案,该方案在满足与主用户冲突率约束及缓存器状态约束的前提下,最小化系统平均功率消耗。该方案被建模为约束马尔可夫决策过程(CMDP),并采用线性规划(LP)求解此CMDP。引入状态聚合来解... 提出了一种基于认知无线电(CR)技术的跨层传输控制方案,该方案在满足与主用户冲突率约束及缓存器状态约束的前提下,最小化系统平均功率消耗。该方案被建模为约束马尔可夫决策过程(CMDP),并采用线性规划(LP)求解此CMDP。引入状态聚合来解决CR网络中信道状态信息在某些情况下不可获取的问题。为降低LP的求解复杂度,通过状态聚合和行动集缩减解决CMDP的维灾问题。仿真结果表明,方案能够在满足约束的条件下最小化功率消耗,而且低复杂度的求解方法对该方案性能的影响很小。 展开更多
关键词 认知无线电 能效 跨层设计 传输控制 约束马尔可夫决策过程
在线阅读 下载PDF
安全强化学习及其在机器人系统中的应用综述 被引量:3
13
作者 张昌昕 张兴龙 +1 位作者 徐昕 陆阳 《控制理论与应用》 EI CAS CSCD 北大核心 2023年第12期2090-2103,共14页
强化学习是一类通过与环境交互实现序贯优化决策的机器学习方法,已经在游戏、推荐系统及自然语言处理等任务中得到了应用.然而,强化学习算法应用于真实世界中的机器人系统时,如何保证安全性仍然面临挑战.近年来,针对机器人系统的安全强... 强化学习是一类通过与环境交互实现序贯优化决策的机器学习方法,已经在游戏、推荐系统及自然语言处理等任务中得到了应用.然而,强化学习算法应用于真实世界中的机器人系统时,如何保证安全性仍然面临挑战.近年来,针对机器人系统的安全强化学习方法研究已经成为热点方向,获得了机器人和强化学习领域的广泛关注.本文结合现有的工作,综述了安全强化学习理论和方法的重要成果和发展趋势,并重点关注了现有方法在机器人领域的适用性.本文首先给出了安全强化学习的一般问题描述.其次,从方法和性能的角度重点介绍了该领域的最新重要进展,包括约束策略优化、控制障碍函数、安全过滤器和对抗性博弈训练等方法,以及安全强化学习方法在地面移动机器人系统、无人飞行器和其他机器人系统中的应用情况.最后,对该领域的未来研究方向进行了展望和探讨. 展开更多
关键词 机器人 安全强化学习 约束马尔可夫决策过程 鲁棒性
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部