期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
考虑峰值功率受限约束的柔性作业车间调度研究
1
作者 李益兵 曹岩 +3 位作者 郭钧 王磊 李西兴 孙利波 《中国机械工程》 北大核心 2025年第2期280-293,共14页
针对车间峰值功率受限约束下的柔性作业车间调度面临的作业周期增加、机器负荷增大的问题,建立以最小化最大完工时间和最小化机器最大负载为优化目标、考虑车间峰值功率约束的柔性作业车间调度问题(PPCFJSP)模型。为更好地调度决策,首... 针对车间峰值功率受限约束下的柔性作业车间调度面临的作业周期增加、机器负荷增大的问题,建立以最小化最大完工时间和最小化机器最大负载为优化目标、考虑车间峰值功率约束的柔性作业车间调度问题(PPCFJSP)模型。为更好地调度决策,首先将该问题转化为马尔可夫决策过程,基于此设计了一个结合离线训练与在线调度的用于求解PPCFJSP的调度框架。然后设计了一种基于优先级经验重放的双重决斗深度Q网络(D3QNPER)算法,并设计了一种引入噪声的ε-贪婪递减策略,提高了算法收敛速度,进一步提高了求解能力和求解结果的稳定性。最后开展实验与算法对比研究,验证了模型和算法的有效性。 展开更多
关键词 柔性作业车间调度 马尔可夫决策过程 深度强化学习 峰值功率受限
在线阅读 下载PDF
基于序贯检测的快速马尔可夫决策:理论、方法及应用 被引量:1
2
作者 陈祖旭 陈巍 +1 位作者 李长坤 韩宇星 《信号处理》 北大核心 2025年第3期448-471,共24页
本文立足存在突变状态与检测噪声复杂环境,针对控制后效性与动作迟滞性问题,探索提升决策与控制时效性的方法,提出了一种基于序贯检测的快速马尔可夫决策框架,并应用于智能电网、疾控、水利等若干典型场景。具体的,本文发掘了统计信号... 本文立足存在突变状态与检测噪声复杂环境,针对控制后效性与动作迟滞性问题,探索提升决策与控制时效性的方法,提出了一种基于序贯检测的快速马尔可夫决策框架,并应用于智能电网、疾控、水利等若干典型场景。具体的,本文发掘了统计信号处理中的变化点最速检测与随机最优控制中的马尔可夫决策之间的关联,建立了一种包含四维状态的受约束马尔可夫决策框架。该框架可选择一种可行的联合检测-控制策略,最大化控制对象的期望回报,或达到平均收益与风险的最佳折中。相对于传统的“先检测变化点、后调整可控量”的分层策略,所提出的新方法实现了“边检测变化点,边调整可控量”的跨层协同,可有效应对检测延时、反应迟滞对决策控制时效性带来的挑战。在智能电网、疾控、水利等场景中,均展示了“检中调”的思路显著优于“检后调”的传统方法。最后,本文还简要展望了基于序贯检测的快速马尔可夫决策在海上碳封存、网络攻击检测防御中的潜在应用价值。 展开更多
关键词 统计信号处理 随机最优控制 序贯检测 最速变化点检测 马尔可夫决策过程 受约束马尔可夫决策过程
在线阅读 下载PDF
基于融合经验安全强化学习的配电网电压控制
3
作者 冯昌森 汤飞霞 +2 位作者 王国烽 文福拴 张有兵 《电力系统自动化》 北大核心 2025年第8期169-177,共9页
随着分布式可再生能源在配电网中的渗透率逐渐提高,分布式并网逆变器参与电压-无功控制对提升电力系统运行的安全性和经济性具有重要意义。然而,在基于强化学习的电压-无功控制模型中,安全运行约束难以建模,且无法确保控制策略满足运行... 随着分布式可再生能源在配电网中的渗透率逐渐提高,分布式并网逆变器参与电压-无功控制对提升电力系统运行的安全性和经济性具有重要意义。然而,在基于强化学习的电压-无功控制模型中,安全运行约束难以建模,且无法确保控制策略满足运行约束。针对上述问题,文中提出一种基于安全强化学习的配电网电压控制策略。首先,将带约束的电压控制问题建模为约束马尔可夫决策过程。然后,采用原始-对偶方法学习最优策略,确保控制策略满足系统运行约束。随后,引入增强经验融合方法来改进强化学习经验利用方式,从而提高算法样本效率。最后,通过配电系统算例验证了所提方法的有效性。 展开更多
关键词 配电网 电压控制 强化学习 约束马尔可夫决策过程 经验融合
在线阅读 下载PDF
基于深度强化学习的机组组合智能求解算法
4
作者 母欢欢 余凌 +1 位作者 夏凡 袁业 《高压电器》 北大核心 2025年第5期197-207,共11页
随着中国能源结构持续深化转型,高比例波动性新能源接入使得现有的机组组合(unit commitment,UC)理论已经无法适应新型电力系统日前市场决策的发展需要。为此文中结合深度强化学习(deep reinforcement learning,DRL)技术提出了一种UC智... 随着中国能源结构持续深化转型,高比例波动性新能源接入使得现有的机组组合(unit commitment,UC)理论已经无法适应新型电力系统日前市场决策的发展需要。为此文中结合深度强化学习(deep reinforcement learning,DRL)技术提出了一种UC智能求解算法。首先引入DRL算法,对UC问题进行马尔科夫决策过程(Markov decision process,MDP)建模并给出对应的状态空间、转移函数、动作空间及奖励函数;然后采用策略梯度(policy gradient,PG)算法进行求解;在此基础上采用Lambda迭代求解该启停状态下机组的出力方案,并最终提出一种基于DRL的UC智能求解算法。基于仿真算例验证文中方法的适用性和有效性。 展开更多
关键词 安全约束机组组合 马尔科夫决策过程 深度强化学习
在线阅读 下载PDF
基于Q学习的蜂窝车联网边缘计算系统PC-5/Uu接口联合卸载策略 被引量:2
5
作者 冯伟杨 林思雨 +3 位作者 冯婧涛 李赟 孔繁鹏 艾渤 《电子学报》 EI CAS CSCD 北大核心 2024年第2期385-395,共11页
智能驾驶等智能交通服务对时延要求高,在车辆本身算力不足的情况下,车辆需要周围车辆和路旁边缘计算单元帮助其一起完成任务的计算处理.本文在既有车联网边缘计算卸载策略基础上,考虑了蜂窝车联网系统5G-NR接口与PC-5接口链路的特征差异... 智能驾驶等智能交通服务对时延要求高,在车辆本身算力不足的情况下,车辆需要周围车辆和路旁边缘计算单元帮助其一起完成任务的计算处理.本文在既有车联网边缘计算卸载策略基础上,考虑了蜂窝车联网系统5G-NR接口与PC-5接口链路的特征差异,提出了一种基于Q学习的PC-5/Uu接口联合边缘计算卸载策略.在对蜂窝车联网PC-5链路传输成功率进行建模的基础上,推导了PC-5链路的传输速率表征方法.以最小化蜂窝车联网任务处理时延为目标,以任务车辆发射功率与边缘计算车辆的计算能量损耗为约束,构建了系统时延最小化的有约束马尔科夫决策过程.通过拉格朗日方法,将有约束马尔科夫决策过程问题转化为一个等价的极小极大的无约束马尔科夫决策过程,引入Q学习设计卸载策略,进而提出基于Q学习的蜂窝车联网边缘计算系统卸载策略.仿真结果表明,与其他基线方案相比,本文提出的算法可以降低系统时延27.3%以上. 展开更多
关键词 蜂窝车联网 边缘计算 有约束马尔科夫过程 计算迁移 Q学习
在线阅读 下载PDF
基于安全深度强化学习的电网有功频率协同优化控制 被引量:1
6
作者 周毅 周良才 +2 位作者 史迪 赵小英 闪鑫 《上海交通大学学报》 EI CAS CSCD 北大核心 2024年第5期682-692,共11页
可再生能源占比不断增加给互联电网频率控制带来严峻考验.由于常规的自动发电控制(AGC)策略没有考虑电网潮流安全约束,所以传统方法根据专家知识和经验进行尝试性发电机功率调整,需耗费较多时间;基于最优电力潮流的互联电网AGC优化模型... 可再生能源占比不断增加给互联电网频率控制带来严峻考验.由于常规的自动发电控制(AGC)策略没有考虑电网潮流安全约束,所以传统方法根据专家知识和经验进行尝试性发电机功率调整,需耗费较多时间;基于最优电力潮流的互联电网AGC优化模型由于非凸性和大规模性,求解时间较长且存在收敛性问题.鉴于常规深度强化学习具有“离线训练、在线端对端形成策略”的优点,但在动作探索过程中无法保证系统安全性,提出一种基于安全深度强化学习的电网有功频率协同优化控制方法.首先,将电网频率控制建模为约束马尔可夫决策过程,对决策过程添加相关安全约束进行智能体设计;然后,基于华东电网实际系统算例对智能体进行训练和性能提升;最后,对比智能体决策与常规AGC策略效果.结果表明:所提方法在多种运行方式下可快速生成有功频率控制策略,且保证系统频率恢复过程中电网的安全性,可辅助调度员在线决策. 展开更多
关键词 有功频率协同控制 人工智能 深度强化学习 约束马尔可夫决策过程 智能体
在线阅读 下载PDF
非正交多址接入系统中基于受限马尔科夫决策过程的网络切片虚拟资源分配算法 被引量:6
7
作者 唐伦 施颖洁 +1 位作者 杨希希 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2018年第12期2962-2969,共8页
针对无线接入网络切片虚拟资源分配优化问题,该文提出基于受限马尔可夫决策过程(CMDP)的网络切片自适应虚拟资源分配算法。首先,该算法在非正交多址接入(NOMA)系统中以用户中断概率和切片队列积压为约束,切片的总速率作为回报,运用受限... 针对无线接入网络切片虚拟资源分配优化问题,该文提出基于受限马尔可夫决策过程(CMDP)的网络切片自适应虚拟资源分配算法。首先,该算法在非正交多址接入(NOMA)系统中以用户中断概率和切片队列积压为约束,切片的总速率作为回报,运用受限马尔可夫决策过程理论构建资源自适应问题的动态优化模型;其次定义后决策状态,规避最优值函数中的期望运算;进一步地,针对马尔科夫决策过程(MDP)的"维度灾难"问题,基于近似动态规划理论,定义关于分配行为的基函数,替代决策后状态空间,减少计算维度;最后设计了一种自适应虚拟资源分配算法,通过与外部环境的不断交互学习,动态调整资源分配策略,优化切片性能。仿真结果表明,该算法可以较好地提高系统的性能,满足切片的服务需求。 展开更多
关键词 5G网络切片 资源分配 受限马尔可夫决策过程 非正交多址接入
在线阅读 下载PDF
基于受限MDP的无模型安全强化学习方法 被引量:3
8
作者 朱斐 葛洋洋 +1 位作者 凌兴宏 刘全 《软件学报》 EI CSCD 北大核心 2022年第8期3086-3102,共17页
很多强化学习方法较少地考虑决策的安全性,但研究领域和工业应用领域都要求的智能体所做决策是安全的.解决智能体决策安全问题的传统方法主要有改变目标函数、改变智能体的探索过程等,然而这些方法忽略了智能体遭受的损害和成本,因此不... 很多强化学习方法较少地考虑决策的安全性,但研究领域和工业应用领域都要求的智能体所做决策是安全的.解决智能体决策安全问题的传统方法主要有改变目标函数、改变智能体的探索过程等,然而这些方法忽略了智能体遭受的损害和成本,因此不能有效地保障决策的安全性.在受限马尔可夫决策过程的基础上,通过对动作空间添加安全约束,设计了安全Sarsa(λ)方法和安全Sarsa方法.在求解过程中,不仅要求智能体得到最大的状态-动作值,还要求其满足安全约束的限制,从而获得安全的最优策略.由于传统的强化学习求解方法不再适用于求解带约束的安全Sarsa(λ)模型和安全Sarsa模型,为在满足约束条件下得到全局最优状态-动作值函数,提出了安全强化学习的求解模型.求解模型基于线性化多维约束,采用拉格朗日乘数法,在保证状态-动作值函数和约束函数具有可微性的前提下,将安全强化学习模型转化为凸模型,避免了在求解过程中陷入局部最优解的问题,提高了算法的求解效率和精确度.同时,给出了算法的可行性证明.最后,实验验证了算法的有效性. 展开更多
关键词 受限马尔可夫决策过程 安全强化学习 多维约束 Sarsa(λ)算法 Sarsa算法
在线阅读 下载PDF
接入与回传一体化小基站的接入控制与资源分配联合优化算法 被引量:2
9
作者 唐伦 马润琳 +2 位作者 刘云龙 王耀玮 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2019年第6期1389-1396,共8页
针对全双工无线接入与回传一体化小基站场景下长期的频谱效率和能效同时最大化问题,该文提出一种基于近似动态规划理论的接入与回传一体化小基站接入控制与资源分配联合优化算法。该算法首先联合考虑当前基站的资源使用和功率配置情况,... 针对全双工无线接入与回传一体化小基站场景下长期的频谱效率和能效同时最大化问题,该文提出一种基于近似动态规划理论的接入与回传一体化小基站接入控制与资源分配联合优化算法。该算法首先联合考虑当前基站的资源使用和功率配置情况,在任一用户需求动态到达以及平均时延、小基站回传速率和传输功率约束下,使用受限马尔科夫决策过程(CMDP)建立频谱效率最大化和功率消耗最小化的多目标优化模型,其次运用切比雪夫理论将多目标优化问题转化为单目标问题,并使用拉格朗日对偶分解法进一步转化为非受限的马尔科夫决策过程(MDP)问题。最后,为了解决其求解时存在的“维度灾”爆炸问题,该文提出基于近似动态规划的无线接入与回传一体化小基站资源动态分配算法进行求解,得到此时的接入与资源分配策略。仿真结果表明,所提算法能在保证平均时延约束、小基站回传速率约束和传输功率约束的同时最大化长期平均频谱效率和能效。 展开更多
关键词 接入与回传一体化小基站 近似动态规划理论 受限马尔科夫决策过程 切比雪夫理论
在线阅读 下载PDF
一种基于认知无线电技术的能效传输控制方案
10
作者 朱江 黄海洋 李少谦 《计算机工程与应用》 CSCD 北大核心 2008年第31期28-32,共5页
提出了一种基于认知无线电(CR)技术的跨层传输控制方案,该方案在满足与主用户冲突率约束及缓存器状态约束的前提下,最小化系统平均功率消耗。该方案被建模为约束马尔可夫决策过程(CMDP),并采用线性规划(LP)求解此CMDP。引入状态聚合来解... 提出了一种基于认知无线电(CR)技术的跨层传输控制方案,该方案在满足与主用户冲突率约束及缓存器状态约束的前提下,最小化系统平均功率消耗。该方案被建模为约束马尔可夫决策过程(CMDP),并采用线性规划(LP)求解此CMDP。引入状态聚合来解决CR网络中信道状态信息在某些情况下不可获取的问题。为降低LP的求解复杂度,通过状态聚合和行动集缩减解决CMDP的维灾问题。仿真结果表明,方案能够在满足约束的条件下最小化功率消耗,而且低复杂度的求解方法对该方案性能的影响很小。 展开更多
关键词 认知无线电 能效 跨层设计 传输控制 约束马尔可夫决策过程
在线阅读 下载PDF
安全强化学习及其在机器人系统中的应用综述 被引量:3
11
作者 张昌昕 张兴龙 +1 位作者 徐昕 陆阳 《控制理论与应用》 EI CAS CSCD 北大核心 2023年第12期2090-2103,共14页
强化学习是一类通过与环境交互实现序贯优化决策的机器学习方法,已经在游戏、推荐系统及自然语言处理等任务中得到了应用.然而,强化学习算法应用于真实世界中的机器人系统时,如何保证安全性仍然面临挑战.近年来,针对机器人系统的安全强... 强化学习是一类通过与环境交互实现序贯优化决策的机器学习方法,已经在游戏、推荐系统及自然语言处理等任务中得到了应用.然而,强化学习算法应用于真实世界中的机器人系统时,如何保证安全性仍然面临挑战.近年来,针对机器人系统的安全强化学习方法研究已经成为热点方向,获得了机器人和强化学习领域的广泛关注.本文结合现有的工作,综述了安全强化学习理论和方法的重要成果和发展趋势,并重点关注了现有方法在机器人领域的适用性.本文首先给出了安全强化学习的一般问题描述.其次,从方法和性能的角度重点介绍了该领域的最新重要进展,包括约束策略优化、控制障碍函数、安全过滤器和对抗性博弈训练等方法,以及安全强化学习方法在地面移动机器人系统、无人飞行器和其他机器人系统中的应用情况.最后,对该领域的未来研究方向进行了展望和探讨. 展开更多
关键词 机器人 安全强化学习 约束马尔可夫决策过程 鲁棒性
在线阅读 下载PDF
受控排队系统的平均最优与约束平均最优 被引量:1
12
作者 张兰兰 郭先平 《控制理论与应用》 EI CAS CSCD 北大核心 2009年第2期139-144,共6页
根据连续时间马尔可夫决策过程的平均准则,给出了一种特殊的马尔可夫决策过程—受控排队系统平均最优以及约束最优的新条件.这个新条件仅使用模型的初始数据,但利用了生灭过程的遍历性理论.可以证明受控排队系统存在平均最优平稳策略与... 根据连续时间马尔可夫决策过程的平均准则,给出了一种特殊的马尔可夫决策过程—受控排队系统平均最优以及约束最优的新条件.这个新条件仅使用模型的初始数据,但利用了生灭过程的遍历性理论.可以证明受控排队系统存在平均最优平稳策略与约束平均最优策略. 展开更多
关键词 连续时间马尔可夫决策过程 平均准则 受控排队系统 平均最优平稳策略 约束平均最优策略
在线阅读 下载PDF
基于动态优先级的奖励优化模型 被引量:2
13
作者 赵沛尧 黄蔚 《郑州大学学报(理学版)》 北大核心 2022年第1期62-68,共7页
传统的约束马尔可夫决策过程(constrained Markov decision process,CMDP)模型用来解决多目标决策的困难,但该模型缺乏通用性并且只适用于离散环境。为了解决这一问题,提出一种基于CMDP的改进算法CRODP,与强化学习(reinforcement learni... 传统的约束马尔可夫决策过程(constrained Markov decision process,CMDP)模型用来解决多目标决策的困难,但该模型缺乏通用性并且只适用于离散环境。为了解决这一问题,提出一种基于CMDP的改进算法CRODP,与强化学习(reinforcement learning,RL)算法结合,将带约束问题建模为拉格朗日公式,其中包含着深度强化学习的策略参数。然后进一步推导出模型参数的更新公式,并将其作为深度强化学习神经网络的损失函数。模型在学习过程中动态调整约束与主要目标之间的权重以确保最终策略符合给定的约束。在若干机器人平台上与基准的深度强化学习算法进行比较,显示本算法得出的最优策略能够更好地满足相应约束。 展开更多
关键词 强化学习 深度学习 受限马尔可夫模型 动态优先级 机器人环境
在线阅读 下载PDF
安全强化学习综述 被引量:18
14
作者 王雪松 王荣荣 程玉虎 《自动化学报》 EI CAS CSCD 北大核心 2023年第9期1813-1835,共23页
强化学习(Reinforcement learning,RL)在围棋、视频游戏、导航、推荐系统等领域均取得了巨大成功.然而,许多强化学习算法仍然无法直接移植到真实物理环境中.这是因为在模拟场景下智能体能以不断试错的方式与环境进行交互,从而学习最优策... 强化学习(Reinforcement learning,RL)在围棋、视频游戏、导航、推荐系统等领域均取得了巨大成功.然而,许多强化学习算法仍然无法直接移植到真实物理环境中.这是因为在模拟场景下智能体能以不断试错的方式与环境进行交互,从而学习最优策略.但考虑到安全因素,很多现实世界的应用则要求限制智能体的随机探索行为.因此,安全问题成为强化学习从模拟到现实的一个重要挑战.近年来,许多研究致力于开发安全强化学习(Safe reinforcement learning,SRL)算法,在确保系统性能的同时满足安全约束.本文对现有的安全强化学习算法进行全面综述,将其归为三类:修改学习过程、修改学习目标、离线强化学习,并介绍了5大基准测试平台:Safety Gym、safe-control-gym、SafeRL-Kit、D4RL、NeoRL.最后总结了安全强化学习在自动驾驶、机器人控制、工业过程控制、电力系统优化和医疗健康领域中的应用,并给出结论与展望. 展开更多
关键词 安全强化学习 约束马尔科夫决策过程 学习过程 学习目标 离线强化学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部