期刊文献+
共找到221篇文章
< 1 2 12 >
每页显示 20 50 100
Recorded recurrent deep reinforcement learning guidance laws for intercepting endoatmospheric maneuvering missiles
1
作者 Xiaoqi Qiu Peng Lai +1 位作者 Changsheng Gao Wuxing Jing 《Defence Technology(防务技术)》 SCIE EI CAS CSCD 2024年第1期457-470,共14页
This work proposes a recorded recurrent twin delayed deep deterministic(RRTD3)policy gradient algorithm to solve the challenge of constructing guidance laws for intercepting endoatmospheric maneuvering missiles with u... This work proposes a recorded recurrent twin delayed deep deterministic(RRTD3)policy gradient algorithm to solve the challenge of constructing guidance laws for intercepting endoatmospheric maneuvering missiles with uncertainties and observation noise.The attack-defense engagement scenario is modeled as a partially observable Markov decision process(POMDP).Given the benefits of recurrent neural networks(RNNs)in processing sequence information,an RNN layer is incorporated into the agent’s policy network to alleviate the bottleneck of traditional deep reinforcement learning methods while dealing with POMDPs.The measurements from the interceptor’s seeker during each guidance cycle are combined into one sequence as the input to the policy network since the detection frequency of an interceptor is usually higher than its guidance frequency.During training,the hidden states of the RNN layer in the policy network are recorded to overcome the partially observable problem that this RNN layer causes inside the agent.The training curves show that the proposed RRTD3 successfully enhances data efficiency,training speed,and training stability.The test results confirm the advantages of the RRTD3-based guidance laws over some conventional guidance laws. 展开更多
关键词 Endoatmospheric interception Missile guidance reinforcement learning markov decision process Recurrent neural networks
在线阅读 下载PDF
A guidance method for coplanar orbital interception based on reinforcement learning 被引量:6
2
作者 ZENG Xin ZHU Yanwei +1 位作者 YANG Leping ZHANG Chengming 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2021年第4期927-938,共12页
This paper investigates the guidance method based on reinforcement learning(RL)for the coplanar orbital interception in a continuous low-thrust scenario.The problem is formulated into a Markov decision process(MDP)mod... This paper investigates the guidance method based on reinforcement learning(RL)for the coplanar orbital interception in a continuous low-thrust scenario.The problem is formulated into a Markov decision process(MDP)model,then a welldesigned RL algorithm,experience based deep deterministic policy gradient(EBDDPG),is proposed to solve it.By taking the advantage of prior information generated through the optimal control model,the proposed algorithm not only resolves the convergence problem of the common RL algorithm,but also successfully trains an efficient deep neural network(DNN)controller for the chaser spacecraft to generate the control sequence.Numerical simulation results show that the proposed algorithm is feasible and the trained DNN controller significantly improves the efficiency over traditional optimization methods by roughly two orders of magnitude. 展开更多
关键词 orbital interception reinforcement learning(RL) markov decision process(MDP) deep neural network(DNN)
在线阅读 下载PDF
Multi-task Coalition Parallel Formation Strategy Based on Reinforcement Learning 被引量:6
3
作者 JIANG Jian-Guo SU Zhao-Pin +1 位作者 QI Mei-Bin ZHANG Guo-Fu 《自动化学报》 EI CSCD 北大核心 2008年第3期349-352,共4页
代理人联盟是代理人协作和合作的一种重要方式。形成一个联盟,代理人能提高他们的能力解决问题并且获得更多的实用程序。在这份报纸,新奇多工联盟平行形成策略被介绍,并且多工联盟形成的过程是一个 Markov 决定过程的结论理论上被证... 代理人联盟是代理人协作和合作的一种重要方式。形成一个联盟,代理人能提高他们的能力解决问题并且获得更多的实用程序。在这份报纸,新奇多工联盟平行形成策略被介绍,并且多工联盟形成的过程是一个 Markov 决定过程的结论理论上被证明。而且,学习的加强被用来解决多工联盟平行的代理人行为策略,和这个过程形成被描述。在多工面向的领域,策略罐头有效地并且平行形式多工联盟。 展开更多
关键词 强化学习 多任务合并 平行排列 马尔可夫决策过程
在线阅读 下载PDF
基于MDP和Q-learning的绿色移动边缘计算任务卸载策略
4
作者 赵宏伟 吕盛凱 +2 位作者 庞芷茜 马子涵 李雨 《河南理工大学学报(自然科学版)》 北大核心 2025年第5期9-16,共8页
目的为了在汽车、空调等制造类工业互联网企业中实现碳中和,利用边缘计算任务卸载技术处理生产设备的任务卸载问题,以减少服务器的中心负载,减少数据中心的能源消耗和碳排放。方法提出一种基于马尔可夫决策过程(Markov decision process... 目的为了在汽车、空调等制造类工业互联网企业中实现碳中和,利用边缘计算任务卸载技术处理生产设备的任务卸载问题,以减少服务器的中心负载,减少数据中心的能源消耗和碳排放。方法提出一种基于马尔可夫决策过程(Markov decision process,MDP)和Q-learning的绿色边缘计算任务卸载策略,该策略考虑了计算频率、传输功率、碳排放等约束,基于云边端协同计算模型,将碳排放优化问题转化为混合整数线性规划模型,通过MDP和Q-learning求解模型,并对比随机分配算法、Q-learning算法、SARSA(state action reward state action)算法的收敛性能、碳排放与总时延。结果与已有的计算卸载策略相比,新策略对应的任务调度算法收敛比SARSA算法、Q-learning算法分别提高了5%,2%,收敛性更好;系统碳排放成本比Q-learning算法、SARSA算法分别减少了8%,22%;考虑终端数量多少,新策略比Q-learning算法、SARSA算法终端数量分别减少了6%,7%;系统总计算时延上,新策略明显低于其他算法,比随机分配算法、Q-learning算法、SARSA算法分别减少了27%,14%,22%。结论该策略能够合理优化卸载计算任务和资源分配,权衡时延、能耗,减少系统碳排放量。 展开更多
关键词 碳排放 边缘计算 强化学习 马尔可夫决策过程 任务卸载
在线阅读 下载PDF
Optimal policy for controlling two-server queueing systems with jockeying
5
作者 LIN Bing LIN Yuchen BHATNAGAR Rohit 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2022年第1期144-155,共12页
This paper studies the optimal policy for joint control of admission, routing, service, and jockeying in a queueing system consisting of two exponential servers in parallel.Jobs arrive according to a Poisson process.U... This paper studies the optimal policy for joint control of admission, routing, service, and jockeying in a queueing system consisting of two exponential servers in parallel.Jobs arrive according to a Poisson process.Upon each arrival, an admission/routing decision is made, and the accepted job is routed to one of the two servers with each being associated with a queue.After each service completion, the servers have an option of serving a job from its own queue, serving a jockeying job from another queue, or staying idle.The system performance is inclusive of the revenues from accepted jobs, the costs of holding jobs in queues, the service costs and the job jockeying costs.To maximize the total expected discounted return, we formulate a Markov decision process(MDP) model for this system.The value iteration method is employed to characterize the optimal policy as a hedging point policy.Numerical studies verify the structure of the hedging point policy which is convenient for implementing control actions in practice. 展开更多
关键词 queueing system jockeying optimal policy markov decision process(MDP) dynamic programming
在线阅读 下载PDF
考虑峰值功率受限约束的柔性作业车间调度研究
6
作者 李益兵 曹岩 +3 位作者 郭钧 王磊 李西兴 孙利波 《中国机械工程》 北大核心 2025年第2期280-293,共14页
针对车间峰值功率受限约束下的柔性作业车间调度面临的作业周期增加、机器负荷增大的问题,建立以最小化最大完工时间和最小化机器最大负载为优化目标、考虑车间峰值功率约束的柔性作业车间调度问题(PPCFJSP)模型。为更好地调度决策,首... 针对车间峰值功率受限约束下的柔性作业车间调度面临的作业周期增加、机器负荷增大的问题,建立以最小化最大完工时间和最小化机器最大负载为优化目标、考虑车间峰值功率约束的柔性作业车间调度问题(PPCFJSP)模型。为更好地调度决策,首先将该问题转化为马尔可夫决策过程,基于此设计了一个结合离线训练与在线调度的用于求解PPCFJSP的调度框架。然后设计了一种基于优先级经验重放的双重决斗深度Q网络(D3QNPER)算法,并设计了一种引入噪声的ε-贪婪递减策略,提高了算法收敛速度,进一步提高了求解能力和求解结果的稳定性。最后开展实验与算法对比研究,验证了模型和算法的有效性。 展开更多
关键词 柔性作业车间调度 马尔可夫决策过程 深度强化学习 峰值功率受限
在线阅读 下载PDF
因果时空语义驱动的深度强化学习抽象建模方法
7
作者 田丽丽 杜德慧 +2 位作者 聂基辉 陈逸康 李荥达 《软件学报》 北大核心 2025年第8期3637-3654,共18页
随着智能信息物理融合系统(intelligent cyber-physical system,ICPS)的快速发展,智能技术在感知、决策、规控等方面的应用日益广泛.其中,深度强化学习因其在处理复杂的动态环境方面的高效性,已被广泛用于ICPS的控制组件中.然而,由于运... 随着智能信息物理融合系统(intelligent cyber-physical system,ICPS)的快速发展,智能技术在感知、决策、规控等方面的应用日益广泛.其中,深度强化学习因其在处理复杂的动态环境方面的高效性,已被广泛用于ICPS的控制组件中.然而,由于运行环境的开放性和ICPS系统的复杂性,深度强化学习在学习过程中需要对复杂多变的状态空间进行探索,这极易导致决策生成时效率低下和泛化性不足等问题.目前对于该问题的常见解决方法是将大规模的细粒度马尔可夫决策过程(Markov decision process,MDP)抽象为小规模的粗粒度马尔可夫决策过程,从而简化模型的计算复杂度并提高求解效率.但这些方法尚未考虑如何保证原状态的时空语义信息、聚类抽象的系统空间和真实系统空间之间的语义一致性问题.针对以上问题,提出基于因果时空语义的深度强化学习抽象建模方法.首先,提出反映时间和空间价值变化分布的因果时空语义,并在此基础上对状态进行双阶段语义抽象以构建深度强化学习过程的抽象马尔可夫模型;其次,结合抽象优化技术对抽象模型进行调优,以减少抽象状态与相应具体状态之间的语义误差;最后,结合车道保持、自适应巡航、交叉路口会车等案例进行了大量的实验,并使用验证器PRISM对模型进行评估分析,结果表明所提出的抽象建模技术在模型的抽象表达能力、准确性及语义等价性方面具有较好的效果. 展开更多
关键词 深度强化学习 抽象建模 因果时空语义 智能信息物理融合系统(ICPS) 马尔可夫决策过程(MDP)
在线阅读 下载PDF
氢能综合能源系统的自适应最优能量调度研究 被引量:1
8
作者 吴东阳 崔佳 +3 位作者 赵宇航 王仕瀚 吴筱熳 秦博宇 《电工电能新技术》 北大核心 2025年第3期9-16,共8页
氢能综合能源系统已成为一种应对化石燃料枯竭和日益严峻的气候变化问题的有效方案。为增强系统稳定性,提高运行效率,本文提出一种使用深度确定性策略梯度(DDPG)算法的最优能量调度方法。最优调度问题被建模为一个具有动作空间、环境状... 氢能综合能源系统已成为一种应对化石燃料枯竭和日益严峻的气候变化问题的有效方案。为增强系统稳定性,提高运行效率,本文提出一种使用深度确定性策略梯度(DDPG)算法的最优能量调度方法。最优调度问题被建模为一个具有动作空间、环境状态和动作值函数的马尔科夫决策过程(MDP)问题。基于策略梯度和神经网络,通过对动作-评价网络的训练和策略迭代,提出了基于深度确定性策略梯度的最优能源调度方法,可根据氢能综合能源系统的动态响应进行自适应优化。最后结合算例验证了所提方法的有效性。 展开更多
关键词 氢能综合能源系统 深度确定性策略梯度 马尔科夫决策过程 自适应最优能量调度
在线阅读 下载PDF
基于深度强化学习的中央空调冷水机组无模型控制
9
作者 王萌 傅启明 +3 位作者 何坤 陈建平 陆悠 王蕴哲 《计算机工程与设计》 北大核心 2025年第5期1526-1534,共9页
针对当前中央空调冷水机组优化问题中基于模型控制对模型精确度依赖高和模型维护困难等问题,提出一种基于优先经验回放的深度强化学习无模型控制方法。将优化控制建模为马尔可夫决策过程,利用时间差分误差和总和树改进经验回放机制,提... 针对当前中央空调冷水机组优化问题中基于模型控制对模型精确度依赖高和模型维护困难等问题,提出一种基于优先经验回放的深度强化学习无模型控制方法。将优化控制建模为马尔可夫决策过程,利用时间差分误差和总和树改进经验回放机制,提高样本利用效率,设计兼顾室内舒适性和节能需求的奖励函数。基于实测历史数据构建仿真平台,用于方法验证。实验结果表明,在保证舒适度的前提下,该方法节能性优于规则控制,接近于模型控制并具有更快的收敛性。 展开更多
关键词 深度强化学习 优先经验回放 无模型控制 马尔可夫决策过程 冷水机组优化 舒适性保持 节能优化
在线阅读 下载PDF
基于融合经验安全强化学习的配电网电压控制
10
作者 冯昌森 汤飞霞 +2 位作者 王国烽 文福拴 张有兵 《电力系统自动化》 北大核心 2025年第8期169-177,共9页
随着分布式可再生能源在配电网中的渗透率逐渐提高,分布式并网逆变器参与电压-无功控制对提升电力系统运行的安全性和经济性具有重要意义。然而,在基于强化学习的电压-无功控制模型中,安全运行约束难以建模,且无法确保控制策略满足运行... 随着分布式可再生能源在配电网中的渗透率逐渐提高,分布式并网逆变器参与电压-无功控制对提升电力系统运行的安全性和经济性具有重要意义。然而,在基于强化学习的电压-无功控制模型中,安全运行约束难以建模,且无法确保控制策略满足运行约束。针对上述问题,文中提出一种基于安全强化学习的配电网电压控制策略。首先,将带约束的电压控制问题建模为约束马尔可夫决策过程。然后,采用原始-对偶方法学习最优策略,确保控制策略满足系统运行约束。随后,引入增强经验融合方法来改进强化学习经验利用方式,从而提高算法样本效率。最后,通过配电系统算例验证了所提方法的有效性。 展开更多
关键词 配电网 电压控制 强化学习 约束马尔可夫决策过程 经验融合
在线阅读 下载PDF
计及新能源强不确定性的交直流配电网鲁棒强化学习电压控制方法
11
作者 赵倩宇 庞丽 +3 位作者 黎翔 王守相 郭陆阳 韩照洋 《天津大学学报(自然科学与工程技术版)》 北大核心 2025年第8期851-864,共14页
针对高渗透强不确定性新能源接入下状态变化快、系统观测数据时效性和准确性差的问题,提出一种基于鲁棒深度强化学习(RDRL)的交直流配电网多时间尺度鲁棒电压控制方法.首先,针对机械式与电子式设备的不同调度特点,建立了交直流配电网快... 针对高渗透强不确定性新能源接入下状态变化快、系统观测数据时效性和准确性差的问题,提出一种基于鲁棒深度强化学习(RDRL)的交直流配电网多时间尺度鲁棒电压控制方法.首先,针对机械式与电子式设备的不同调度特点,建立了交直流配电网快慢时间尺度结合的电压控制模型.其次,设置防御智能体负责对可控设备的调度,设置攻击智能体降低防御智能体获得的奖励,提高控制方法的鲁棒性.基于此,构建状态-对抗性马尔可夫决策过程(SA-MDP)模型,应用分支决斗Q网络(BDQ)、软演员评论家(SAC)和多智能体SAC(MASAC)算法求解该决策问题,防御智能体和攻击智能体按照同步训练异步学习进行交替对抗训练,使防御智能体学习到最优控制策略.最后,仿真算例和扩展算例结果表明,所提方法实现了去模型化快速求解,能够在0.1 s内做出最优决策,平均电压偏差仅为0.41%,同时在5种不同扰动下的鲁棒性得到有效提升. 展开更多
关键词 交直流配电网 不确定性 鲁棒性 马尔可夫决策过程 深度强化学习 多时间尺度
在线阅读 下载PDF
基于符号知识的选项发现方法
12
作者 王麒迪 沈立炜 吴天一 《计算机科学》 北大核心 2025年第1期277-288,共12页
基于选项(Option)的层次化策略学习是分层强化学习领域的一种主要实现方式。其中,选项表示特定动作的时序抽象,一组选项以多层次组合的方式可解决复杂的强化学习任务。针对选项发现这一目标,已有的研究工作使用监督或无监督方式从非结... 基于选项(Option)的层次化策略学习是分层强化学习领域的一种主要实现方式。其中,选项表示特定动作的时序抽象,一组选项以多层次组合的方式可解决复杂的强化学习任务。针对选项发现这一目标,已有的研究工作使用监督或无监督方式从非结构化演示轨迹中自动发现有意义的选项。然而,基于监督的选项发现过程需要人为分解任务问题并定义选项策略,带来了大量的额外负担;无监督方式发现的选项则难以包含丰富语义,限制了后续选项的重用。为此,提出一种基于符号知识的选项发现方法,只需对环境符号建模,所得知识可指导环境中多种任务的选项发现,并为发现的选项赋予符号语义,从而在新任务执行时被重复使用。将选项发现过程分解为轨迹切割和行为克隆两阶段步骤:轨迹切割旨在从演示轨迹提取具备语义的轨迹片段,为此训练一个面向演示轨迹的切割模型,引入符号知识定义强化学习奖励评价切割的准确性;行为克隆根据切割得到的数据监督训练选项,旨在使选项模仿轨迹行为。使用所提方法在多个包括离散和连续空间的领域环境中分别进行了选项发现和选项重用实验。选项发现中轨迹切割部分的实验结果显示,所提方法在离散和连续空间环境中的切割准确率均高出基线方法数个百分点,并在复杂环境任务的切割中提高到20%。另外,选项重用实验的结果证明,相较于基线方法,赋予符号语义增强的选项在新任务重用上拥有更快的训练速度,并在基线方法无法完成的复杂任务中仍然得到良好收敛。 展开更多
关键词 分层强化学习 演示学习 选项发现 马尔可夫决策过程
在线阅读 下载PDF
基于改进MASAC算法的配电网光储一体电压控制策略
13
作者 周勇 周云海 +4 位作者 赵畅 李欣 林可意 季怀招 罗琰琳 《电力自动化设备》 北大核心 2025年第8期190-198,共9页
现有基于深度强化学习的配电网光储协同电压控制方法在训练过程中存在样本覆盖不足和特征感知能力有限的问题。提出一种基于改进多智能体柔性动作-评价(MASAC)算法的配电网光储一体电压控制策略。充分考虑光伏变流器的无功调节能力与储... 现有基于深度强化学习的配电网光储协同电压控制方法在训练过程中存在样本覆盖不足和特征感知能力有限的问题。提出一种基于改进多智能体柔性动作-评价(MASAC)算法的配电网光储一体电压控制策略。充分考虑光伏变流器的无功调节能力与储能变流器的有功调节能力,构建配电网有功无功优化模型;将电压控制问题转化为马尔可夫决策过程,针对因训练时回放池随机采样而导致的样本利用效率低下问题以及因缺乏特征提取和权重分配机制而引发的信息冗余问题,通过引入经验增强技术和注意力机制改进多智能体柔性动作-评价算法,在有效加快收敛速度的同时提升算法性能。在改进的IEEE 33节点系统和改进的IEEE 141节点系统上进行仿真分析,验证了所提策略的有效性。 展开更多
关键词 配电网 光储系统 电压控制 多智能体深度强化学习 马尔可夫决策过程 变流器
在线阅读 下载PDF
半Markov决策过程折扣模型与平均模型之间的关系 被引量:1
14
作者 殷保群 李衍杰 +2 位作者 唐昊 代桂平 奚宏生 《控制理论与应用》 EI CAS CSCD 北大核心 2006年第1期65-68,共4页
首先分别在折扣代价与平均代价性能准则下,讨论了一类半M arkov决策问题.基于性能势方法,导出了由最优平稳策略所满足的最优性方程.然后讨论了两种模型之间的关系,表明了平均模型的有关结论,可以通过对折扣模型相应结论取折扣因子趋于... 首先分别在折扣代价与平均代价性能准则下,讨论了一类半M arkov决策问题.基于性能势方法,导出了由最优平稳策略所满足的最优性方程.然后讨论了两种模型之间的关系,表明了平均模型的有关结论,可以通过对折扣模型相应结论取折扣因子趋于零时的极限来得到. 展开更多
关键词 markov决策过程 折扣模型 平均模型 最优性方程 最优平稳策略
在线阅读 下载PDF
基于深度强化学习算法的氢耦合电-热综合能源系统优化调度
15
作者 梁涛 柴露露 +2 位作者 谭建鑫 井延伟 吕梁年 《电力自动化设备》 北大核心 2025年第1期59-66,共8页
为了促进氢能与综合能源系统中其他能源的耦合,提高能源利用灵活性,减少系统碳排放,提出了一种氢耦合电-热综合能源系统(HCEH-IES)的运行优化方法。对HCEH-IES的各设备进行数学建模,并深入阐述深度强化学习算法的基本原理及双延迟深度... 为了促进氢能与综合能源系统中其他能源的耦合,提高能源利用灵活性,减少系统碳排放,提出了一种氢耦合电-热综合能源系统(HCEH-IES)的运行优化方法。对HCEH-IES的各设备进行数学建模,并深入阐述深度强化学习算法的基本原理及双延迟深度确定性策略梯度(TD3)算法的流程;将HCEH-IES的不确定性优化调度问题转化为马尔可夫决策过程,并采用TD3算法将优化目标以及约束条件转换为奖励函数进行连续状态空间和动作空间下的动态调度决策,形成合理的能源分配管理方案;采用历史数据对智能体进行训练,并对比深度Q学习网络和深度确定性策略梯度算法获得的调度策略。结果表明,相较于深度Q学习网络和深度确定性策略梯度算法,基于TD3算法的调度策略具有更好的经济性,其结果更接近于CPLEX日前优化调度方法的经济成本且更适用于解决综合能源系统动态优化调度问题,有效地实现了能源灵活利用,提高了综合能源系统的经济性和低碳性。 展开更多
关键词 氢耦合电-热综合能源系统 可再生能源 深度强化学习 双延迟深度确定性策略梯度 能量优化管理 马尔可夫决策过程
在线阅读 下载PDF
基于强化学习的自动驾驶汽车换道决策研究
16
作者 姜文鑫 吴志周 +1 位作者 许宏鑫 梁韵逸 《计算机工程与应用》 北大核心 2025年第12期359-371,共13页
换道作为车辆行驶的常见行为之一,操作不当极易引发交通事故。针对自动驾驶汽车的换道决策问题,提出了一种基于强化学习的DDQN(双深度Q网络)模型,该模型通过离散动作空间,结合驾驶舒适性、效率、安全性和换道惩罚四个方面设计奖励函数,... 换道作为车辆行驶的常见行为之一,操作不当极易引发交通事故。针对自动驾驶汽车的换道决策问题,提出了一种基于强化学习的DDQN(双深度Q网络)模型,该模型通过离散动作空间,结合驾驶舒适性、效率、安全性和换道惩罚四个方面设计奖励函数,以优化换道决策。为验证换道决策模型的性能,基于SUMO和真实高速公路车辆数据集搭建高速公路场景下的仿真模型。对比实验结果表明,DDQN模型在驾驶舒适性、交通效率、任务成功率及车辆平均行程速度方面均优于传统的DQN(深度Q网络)和Dueling DQN(对决深度Q网络)模型,且换道次数较少。此外,在四种不同交通拥堵场景下的实验结果显示,DDQN模型在不同拥堵情况下均保持了良好的性能,任务成功率均超过75%。研究表明,基于强化学习的DDQN算法能够为自动驾驶汽车提供有效的换道决策支持。 展开更多
关键词 自动驾驶 换道决策 强化学习 马尔可夫决策过程
在线阅读 下载PDF
非时齐部分可观察Markov决策规划的最优策略问题 被引量:1
17
作者 张继红 郭世贞 章芸 《运筹学学报》 CSCD 北大核心 2004年第2期81-87,共7页
本文讨论了一类非时齐部分可观察Markov决策模型.在不改变状态空间可列 性的条件下,把该模型转化为[5]中的一般化折扣模型,从而解决了其最优策略问题,并 且得到了该模型的有限阶段逼近算法,其中该算法涉及的状态是可列的.
关键词 部分可观察markov决策规划 最优策略 非时齐 折扣模型 逼近
在线阅读 下载PDF
基于混合深度强化学习的云制造云边协同联合卸载策略
18
作者 张亚茹 郭银章 《计算机应用研究》 北大核心 2025年第6期1676-1683,共8页
针对基于云边协同的云制造环境下制造资源实时感知数据难以及时处理的问题,考虑边缘端有限的计算资源、动态变化的网络状态以及任务负载等不确定性因素,给出一种基于混合深度强化学习(mixedbased deep reinforcement learning,M-DRL)的... 针对基于云边协同的云制造环境下制造资源实时感知数据难以及时处理的问题,考虑边缘端有限的计算资源、动态变化的网络状态以及任务负载等不确定性因素,给出一种基于混合深度强化学习(mixedbased deep reinforcement learning,M-DRL)的云边协同联合卸载策略。首先,融合云端的离散模型卸载与边缘端的连续任务卸载建立联合卸载模型;其次,将一段连续时隙内综合时延与能耗总成本为目标的卸载优化问题形式化地定义为马尔可夫决策过程(MDP);最后,使用DDPG与DQN的集成探索策略、在网络架构中引入长短期记忆网络(LSTM)的M-DRL算法求解该优化问题。仿真结果表明,M-DRL与已有一些卸载算法相比具有良好的收敛性和稳定性,并显著降低了系统总成本,为制造资源感知数据及时处理提供了一种有效的解决方案。 展开更多
关键词 云制造 云边协同 联合卸载 LSTM强化学习 马尔可夫决策过程
在线阅读 下载PDF
面向多Sink无线传感网络负载均衡的深度强化学习算法
19
作者 张伟华 王海英 《传感技术学报》 北大核心 2025年第5期917-922,共6页
Sink节点通常位于网络的边缘或中心位置,用于接收数据并与外部网络进行通信。当出现多中心节点的情况下,很容易造成负载不均衡问题。为了提高无线传感网络负载均衡度和运作效率,提出了面向多Sink无线传感网络负载均衡的深度强化学习算... Sink节点通常位于网络的边缘或中心位置,用于接收数据并与外部网络进行通信。当出现多中心节点的情况下,很容易造成负载不均衡问题。为了提高无线传感网络负载均衡度和运作效率,提出了面向多Sink无线传感网络负载均衡的深度强化学习算法。分析无线传感器网络能量消耗状况,将能量消耗状态作为约束,利用马尔科夫决策过程分析网络负载分配问题,构建带有能量约束的网络负载均衡模型,通过深度强化学习算法训练智能体,在MDP模型下根据当前的状态选择最优的负载分配策略。仿真结果表明,所提算法的负载均衡因子值高达3200,网络节点平均偏差在1.5 J以下,网络传输时延始终低于0.5 s,死亡节点数量在3.5以下,具有良好的负载均衡能力。 展开更多
关键词 无线传感器网络 负载均衡 深度强化学习 多Sink 马尔科夫决策过程
在线阅读 下载PDF
地月环境下航天器近距离接近自主决策
20
作者 黄成 邱志聪 许家忠 《光学精密工程》 北大核心 2025年第6期979-992,共14页
针对地月环境下航天器近距离接近的自主决策问题,提出了一种基于改进近端策略优化(Proximal Policy Optimization,PPO)算法的决策方法,实现追踪航天器在指定时间内达成与目标航天器对接所需的状态。首先,在PPO算法策略网络结构中引入LST... 针对地月环境下航天器近距离接近的自主决策问题,提出了一种基于改进近端策略优化(Proximal Policy Optimization,PPO)算法的决策方法,实现追踪航天器在指定时间内达成与目标航天器对接所需的状态。首先,在PPO算法策略网络结构中引入LSTM网络处理状态输入,增加算法在学习具有随机参数任务时的鲁棒性。其次,提出一种基于状态的内部奖励探索机制,通过与算法基础奖励线性叠加提高算法探索能力。另外,设计重要性抽样比率限制条件并引入到策略损失函数中,防止高方差客观估计危及目标函数的优化。最后,通过与其他学习算法对比学习奖励和任务执行结果验证所提方法的有效性。仿真结果表明:改进PPO算法的学习奖励值提高15%,执行接近任务燃油消耗降低57%并且存在未建模干扰时任务成功率提高1%。该方法能够显著提升航天器在执行接近任务时的自主决策能力。 展开更多
关键词 航天器近距离接近 自主决策 深度强化学习 近端策略优化
在线阅读 下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部