期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于深度强化学习的柔性作业车间调度算法
1
作者 何其静 李学华 陈硕 《北京信息科技大学学报(自然科学版)》 2025年第2期74-84,共11页
传统车间调度算法通常依赖静态环境和固定问题规模的简化假设,在大规模复杂作业车间的适应性较低。针对动态柔性作业车间调度问题(dynamic flexible job shop scheduling problem,DFJSP),提出了一种多目标动态柔性作业车间调度算法(mult... 传统车间调度算法通常依赖静态环境和固定问题规模的简化假设,在大规模复杂作业车间的适应性较低。针对动态柔性作业车间调度问题(dynamic flexible job shop scheduling problem,DFJSP),提出了一种多目标动态柔性作业车间调度算法(multi-objective dynamic flexible job shop scheduling algorithm,MODFJSA)。以最小化累计延迟和最小化总碳排放量为优化目标,建立了多目标动态柔性作业车间调度模型。基于双重深度Q网络,建立了基于随机作业到达的分布式多智能体动态作业车间调度算法,将DFJSP转化为涉及机器选择、工序排序和速度控制的顺序决策问题,实现实时优化的调度决策。动态实例仿真分析结果验证了MODFJSA的有效性,与现有调度算法相比,所提算法性能表现更好。 展开更多
关键词 工业物联网 动态柔性作业车间调度 多目标优化 实时决策 强化学习 双重深度q网络
在线阅读 下载PDF
基于改进D3QN的单点交叉口信号控制研究
2
作者 金志琦 张正华 +1 位作者 姜邦宇 孟达 《无线电工程》 2025年第1期28-35,共8页
近年交通拥堵已成为制约城市经济发展的重要问题,利用深度强化学习(Deep Reinforcement Learning,DRL)对交通信号灯进行自适应控制是缓解交通拥堵的研究热点。针对决斗双重深度Q网络(Dueling Double Deep Q-Network,D3QN)算法在交通信... 近年交通拥堵已成为制约城市经济发展的重要问题,利用深度强化学习(Deep Reinforcement Learning,DRL)对交通信号灯进行自适应控制是缓解交通拥堵的研究热点。针对决斗双重深度Q网络(Dueling Double Deep Q-Network,D3QN)算法在交通信号控制中存在的样本利用率低、学习速度慢,以及路网状态信息复杂且灵活性差等问题,基于非均匀划分道路的离散交通状态编码(Discrete Traffic State Encode,DTSE)方法,提出一种D3PQN2交通信号控制算法。该算法在D3QN算法基础上引入噪声网络、优先级经验回放技术来提高样本的利用效率以及学习速度,通过噪声扰动代替传统的ε-贪婪策略,使得算法能够更快更好地收敛到全局最优解。以扬州市文昌路和扬子江路交叉口为例,在Weibull分布生成的车流下进行实验,结果表明,改进后的算法相较于对抗深度Q网络(Dueling Deep Q-Network,Dueling DQN)算法和固定配时的控制方法,车辆平均排队长度分别减少了12.11%和67.44%,累计延误时间分别减少了13.89%和42.88%,具有更好的控制效果。 展开更多
关键词 交通信号控制 噪声网络 决斗双重深度q网络 离散交通状态编码
在线阅读 下载PDF
基于改进深度强化学习的注采调控模型研究
3
作者 陈锐 张强 曾俊玮 《长春理工大学学报(自然科学版)》 2024年第3期77-83,共7页
提出一种基于改进深度强化学习的注采调控模型。首先,建立以最大化经济效益为目标函数的注采调控强化环境。其次,针对模型参数量大、网络内部协变量位移多等问题,提出一种改进双重深度Q网络的深度强化学习方法,应用批量归一化技术逐层... 提出一种基于改进深度强化学习的注采调控模型。首先,建立以最大化经济效益为目标函数的注采调控强化环境。其次,针对模型参数量大、网络内部协变量位移多等问题,提出一种改进双重深度Q网络的深度强化学习方法,应用批量归一化技术逐层归一化模型的输入数据,增强模型的泛化能力;再通过剪枝模块压缩模型体积,加速网络的训练过程,引入动态ε策略思想提高模型的鲁棒性和稳定性。最后,将所提模型同其他模型进行对比,实验结果表明,所提模型能获得更高、更稳定的平均累计奖励和更快的收敛速度和运行速度。 展开更多
关键词 注采调控 深度强化学习 剪枝 批量归一化 双重深度q网络
在线阅读 下载PDF
基于深度强化学习的铁路更新维护计划
4
作者 白宏权 吕和平 +1 位作者 李宝峰 冯乐乐 《电子设计工程》 2024年第17期40-44,共5页
基于提高铁路网络的可靠性和安全性,同时降低成本的目的,采用了基于深度强化学习(DRL)的铁路维护和更新规划方法,通过考虑成本效益和风险降低,在规划周期内优化更新和维护规划,考虑预测性维护和基于条件的维护任务,并将时间、资源和相... 基于提高铁路网络的可靠性和安全性,同时降低成本的目的,采用了基于深度强化学习(DRL)的铁路维护和更新规划方法,通过考虑成本效益和风险降低,在规划周期内优化更新和维护规划,考虑预测性维护和基于条件的维护任务,并将时间、资源和相关工程约束纳入模型中,以捕捉问题的实际特征,采用双重深度Q网络(DDQN)来克服环境的不确定性,应用优先回放记忆来改善反馈。提出的DDQN方法被应用于一家货运铁路网络,分析结果表明,所提出的方法可以制定出一种最优策略,不仅可以减少预算消耗,还可以提高网络的可靠性和安全性。 展开更多
关键词 铁路更新 铁路维护 深度强化学习 双重深度q网络
在线阅读 下载PDF
基于D3QN的无人机编队控制技术 被引量:3
5
作者 赵启 甄子洋 +3 位作者 龚华军 曹红波 李荣 刘继承 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2023年第8期2137-2146,共10页
针对无人机编队中控制器设计需要基于模型信息,以及无人机智能化程度低等问题,采用深度强化学习解决编队控制问题。针对编队控制问题设计对应强化学习要素,并设计基于深度强化学习对偶双重深度Q网络(D3QN)算法的编队控制器,同时提出一... 针对无人机编队中控制器设计需要基于模型信息,以及无人机智能化程度低等问题,采用深度强化学习解决编队控制问题。针对编队控制问题设计对应强化学习要素,并设计基于深度强化学习对偶双重深度Q网络(D3QN)算法的编队控制器,同时提出一种优先选择策略与多层动作库结合的方法,加快算法收敛速度并使僚机最终能够保持到期望距离。通过仿真将设计的控制器与PID控制器、Backstepping控制器对比,验证D3QN控制器的有效性。仿真结果表明:该控制器可应用于无人机编队,提高僚机智能化程度,自主学习保持到期望距离,且控制器设计无需模型精确信息,为无人机编队智能化控制提供了依据与参考。 展开更多
关键词 无人机编队 编队控制 深度强化学习 深度q网络 对偶双重深度q网络
在线阅读 下载PDF
面向智能工厂多机器人定位的无线分布式协同决策 被引量:1
6
作者 张文璐 霍子龙 +2 位作者 赵西雨 崔琪楣 陶小峰 《无线电通信技术》 2022年第4期718-727,共10页
由于未来智能工厂中智能机器人的工作环境复杂多变,机器人进行协作定位时无法获知全局信道状态,其选择的标定节点可能被其他机器人占用,导致定位性能的波动较大,稳定性差。针对该问题,提出了基于双重深度超Q神经网络(DDHQN)的多机器人... 由于未来智能工厂中智能机器人的工作环境复杂多变,机器人进行协作定位时无法获知全局信道状态,其选择的标定节点可能被其他机器人占用,导致定位性能的波动较大,稳定性差。针对该问题,提出了基于双重深度超Q神经网络(DDHQN)的多机器人协同决策算法;首先将多机器人进行协作定位时的决策系统构建为竞争加合作模型,并通过奖励函数的设计鼓励机器人参与协作;为了避免机器人之间的决策冲突,引入表示机器人决策轨迹的记录空间以实现对其他机器人的行为预估,记录空间的内容依据机器人的无线感知结果进行迭代更新;最后,仿真证明了所提出的基于DDHQN的多机器人协同决策算法使得每个机器人能够以群体性能最大为目标进行独立学习,在一定的迭代次数后可以实现精准的行为预估,并收敛到稳定有效的决策方案。 展开更多
关键词 双重深度q神经网络(DDHqN) 多机器人协同 标定节点选择 决策轨迹 行为预估 无线感知
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部