期刊文献+
共找到123篇文章
< 1 2 7 >
每页显示 20 50 100
深度强化学习求解动态柔性作业车间调度问题 被引量:1
1
作者 杨丹 舒先涛 +3 位作者 余震 鲁光涛 纪松霖 王家兵 《现代制造工程》 北大核心 2025年第2期10-16,共7页
随着智慧车间等智能制造技术的不断发展,人工智能算法在解决车间调度问题上的研究备受关注,其中车间运行过程中的动态事件是影响调度效果的一个重要扰动因素,为此提出一种采用深度强化学习方法来解决含有工件随机抵达的动态柔性作业车... 随着智慧车间等智能制造技术的不断发展,人工智能算法在解决车间调度问题上的研究备受关注,其中车间运行过程中的动态事件是影响调度效果的一个重要扰动因素,为此提出一种采用深度强化学习方法来解决含有工件随机抵达的动态柔性作业车间调度问题。首先以最小化总延迟为目标建立动态柔性作业车间的数学模型,然后提取8个车间状态特征,建立6个复合型调度规则,采用ε-greedy动作选择策略并对奖励函数进行设计,最后利用先进的D3QN算法进行求解并在不同规模车间算例上进行了有效性验证。结果表明,提出的D3QN算法能非常有效地解决含有工件随机抵达的动态柔性作业车间调度问题,在所有车间算例中的求优胜率为58.3%,相较于传统的DQN和DDQN算法车间延迟分别降低了11.0%和15.4%,进一步提升车间的生产制造效率。 展开更多
关键词 深度强化学习 D3QN算法 工件随机抵达 柔性作业车间调度 动态调度
在线阅读 下载PDF
面向低轨卫星通信网络的联邦深度强化学习智能路由方法
2
作者 李学华 廖海龙 +1 位作者 张贤 周家恩 《电子与信息学报》 北大核心 2025年第8期2652-2664,共13页
低轨卫星通信网络拓扑结构动态变化,传统地面网络路由方法难以直接适用,同时由于卫星星载资源受限,基于人工智能的路由方法通常学习效率较低,而协同训练需要数据共享和传输,难度大且存在数据安全风险。为此,针对上述挑战,该文提出一种... 低轨卫星通信网络拓扑结构动态变化,传统地面网络路由方法难以直接适用,同时由于卫星星载资源受限,基于人工智能的路由方法通常学习效率较低,而协同训练需要数据共享和传输,难度大且存在数据安全风险。为此,针对上述挑战,该文提出一种基于卫星分簇的多智能体联邦深度强化学习路由方法。首先,设计了结合网络拓扑、通信和能耗的低轨卫星通信网络路由模型;然后,基于每颗卫星的平均连接度将星座节点划分为多个簇,在簇内采用联邦深度强化学习框架,通过簇内卫星协同共享模型参数,共同训练对应簇内的全局模型,以最大化网络能量效率。最后,仿真结果表明,该文所设计方法对比Sarsa、MAD2QN和REINFORCE 3种基准方法,网络平均吞吐量分别提高83.7%,19.8%和14.1%;数据包平均跳数分别减少25.0%,18.9%和9.1%;网络能量效率分别提升55.6%,42.9%和45.8%。 展开更多
关键词 低轨卫星通信 路由方法 卫星分簇 联邦深度强化学习 能量效率
在线阅读 下载PDF
基于深度强化学习的动态核应急撤离优化决策模型研发
3
作者 李鸣野 姚仁太 +5 位作者 郭欢 张俊芳 吕明华 徐向军 牛嫣静 贾博慧 《辐射防护》 北大核心 2025年第5期517-529,共13页
核事故情景下人员的及时、有效撤离对减少辐射暴露、保障公众安全至关重要。传统路径规划算法虽然能够快速计算静态最短路径,但难以适应辐射剂量场动态变化带来的挑战。本文提出了一种基于深度强化学习的动态核应急撤离优化决策模型(MD-... 核事故情景下人员的及时、有效撤离对减少辐射暴露、保障公众安全至关重要。传统路径规划算法虽然能够快速计算静态最短路径,但难以适应辐射剂量场动态变化带来的挑战。本文提出了一种基于深度强化学习的动态核应急撤离优化决策模型(MD-DQN算法模型),通过建立马尔可夫决策过程(MDP)模型,以动态辐射剂量场信息、路网信息和实时位置为状态空间,设计了一种综合考虑路径长度、辐射暴露及方向性引导的多因素奖励函数,驱动智能体自主地学习最优的动态撤离决策策略。同时,通过优化网络结构设计和即时奖励机制,提高了算法的收敛性与泛化性能。仿真实验表明,与传统的Dijkstra算法和A^(*)算法相比,MD-DQN算法能够及时避开高辐射风险区域,显著降低撤离过程中人员的辐射暴露,且具有更优的实时路径调整能力和环境适应性。研究成果可为核应急撤离决策提供高效、智能的辅助支持工具,并为未来在多源辐射、多智能体协同以及实时数据驱动的智能化决策领域提供新的研究思路。 展开更多
关键词 深度强化学习 核应急撤离 动态撤离决策 马尔可夫决策过程 MD-DQN
在线阅读 下载PDF
基于深度强化学习的动态核应急防护行动优化决策模型研发
4
作者 李鸣野 吕明华 +6 位作者 张俊芳 姚仁太 郭欢 牛嫣静 赵丹 李煜 田芷洁 《核电子学与探测技术》 北大核心 2025年第10期1488-1499,共12页
针对核事故情境下复杂多变的防护行动决策问题,本文提出一种融合马尔可夫决策过程与深度强化学习的动态优化模型。该模型包含执行环境模块、深度强化学习网络模块和优化决策模块三大模块,通过奖励函数引导机制与状态映射机制实现路径优... 针对核事故情境下复杂多变的防护行动决策问题,本文提出一种融合马尔可夫决策过程与深度强化学习的动态优化模型。该模型包含执行环境模块、深度强化学习网络模块和优化决策模块三大模块,通过奖励函数引导机制与状态映射机制实现路径优化、隐蔽等策略组合的智能生成。在核事故后果评价系统模拟条件下,该模型经约200轮训练后实现收敛,训练时长控制在10 min以内,可有效降低剂量暴露、提升疏散效率并优化路径合理性。研究结果验证了该模型在复杂核应急响应中的策略适应性与优化能力,为构建智能化核事故辅助决策系统提供了方法依据与工程参考。 展开更多
关键词 防护行动 马尔可夫决策过程 深度强化学习 动态优化
在线阅读 下载PDF
基于深度强化学习的主动配电网动态重构综述
5
作者 江昌旭 郭辰 +2 位作者 刘晨曦 林俊杰 邵振国 《高电压技术》 北大核心 2025年第4期1801-1816,I0016-I0020,共21页
随着双碳目标的快速发展,大量以风电、光伏为代表的分布式电源接入配电网,这将进一步加剧电源出力的间歇性与波动性。主动配电网动态重构属于一个复杂的高维混合整数非线性随机优化问题,传统算法在解决该问题的过程中存在着诸多不足之... 随着双碳目标的快速发展,大量以风电、光伏为代表的分布式电源接入配电网,这将进一步加剧电源出力的间歇性与波动性。主动配电网动态重构属于一个复杂的高维混合整数非线性随机优化问题,传统算法在解决该问题的过程中存在着诸多不足之处。而深度强化学习算法结合了深度学习与强化学习的优势,非常适用于制定当前备受关注的主动配电网动态重构策略。该文首先对新型电力系统主动配电网特征进行总结,并对当前主动配电网动态重构研究在构建数学模型方面所取得的进展以及所面临的挑战进行了深入分析。其次,对配电网动态重构编码方式进行了探讨,并对深度强化学习算法进行了系统性地综述。进而,重点分析了现有算法在处理主动配电网动态重构时的不足之处,并对深度强化学习算法在主动配电网动态重构方面的研究现状与优势进行了总结与概括。最后,对主动配电网动态重构的未来研究方向进行了展望。 展开更多
关键词 主动配电网 动态重构 深度强化学习 编码方式 机器学习 人工智能
在线阅读 下载PDF
基于多智能体深度强化学习的光储充电站动态定价及能源调度策略
6
作者 陈锦韬 林兵 +2 位作者 林崧 陈静 陈星 《计算机科学》 北大核心 2025年第9期337-345,共9页
光储充电站运营收益的提升,能够使充电站运营商加大对光储充电站基础设施的投资和部署,从而缓解日益增长的电动汽车渗透到电网时带来的负荷压力。针对光储充电站的运营收益提升问题,提出了一种基于多智能体深度强化学习的动态定价及能... 光储充电站运营收益的提升,能够使充电站运营商加大对光储充电站基础设施的投资和部署,从而缓解日益增长的电动汽车渗透到电网时带来的负荷压力。针对光储充电站的运营收益提升问题,提出了一种基于多智能体深度强化学习的动态定价及能源调度策略,旨在提高完全合作关系下光储充电站的整体运营收益。首先,以最大化所有光储充电站的总运营收益为目标,将在单个光储充电站运营商下的多个光储充电站和电动汽车建模成马尔可夫博弈模型;其次,采用多智能体双延迟确定性策略梯度算法进行模型求解,通过制定充电服务价格和储能系统的充放电策略,以达到总运营收益最大化的目标,并通过余弦退火方法对算法学习率进行调整,提升该算法的收敛速率和收敛阈值;最后,为防止完全合作关系下多站可能出现的价格垄断问题,引入反需求函数对充电服务价格进行约束。实验结果表明,所提策略和对比方法相比,提高了4.17%~66.67%的充电站运营收益,且所用的反需求函数能够有效预防多站的价格垄断问题。 展开更多
关键词 多智能体深度强化学习 光储充电站 能源调度 动态定价 反需求函数
在线阅读 下载PDF
联合联邦学习与深度强化学习的并行服务功能链部署算法
7
作者 刘光远 杜婕 庞紫园 《西安交通大学学报》 北大核心 2025年第9期110-121,共12页
针对多域边缘云网络中并行服务功能链(SFC)的动态部署问题,构建了一种优化的SFC并行结构,提出一种联合联邦学习(FedAvg)与深度强化学习(DRL)的新算法——FA-D3QN-PER。该方法解决了现有的单一DRL算法和集中式决策框架在解决SFC切分和部... 针对多域边缘云网络中并行服务功能链(SFC)的动态部署问题,构建了一种优化的SFC并行结构,提出一种联合联邦学习(FedAvg)与深度强化学习(DRL)的新算法——FA-D3QN-PER。该方法解决了现有的单一DRL算法和集中式决策框架在解决SFC切分和部署时存在的资源分配不均和隐私泄露问题,通过允许各域内的智能体独立训练,并利用FedAvg共享模型参数,在保护数据隐私的同时优化全局策略。在部署阶段,对混合SFC的并行结构进行分析和优化;根据优化结果将优化后的混合SFC合理切分成若干个子链,并将其分配给合适的边缘域;将各子链中的虚拟网络功能(VNF)映射至目标域内的物理节点上。仿真结果表明,FA-D3QN-PER方法具有稳定性强、收敛速度快等特点,能够显著提高SFC部署的接受率,同时有效减少平均延迟和总成本,相较于FA-DQN、DFSC和MuL算法,FA-D3QN-PER算法将接受率提高了11.6%,平均延迟和总成本分别减少了17%和18.56%。 展开更多
关键词 多域边缘云网络 并行服务功能链 动态部署 联邦学习 深度强化学习
在线阅读 下载PDF
基于深度强化学习的机械臂动态避障算法设计与实验验证
8
作者 冒建亮 王展 +2 位作者 周昕 夏飞 张传林 《实验技术与管理》 北大核心 2025年第4期78-85,共8页
针对非结构化环境中的机械臂动态避障任务,提出基于深度强化学习(deep reinforcement learning,DRL)的算法设计与实验验证流程。通过设计全面的奖励函数来平衡动态避障与目标跟踪,包括末端避障、本体避障、自碰撞避免、精确到达目标和... 针对非结构化环境中的机械臂动态避障任务,提出基于深度强化学习(deep reinforcement learning,DRL)的算法设计与实验验证流程。通过设计全面的奖励函数来平衡动态避障与目标跟踪,包括末端避障、本体避障、自碰撞避免、精确到达目标和运动平滑性。利用Python编程环境搭建仿真平台训练智能体,实现高效的状态识别与动作执行。将训练好的模型应用于实际机械臂,并结合视觉伺服系统,完成实时环境感知与精准避障测试。实验结果验证了DRL算法的性能,为实验室科研智能化和自主化提供了技术支撑,同时有助于培养学生理论联系实际的能力。 展开更多
关键词 机械臂 深度强化学习 动态避障 轨迹规划
在线阅读 下载PDF
基于深度强化学习的多区域通风系统风量控制方法研究 被引量:1
9
作者 李春晓 崔璨 黎明 《控制工程》 北大核心 2025年第2期265-272,共8页
通风系统在实际运行时,其风量负荷动态变化,且各区域风量之间存在强耦合,导致其风量调节的难度高、调节时间长。针对此问题,提出一种基于深度确定性策略梯度的多区域通风系统风量控制方法,实现对各区域风量的快速、准确控制。此外,提出... 通风系统在实际运行时,其风量负荷动态变化,且各区域风量之间存在强耦合,导致其风量调节的难度高、调节时间长。针对此问题,提出一种基于深度确定性策略梯度的多区域通风系统风量控制方法,实现对各区域风量的快速、准确控制。此外,提出一种动态目标训练机制,有效提高强化学习训练的效率。最后,建立通风系统仿真环境,验证所提控制方法的性能。仿真结果表明,所提控制方法能够快速实现对风量的准确控制,能够抵抗一定程度的系统噪声,并且适用于不同拓扑结构的通风系统。 展开更多
关键词 风量控制方法 深度强化学习 深度确定性策略梯度 动态目标 多区域通风系统
在线阅读 下载PDF
DPC-DQRL:动态行为克隆约束的离线-在线双Q值强化学习
10
作者 闫雷鸣 刘健 朱永昕 《计算机应用研究》 北大核心 2025年第4期1003-1010,共8页
离线-在线强化学习旨在使用少量在线微调来提高预训练模型的性能。现有方法主要包括无约束微调与约束微调。前者往往由于分布偏移过大而导致严重的策略崩溃;后者由于保留离线约束导致性能提升缓慢,影响训练效率。为了改善上述问题,可视... 离线-在线强化学习旨在使用少量在线微调来提高预训练模型的性能。现有方法主要包括无约束微调与约束微调。前者往往由于分布偏移过大而导致严重的策略崩溃;后者由于保留离线约束导致性能提升缓慢,影响训练效率。为了改善上述问题,可视化对比分析两类方法的微调过程,发现不准确的Q值估计是影响性能的主要原因,并提出了一种动态策略约束的双Q值强化学习算法(DPC-DQRL)。首先,该算法设计了遵循记忆遗忘规律的动态行为克隆约束,在微调过程中动态调整约束强度;其次,构建离线-在线双Q值网络,引入离线动作价值网络参与Q值估计,提高微调过程中Q值的准确性。在Gym仿真平台使用MuJoCo物理引擎进行了Halfcheetah、Hopper、Walker2D三个经典仿真任务,使用DPC-DQRL算法微调后性能比原预训练模型分别提升47%、63%、20%,所有任务的平均归一化得分比最优基线算法提升10%。实验结果表明,DPC-DQRL在提升模型性能的同时保证了模型的稳定,与其他算法相比具有一定的优越性。 展开更多
关键词 深度强化学习 离线-在线强化学习 动态策略约束 Q值估计
在线阅读 下载PDF
数字孪生架构下基于GAN增强的多智能体深度强化学习边缘推理与异构资源协同优化
11
作者 袁晓铭 田汉森 +4 位作者 黄锟达 邓庆绪 康嘉文 李长乐 段续庭 《计算机学报》 北大核心 2025年第8期1763-1780,共18页
边缘侧大模型应用正成为推动智能健康、智慧城市等领域智能化与数字化进程的关键驱动力。然而,大模型海量智能任务异构性和高动态网络的不可预测性,使得边缘设备有限的算力资源难以满足复杂推理任务对高效且可靠服务质量(Quality of Ser... 边缘侧大模型应用正成为推动智能健康、智慧城市等领域智能化与数字化进程的关键驱动力。然而,大模型海量智能任务异构性和高动态网络的不可预测性,使得边缘设备有限的算力资源难以满足复杂推理任务对高效且可靠服务质量(Quality of Service,QoS)的需求。因此本文提出了一种基于生成对抗网络(Generative Adversarial Network,GAN)增强的多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)的边缘推理与异构资源协同优化方法,以实现数字孪生(Digital Twin,DT)驱动的边缘侧大模型赋能系统中异构资源的动态负载均衡,确保推理任务高效性与可靠性。首先,本文构建并分析了DT驱动的边缘侧大模型系统中的物理网络层和孪生网络层,并采用GAN实现对物理实体的孪生映射,从而对海量异构边缘数据进行分布式处理、生成与优化。接着,利用MADRL算法来对系统中的异构资源进行综合量化与协同优化,并将边缘推理数据反馈至MADRL算法中以减少集中式训练过程中的数据通信开销。同时,借助于联邦学习,该架构能够实现多方知识共享,从而有效提升模型训练速度与性能。最后,仿真结果表明,该算法能够在动态复杂大模型赋能边缘系统环境中有效降低推理任务的时延和能耗,充分利用有限的系统资源,确保推理任务的高效性,并提升智能服务的质量。 展开更多
关键词 边缘侧大模型 数字孪生 移动边缘计算 多智能体深度强化学习 生成对抗网络 联邦学习
在线阅读 下载PDF
基于深度强化学习的氢燃料电池电动拖拉机能量管理策略
12
作者 李利桥 陈江春 +2 位作者 刘伟 聂晶 高宗余 《农业机械学报》 北大核心 2025年第7期691-700,共10页
针对氢燃料电池电动拖拉机(Hydrogen fuel cell electric tractor,HFCET)能量管理策略在线运行时对工况适应性差的问题,提出一种基于深度Q网络(Deep Q-networks,DQN)学习的混合能量管理策略。将深度强化学习方法用于氢燃料电池(Hydrogen... 针对氢燃料电池电动拖拉机(Hydrogen fuel cell electric tractor,HFCET)能量管理策略在线运行时对工况适应性差的问题,提出一种基于深度Q网络(Deep Q-networks,DQN)学习的混合能量管理策略。将深度强化学习方法用于氢燃料电池(Hydrogen fuel cell,HFC)电动拖拉机对提高燃料经济性和延长燃料电池使用寿命具有重要作用。首先,以燃料电池氢耗量为目标,将Q-学习算法与DQN算法进行对比,并与动态规划(Dynamic programming,DP)方法进行比较。将燃料电池性能退化因子纳入目标函数,通过调整性能退化因子与氢耗量实现氢燃料电池经济性和系统性能退化之间的动态平衡。通过电动拖拉机实际运行工况验证所提策略的有效性。实际运行工况试验结果表明,在训练中纳入氢燃料电池性能退化因子时,能量管理策略(Energy management strategy,EMS)能耗下降2.46%,达到实际运行工况DP方法EMS的87.63%,有效抑制了氢燃料电池性能衰退。同时,与DP方法相比,计算效率提高78%以上。 展开更多
关键词 电动拖拉机 氢燃料电池 能量管理策略 深度强化学习 Q-学习 动态规划
在线阅读 下载PDF
考虑动态时段划分的双策略协同强化学习无功电压控制
13
作者 郑瑜蓁 王慧芳 +2 位作者 张亦翔 马永吉 郭瑞鹏 《电力自动化设备》 北大核心 2025年第8期199-207,共9页
高比例分布式光伏接入农村配电网引起日间潮流倒送,导致日夜电压越限存在明显差异,为此,提出了一种考虑动态时段划分的双策略协同强化学习无功电压控制方法。分析了动态时段划分的必要性,并提出样本表征指标及划分方法,据此进行静止无... 高比例分布式光伏接入农村配电网引起日间潮流倒送,导致日夜电压越限存在明显差异,为此,提出了一种考虑动态时段划分的双策略协同强化学习无功电压控制方法。分析了动态时段划分的必要性,并提出样本表征指标及划分方法,据此进行静止无功补偿器优化配置;以最小化全天运行网损为目标,利用二阶锥松弛进行日前离散无功规划,并作为后续日内控制决策的依据;提出了双策略协同多智能体深度强化学习算法,将实时无功电压控制问题转化为分布式部分可观测马尔可夫决策过程,依据日内超短期与日前预测偏差对全天时段进行动态划分,构建双策略无功电压协同控制架构,对全天电压进行有效控制。利用改进IEEE33节点配电网验证了所提方法的有效性。 展开更多
关键词 动态时段划分 无功电压控制 多智能体深度强化学习 双策略协同 多时间尺度 配电网
在线阅读 下载PDF
基于深度强化学习的云订单动态接受与调度问题研究
14
作者 丁祥海 张梦钗 +1 位作者 刘春来 韩杰 《运筹与管理》 CSSCI CSCD 北大核心 2024年第9期221-226,共6页
为解决动态到达的云订单接受与调度问题,以柔性流水车间为背景,提出了结合改进策略的深度Q值网络(DQN)算法。基于研究问题的两阶段性,设计了接单智能体和排单智能体联合决策模型;其中接单智能体以最大化利润为目标,排单智能体以最小化... 为解决动态到达的云订单接受与调度问题,以柔性流水车间为背景,提出了结合改进策略的深度Q值网络(DQN)算法。基于研究问题的两阶段性,设计了接单智能体和排单智能体联合决策模型;其中接单智能体以最大化利润为目标,排单智能体以最小化拖期和最小化扰动为目标。针对订单到达动态性,设计了两个智能体的动态交互机制。在排单智能体中,考虑了关键路径的工序候选集、机器候选集、工序最早开始加工等算法改进策略,同时改进DQN网络结构,使选择工件和机器的规则增加至50种,提高云订单与现有订单生产的协同能力。经过数值仿真实验表明,所提算法在不同规模问题上,最大利润、机器负荷、算法稳定性等方面,都有较好的表现,能提高企业利润和接单率。 展开更多
关键词 订单接受 动态决策 深度强化学习 柔性流水车间
在线阅读 下载PDF
深度强化学习算法求解动态流水车间实时调度问题 被引量:1
15
作者 杨媛媛 胡蓉 +2 位作者 钱斌 张长胜 金怀平 《控制理论与应用》 EI CAS CSCD 北大核心 2024年第6期1047-1055,共9页
本文针对动态流水车间调度问题(DFSP),以最小化最大完工时间为优化目标,提出一种自适应深度强化学习算法(ADRLA)进行求解.首先,将DFSP的新工件动态到达过程模拟为泊松过程,进而采用马尔科夫决策过程(MDP)对DFSP的求解过程进行描述,将DFS... 本文针对动态流水车间调度问题(DFSP),以最小化最大完工时间为优化目标,提出一种自适应深度强化学习算法(ADRLA)进行求解.首先,将DFSP的新工件动态到达过程模拟为泊松过程,进而采用马尔科夫决策过程(MDP)对DFSP的求解过程进行描述,将DFSP转化为可由强化学习求解的序贯决策问题.然后,根据DFSP的排序模型特点,设计具有较好状态特征区分度和泛化性的状态特征向量,并依此提出5种特定动作(即调度规则)来选择当前需加工的工件,同时构造基于问题特性的奖励函数以获取动作执行效果的评价值(即奖励值),从而确定ADRLA的3类基本要素.进而,以深度双Q网络(DDQN)作为ADRLA中的智能体,用于进行调度决策.该智能体采用由少量小规模DFSP确定的数据集(即3类基本要素在不同问题上的数据)训练后,可较准确刻画不同规模DFSP的状态特征向量与Q值向量(由各动作的Q值组成)间的非线性关系,从而能对各种规模DFSP进行自适应实时调度.最后,通过在不同测试问题上的仿真实验和与算法比较,验证了所提ADRLA求解DFSP的有效性和实时性. 展开更多
关键词 流水车间调度 新工件到达 深度强化学习 动态实时调度 智能调度
在线阅读 下载PDF
考虑参数共享的深度强化学习双阶段分布式电源优化
16
作者 高放 姚浩天 +4 位作者 高庆 殷林飞 蔡运翔 金岩 潘宇 《中国电机工程学报》 北大核心 2025年第19期7493-7509,I0019,共18页
随着风光等可再生能源为主的分布式电源高比例接入,在解决分布式电源出力优化调度等问题时,系统拓扑频繁变化,给配电网的稳定运行与经济调度带来挑战。现有方法多适用于固定拓扑的系统,依赖精确模型,计算耗时,难以实现在线控制。现行基... 随着风光等可再生能源为主的分布式电源高比例接入,在解决分布式电源出力优化调度等问题时,系统拓扑频繁变化,给配电网的稳定运行与经济调度带来挑战。现有方法多适用于固定拓扑的系统,依赖精确模型,计算耗时,难以实现在线控制。现行基于深度强化学习的方法难以兼顾分布式训练和离散-连续混合动作空间。该文提出一种考虑参数共享的多智能体深度双阶段强化学习的分布式电源优化策略。首先,对整体问题纵向解耦,在第1阶段构建含分布式电源的动态配电网重构模型,利用混合整数二阶锥规划解得拓扑结果;然后,将配电网环境横向解耦为若干分区,在第2阶段以一天为周期,提出一种考虑参数共享的集中式训练-分布式执行框架,并融入优先经验回放机制的多智能体优先双延迟深度确定性策略梯度算法;将拓扑信息嵌入配电网环境中,通过潮流计算映射给智能体,以最小化网络有功损耗构建优化调度模型。算例分析表明所提算法考虑了配电网拓扑结构的变化,通过智能体间的策略与经验共享以及优先经验回放机制提高学习效率,降低训练难度,可以满足在线实时决策的效率要求,相比其他策略表现出更加优异的稳压减损控制效果。 展开更多
关键词 深度强化学习 参数共享 动态重构 拓扑变化 分布式电源优化调度
在线阅读 下载PDF
基于深度强化学习的多无人机能量传输与边缘计算联合优化方法
17
作者 林绍福 陈盈盈 李硕朋 《计算机工程》 北大核心 2025年第3期144-154,共11页
由于有限的机载资源和续航能力,无人机(UAV)在空中停留时间有限,无法长时间连续执行计算密集型任务。为了满足军事行动、紧急救援等连续作业场景中UAV的不间断任务执行需求,设计一种基于无线能量传输的多UAV边缘计算方法。采用一组具备... 由于有限的机载资源和续航能力,无人机(UAV)在空中停留时间有限,无法长时间连续执行计算密集型任务。为了满足军事行动、紧急救援等连续作业场景中UAV的不间断任务执行需求,设计一种基于无线能量传输的多UAV边缘计算方法。采用一组具备无线能量传输和移动边缘计算能力的大型无人机作为空中边缘能量服务器(AEES),为多个空中执勤UAV提供能量传输和边缘计算服务,以提高UAV的任务执行效率。通过联合UAV的三维位置、电量和任务量信息,建立多UAV能量与算力联合优化模型,并采用多智能体深度Q网络(MADQN)算法实现AEES服务位置点和能量发射功率智能化决策,以最大化固定服务时长内的系统吞吐量和能量传输效率,同时最小化能耗。仿真结果表明,所提出的MADQN方法有效地优化了AEES的服务位置和能耗,能够高效地为UAV提供算力、能量等资源。与启发式学习算法和贪婪算法等其他基线方法相比,明显提升了能量传输效益和系统吞吐量,同时保证了能量传输、能耗和吞吐量等多个优化目标的平衡。 展开更多
关键词 多无人机 动态资源分配 深度强化学习 无线功率传输 移动边缘计算
在线阅读 下载PDF
基于知识辅助深度强化学习的巡飞弹组动态突防决策 被引量:1
18
作者 孙浩 黎海青 +2 位作者 梁彦 马超雄 吴翰 《兵工学报》 EI CAS CSCD 北大核心 2024年第9期3161-3176,共16页
巡飞弹组(Loitering Munition Group,LMG)突防控制决策是提高巡飞弹群组作战自主性与智能性的关键。针对存在截击拦截器和临机防空火力区的动态环境中弹组突防机动指令在线生成困难的问题,提出一种基于知识辅助强化学习方法的LMG突防控... 巡飞弹组(Loitering Munition Group,LMG)突防控制决策是提高巡飞弹群组作战自主性与智能性的关键。针对存在截击拦截器和临机防空火力区的动态环境中弹组突防机动指令在线生成困难的问题,提出一种基于知识辅助强化学习方法的LMG突防控制决策算法。结合领域知识、规则知识改进状态空间和回报函数设计提高算法泛化能力与训练收敛速度。构建基于软动作-评价方法的LMG突防控制决策框架,以提高算法探索效率。利用专家经验和模仿学习方法改善多弹多威胁带来的解空间狭窄、算法初始高效训练经验匮乏的问题。实验结果表明,新算法能够在动态环境中实时生成有效的突防机动指令,相较于对比方法效果更好,验证了算法的有效性。 展开更多
关键词 巡飞弹组 知识辅助深度强化学习 Soft Actor-Critic算法 动态环境突防 控制决策
在线阅读 下载PDF
融合自适应势场法和深度强化学习的三维水下AUV路径规划方法
19
作者 郝琨 孟璇 +1 位作者 赵晓芳 李志圣 《浙江大学学报(工学版)》 北大核心 2025年第7期1451-1461,共11页
在复杂海洋环境中,AUV路径规划方法的生成路径质量低、动态避障能力差,为此提出新的三维水下AUV路径规划方法(IADQN).针对AUV在未知水下环境中障碍物识别和规避能力不足的问题,提出自适应势场法以提高AUV的动作选择效率.为了解决传统深... 在复杂海洋环境中,AUV路径规划方法的生成路径质量低、动态避障能力差,为此提出新的三维水下AUV路径规划方法(IADQN).针对AUV在未知水下环境中障碍物识别和规避能力不足的问题,提出自适应势场法以提高AUV的动作选择效率.为了解决传统深度Q网络(DQN)经验回放策略中样本选择效率低的问题,采用优先经验回放策略,从经验池中选择对训练贡献较高的样本来提高训练的效率. AUV根据当前状态动态调整奖励函数,加快DQN在训练期间的收敛速度.仿真结果表明,与DQN方案相比,IADQN能够在真实的海洋环境下高效规划出省时、无碰撞的路径,使AUV运行时间缩短6.41 s,与洋流的最大夹角减少10.39°. 展开更多
关键词 路径规划 深度强化学习 自适应势场法 自主水下航行器(AUV) 动态奖励函数
在线阅读 下载PDF
一种采用联邦深度强化学习的车联网资源分配方法 被引量:4
20
作者 王辛果 王昶 《电讯技术》 北大核心 2024年第7期1065-1071,共7页
在车联网中,为了充分利用可用资源,车到车(Vehicle to Vehicle,V2V)链路需要动态地复用固定分配给车到基础设施(Vehicle to Infrastructure,V2I)链路的信道。传统的集中式信道资源分配方法会产生较大的通信开销,也难以适应转瞬即逝的车... 在车联网中,为了充分利用可用资源,车到车(Vehicle to Vehicle,V2V)链路需要动态地复用固定分配给车到基础设施(Vehicle to Infrastructure,V2I)链路的信道。传统的集中式信道资源分配方法会产生较大的通信开销,也难以适应转瞬即逝的车辆环境。为此,提出了一种基于分布式联邦深度强化学习(Federated Deep Reinforcement Learning,FDRL)的信道资源分配方法。首先,所有V2V智能体基于局部观察的环境信息独立地训练自己的模型,但彼此间保持相同的奖励以激励它们相互协作进而达成全局最优方案;然后,这些V2V智能体通过基站的帮助聚合部分模型参数,以增加接入公平性并加快模型学习效率。通过上述两阶段的迭代训练,每个V2V智能体训练出独特的决斗深度神经网络信道接入决策模型。仿真结果表明,所提出的FDRL方法与现有的优化方法相比具有更高的V2I链路总容量和V2V链路传输成功率。 展开更多
关键词 车联网通信 信道资源分配 联邦学习 深度强化学习
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部