期刊文献+
共找到568篇文章
< 1 2 29 >
每页显示 20 50 100
基于SAC的多智能体深度强化学习算法 被引量:18
1
作者 肖硕 黄珍珍 +3 位作者 张国鹏 杨树松 江海峰 李天旭 《电子学报》 EI CAS CSCD 北大核心 2021年第9期1675-1681,共7页
由于多智能体所处环境动态变化,并且单个智能体的决策也会影响其他智能体,这使得单智能体深度强化学习算法难以在多智能体环境中保持稳定.为了适应多智能体环境,本文利用集中训练和分散执行框架Cen-tralized Training with Decentralize... 由于多智能体所处环境动态变化,并且单个智能体的决策也会影响其他智能体,这使得单智能体深度强化学习算法难以在多智能体环境中保持稳定.为了适应多智能体环境,本文利用集中训练和分散执行框架Cen-tralized Training with Decentralized Execution(CTDE),对单智能体深度强化学习算法Soft Actor-Critic(SAC)进行了改进,引入智能体通信机制,构建Multi-Agent Soft Actor-Critic(MASAC)算法. MASAC中智能体共享观察信息和历史经验,有效减少了环境不稳定性对算法造成的影响.最后,本文在协同以及协同竞争混合的任务中,对MASAC算法性能进行了实验分析,结果表明MASAC相对于SAC在多智能体环境中具有更好的稳定性. 展开更多
关键词 多智能环境 集中训练 分散执行 多智能深度强化学习
在线阅读 下载PDF
基于多智能体深度强化学习的无人平台箔条干扰末端防御动态决策方法
2
作者 李传浩 明振军 +4 位作者 王国新 阎艳 丁伟 万斯来 丁涛 《兵工学报》 北大核心 2025年第3期19-33,共15页
无人平台箔条质心干扰是导弹末端防御的重要手段,其在平台机动和箔条发射等方面的智能决策能力是决定战略资产能否保护成功的重要因素。针对目前基于机理模型的计算分析和基于启发式算法的空间探索等决策方法存在的智能化程度低、适应... 无人平台箔条质心干扰是导弹末端防御的重要手段,其在平台机动和箔条发射等方面的智能决策能力是决定战略资产能否保护成功的重要因素。针对目前基于机理模型的计算分析和基于启发式算法的空间探索等决策方法存在的智能化程度低、适应能力差和决策速度慢等问题,提出基于多智能体深度强化学习的箔条干扰末端防御动态决策方法:对多平台协同进行箔条干扰末端防御的问题进行定义并构建仿真环境,建立导弹制导与引信模型、无人干扰平台机动模型、箔条扩散模型和质心干扰模型;将质心干扰决策问题转化为马尔科夫决策问题,构建决策智能体,定义状态、动作空间并设置奖励函数;通过多智能体近端策略优化算法对决策智能体进行训练。仿真结果显示,使用训练后的智能体进行决策,相比多智能体深度确定性策略梯度算法,训练时间减少了85.5%,资产保护成功率提升了3.84倍,相比遗传算法,决策时长减少了99.96%,资产保护成功率增加了1.12倍。 展开更多
关键词 无人平台 质心干扰 箔条干扰 末端防御 多智能强化学习 电子对抗
在线阅读 下载PDF
基于多智能体强化学习的AMR协作任务分配方法
3
作者 张富强 张焱锐 +1 位作者 丁凯 常丰田 《郑州大学学报(工学版)》 北大核心 2025年第3期26-33,共8页
为了解决AMR在柔性生产中运输任务的自主分配难题,采用一种基于改进多智能体强化学习算法的多智能体深度确定性策略梯度算法(MADDPG)。首先,引入注意力机制对算法进行改进,采用中心化训练分散式执行的框架,并对AMR的动作及状态进行设置... 为了解决AMR在柔性生产中运输任务的自主分配难题,采用一种基于改进多智能体强化学习算法的多智能体深度确定性策略梯度算法(MADDPG)。首先,引入注意力机制对算法进行改进,采用中心化训练分散式执行的框架,并对AMR的动作及状态进行设置;其次,根据奖励值的大小确定任务节点的覆盖程度以及任务的完成效果;最后,在Pycharm上进行仿真,结果表明:MADDPG算法的平均奖励值较其他算法增幅为3,训练次数减少了300次,在保证求解任务分配完成度的基础上,具有更快的学习速度和更稳定的收敛过程。 展开更多
关键词 自主移动机器人 多智能 强化学习 协作 任务分配
在线阅读 下载PDF
基于深度强化学习的IRS辅助认知无线电系统波束成形算法
4
作者 李国权 程涛 +2 位作者 郭永存 庞宇 林金朝 《电子与信息学报》 北大核心 2025年第3期657-665,共9页
为进一步提升多用户无线通信系统的频谱利用率,该文提出了一种基于深度强化学习的智能反射面(IRS)辅助认知无线电网络次用户和速率最大化算法。首先在考虑次基站最大发射功率约束、次基站对主用户的干扰容限约束以及IRS相移矩阵单位模... 为进一步提升多用户无线通信系统的频谱利用率,该文提出了一种基于深度强化学习的智能反射面(IRS)辅助认知无线电网络次用户和速率最大化算法。首先在考虑次基站最大发射功率约束、次基站对主用户的干扰容限约束以及IRS相移矩阵单位模量约束的情况下,建立一个联合优化次基站波束成形和IRS相移矩阵的资源分配模型;然后提出了一种基于深度确定性策略梯度的主被动波束成形算法,联合进行变量优化以最大化次用户和速率。仿真结果表明,所提算法相对于传统优化算法在和速率性能接近的情况下具有更低的时间复杂度。 展开更多
关键词 智能反射面 认知无线电 深度强化学习 波束成形
在线阅读 下载PDF
基于深度强化学习的离散状态转移算法求解柔性作业车间调度问题
5
作者 朱家政 王聪 +2 位作者 李新凯 董颖超 张宏立 《北京航空航天大学学报》 北大核心 2025年第4期1385-1394,共10页
柔性作业车间调度问题(FJSP)作为一种在实际生活中应用广泛的调度问题,对其智能算法具有重要价值。为了解决FJSP,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化的离散状态转移算法(DSTA-PPO)。DSTA-PPO具有3个特点:考虑到... 柔性作业车间调度问题(FJSP)作为一种在实际生活中应用广泛的调度问题,对其智能算法具有重要价值。为了解决FJSP,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化的离散状态转移算法(DSTA-PPO)。DSTA-PPO具有3个特点:考虑到FJSP需要同时对工序排序、机器分配同时进行调度安排,结合工序编码和机器编码,设计了一种能够充分表达当前调度问题的状态特征;针对工序排序、机器分配设计了多种基于关键路径的搜索操作;通过强化学习的训练,能够有效地引导智能体选择正确的搜索操作优化当前的调度序列。通过基于不同数据集的仿真实验,验证了算法各环节的有效性,同时在相同算例上以最小化最大完工时间为对比指标与现有算法进行了比较,对比结果表明了所提算法能够在多数算例上以更短的完工时间对算例完成求解,有效地求解了柔性作业车间调度问题。 展开更多
关键词 深度学习 强化学习 离散状态转移算法 近端策略优化算法 柔性作业车间调度
在线阅读 下载PDF
基于多智能体强化学习的可移动基站智能规划与优化
6
作者 赵欣然 陈美娟 +1 位作者 袁志伟 朱晓荣 《电信科学》 北大核心 2025年第2期68-83,共16页
为了在城市环境中快速部署可移动基站并实现运维优化,针对终端用户移动带来的网络覆盖率下降问题与密集部署基站带来的干扰问题,提出了一种基于多智能体强化学习的网络覆盖规划与优化方法。在部署阶段,使用粒子群与果蝇混合优化算法,在... 为了在城市环境中快速部署可移动基站并实现运维优化,针对终端用户移动带来的网络覆盖率下降问题与密集部署基站带来的干扰问题,提出了一种基于多智能体强化学习的网络覆盖规划与优化方法。在部署阶段,使用粒子群与果蝇混合优化算法,在建站成本最小化的情况下确定基站最优站址;在运维阶段,设计了多智能体深度确定性策略梯度算法与轻量级梯度提升机算法的联合优化算法,根据终端接收信号强度优化站址,在性能指标仍无法达到要求时,能自动在合适位置新增基站。仿真结果表明,所提出的站址规划算法在覆盖率与服务率方面均优于传统启发式算法;所设计的联合运维优化算法在网络覆盖率恢复能力方面优于传统k均值(k-means)聚类算法,并且能适应更多场景。 展开更多
关键词 可移动基站 站址 规划 优化 多智能强化学习
在线阅读 下载PDF
基于深度强化学习的空天地一体化网络资源分配算法 被引量:1
7
作者 刘雪芳 毛伟灏 杨清海 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第7期2831-2841,共11页
空天地一体化网络(SAGIN)通过提高地面网络的资源利用率可以有效满足多种业务类型的通信需求,然而忽略了系统的自适应能力和鲁棒性及不同用户的服务质量(QoS)。针对这一问题,该文提出在空天地一体化网络架构下,面向城区和郊区通信的深... 空天地一体化网络(SAGIN)通过提高地面网络的资源利用率可以有效满足多种业务类型的通信需求,然而忽略了系统的自适应能力和鲁棒性及不同用户的服务质量(QoS)。针对这一问题,该文提出在空天地一体化网络架构下,面向城区和郊区通信的深度强化学习(DRL)资源分配算法。基于第3代合作伙伴计划(3GPP)标准中定义的用户参考信号接收功率(RSRP),考虑地面同频干扰情况,以不同域中基站的时频资源作为约束条件,构建了最大化系统用户的下行吞吐量优化问题。利用深度Q网络(DQN)算法求解该优化问题时,定义了能够综合考虑用户服务质量需求、系统自适应能力及系统鲁棒性的奖励函数。仿真结果表明,综合考虑无人驾驶汽车,沉浸式服务及普通移动终端通信业务需求时,表征系统性能的奖励函数值在2 000次迭代下,相较于贪婪算法提升了39.1%;对于无人驾驶汽车业务,利用DQN算法进行资源分配后,相比于贪婪算法,丢包数平均下降38.07%,时延下降了6.05%。 展开更多
关键词 空天地一化网络 资源分配算法 深度强化学习 深度Q网络
在线阅读 下载PDF
基于多智能体深度强化学习的多无人机辅助移动边缘计算轨迹设计 被引量:1
8
作者 徐少毅 杨磊 《北京交通大学学报》 CSCD 北大核心 2024年第5期1-9,共9页
无人机(Unmanned Aerial Vehicle,UAV)辅助的移动边缘计算(Mobile Edge Computing,MEC)网络能够为地面用户设备(User Equipment,UE)提供优质的计算服务,但是为多无人机进行实时的轨迹设计仍是一个挑战.针对该问题,提出基于多智能体深度... 无人机(Unmanned Aerial Vehicle,UAV)辅助的移动边缘计算(Mobile Edge Computing,MEC)网络能够为地面用户设备(User Equipment,UE)提供优质的计算服务,但是为多无人机进行实时的轨迹设计仍是一个挑战.针对该问题,提出基于多智能体深度强化学习的轨迹设计算法,利用多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)框架对无人机的轨迹进行协作设计.考虑到无人机有限的电池容量是限制无人机网络性能的重要因素,因此以无人机的能量效率之和为优化目标构建优化问题,联合优化无人机集群的轨迹和用户设备的卸载决策.每个智能体与边缘计算网络环境进行交互并观测自己的局部状态,通过Actor网络得到轨迹坐标,联合其他智能体的动作和观测训练Critic网络,从而改善Actor网络输出的轨迹策略.仿真结果表明:基于MADDPG的无人机轨迹设计算法具有良好的收敛性和鲁棒性,能够高效地提升无人机的能量效率;所提算法性能较随机飞行算法最高可提升120%,较圆周飞行算法最高可提升20%,较深度确定性策略梯度算法可提升5%~10%. 展开更多
关键词 无人机轨迹设计 移动边缘计算 强化学习 多智能深度确定性策略梯度
在线阅读 下载PDF
基于生成对抗网络辅助多智能体强化学习的边缘计算网络联邦切片资源管理
9
作者 林艳 夏开元 张一晋 《电子与信息学报》 北大核心 2025年第3期666-677,共12页
为满足动态边缘计算网络场景下用户差异化服务需求,该文提出一种基于生成对抗网络(GAN)辅助多智能体强化学习(RL)的联邦切片资源管理方案。首先,考虑未知时变信道和随机用户流量到达的场景,以同时优化长期平均服务等待时延和服务满意率... 为满足动态边缘计算网络场景下用户差异化服务需求,该文提出一种基于生成对抗网络(GAN)辅助多智能体强化学习(RL)的联邦切片资源管理方案。首先,考虑未知时变信道和随机用户流量到达的场景,以同时优化长期平均服务等待时延和服务满意率为目标,构建联合带宽和计算切片资源管理优化问题,并进一步建模为分布式部分可观测马尔可夫决策过程(Dec-POMDP)。其次,运用多智能体竞争双深度Q网络(D3QN)方法,结合GAN算法对状态值分布多模态学习的优势,以及利用联邦学习框架促使智能体合作学习,最终实现仅需共享各智能体生成网络加权参数即可完成切片资源管理协同决策。仿真结果表明,所提方案相较于基准方案能够在保护用户隐私的前提下,降低用户平均服务等待时延28%以上,且同时提升用户平均服务满意率8%以上。 展开更多
关键词 边缘计算 网络切片 多智能强化学习 联邦学习 生成对抗网络
在线阅读 下载PDF
有向无环图区块链辅助深度强化学习的智能驾驶策略优化算法
10
作者 黄晓舸 李春磊 +2 位作者 黎文静 梁承超 陈前斌 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第12期4363-4372,共10页
深度强化学习(DRL)在智能驾驶决策中的应用日益广泛,通过与环境的持续交互,能够有效提高智能驾驶系统的决策能力。然而,DRL在实际应用中面临学习效率低和数据共享安全性差的问题。为了解决这些问题,该文提出一种基于有向无环图(DAG)区... 深度强化学习(DRL)在智能驾驶决策中的应用日益广泛,通过与环境的持续交互,能够有效提高智能驾驶系统的决策能力。然而,DRL在实际应用中面临学习效率低和数据共享安全性差的问题。为了解决这些问题,该文提出一种基于有向无环图(DAG)区块链辅助深度强化学习的智能驾驶策略优化(D-IDSO)算法。首先,构建了基于DAG区块链的双层安全数据共享架构,以确保模型数据共享的效率和安全性。其次,设计了一个基于DRL的智能驾驶决策模型,综合考虑安全性、舒适性和高效性设定多目标奖励函数,优化智能驾驶决策。此外,提出了一种改进型优先经验回放的双延时确定策略梯度(IPER-TD3)方法,以提升训练效率。最后,在CARLA仿真平台中选取制动和变道场景对智能网联汽车(CAV)进行训练。实验结果表明,所提算法显著提高了智能驾驶场景中模型训练效率,在确保模型数据安全共享的基础上,有效提升了智能驾驶的安全性、舒适性和高效性。 展开更多
关键词 智能驾驶 数据共享 深度强化学习 有向无环图
在线阅读 下载PDF
基于多智能体强化学习的履带机器人摆臂控制方法
11
作者 张洪川 任君凯 +2 位作者 潘海南 梅勇 卢惠民 《兵工自动化》 北大核心 2025年第2期92-95,共4页
为解决摆臂式履带机器人在3维环境下实现自主摆臂控制面临的挑战,提出一种基于多智能体强化学习的摆臂控制方法。将机器人的每个摆臂视为一个独立智能体,设计一套兼顾底盘稳定性和摆臂动作的奖励函数,采用多智能体强化学习训练各个摆臂... 为解决摆臂式履带机器人在3维环境下实现自主摆臂控制面临的挑战,提出一种基于多智能体强化学习的摆臂控制方法。将机器人的每个摆臂视为一个独立智能体,设计一套兼顾底盘稳定性和摆臂动作的奖励函数,采用多智能体强化学习训练各个摆臂运动;将所提方法部署在基于Isaac Sim搭建的3维仿真环境中,通过向每个智能体输入局部高程图和机器人状态,输出摆臂转角。实验结果表明:该方法能实现多种地形下的摆臂自主控制,在机器人自主越障方面相对于单智能体强化学习有显著提升。 展开更多
关键词 多智能强化学习 履带机器人 自主越障 摆臂自主控制
在线阅读 下载PDF
深度强化学习下的管道气动软体机器人控制
12
作者 江雨霏 朱其新 《西安工程大学学报》 2025年第2期65-74,共10页
在复杂的管道环境中,与刚性机器人相比,软体机器人更适合执行操作任务。然而,由于具有无限自由度和非线性变形的特点,软体机器人的控制是一个较大的挑战。根据管道气动软体机器人变形方式进行动力学建模,提出一种结合预测奖励技术的深... 在复杂的管道环境中,与刚性机器人相比,软体机器人更适合执行操作任务。然而,由于具有无限自由度和非线性变形的特点,软体机器人的控制是一个较大的挑战。根据管道气动软体机器人变形方式进行动力学建模,提出一种结合预测奖励技术的深度确定性策略梯度(predictive reward-deep deterministic policy gradient,PR-DDPG)算法,将其应用于管道气动软体机器人的连续运动控制,为其动态的弯曲运动控制问题设计自主运动控制器。实验结果表明:PR-DDPG算法能够有效控制管道气动软体机器人在三维空间中进行自主连续运动,且可控制其前端到达目标点与目标方向。与深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法相比,PR-DDPG算法的收敛时间减少了约17%,奖励值提高了约20%,提高了管道气动软体机器人的连续运动控制性能。 展开更多
关键词 管道软机器人 运动控制 深度强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
基于改进深度强化学习算法的行为决策方法
13
作者 贾瑞豪 《汽车实用技术》 2025年第1期25-30,共6页
针对传统深度强化学习算法因训练时探索策略差导致在自动驾驶决策任务中同时出现行驶效率低、收敛慢和决策成功率低的问题,提出了结合专家评价的深度竞争双Q网络的决策方法。提出离线专家模型和在线模型,在两者间引入自适应平衡因子;引... 针对传统深度强化学习算法因训练时探索策略差导致在自动驾驶决策任务中同时出现行驶效率低、收敛慢和决策成功率低的问题,提出了结合专家评价的深度竞争双Q网络的决策方法。提出离线专家模型和在线模型,在两者间引入自适应平衡因子;引入自适应重要性系数的优先经验回放机制在竞争深度Q网络的基础上搭建在线模型;设计了考虑行驶效率、安全性和舒适性的奖励函数。结果表明,该算法相较于D3QN、PERD3QN在收敛速度上分别提高了25.93%和20.00%,决策成功率分别提高了3.19%和2.77%,平均步数分别降低了6.40%和0.14%,平均车速分别提升了7.46%与0.42%。 展开更多
关键词 自动驾驶 行为决策 深度强化学习 模仿学习 改进DQN算法
在线阅读 下载PDF
基于深度强化学习模型的纯电动牵引车智能充电调度系统
14
作者 曹小雄 廖伟文 李卓君 《港口装卸》 2025年第1期24-28,共5页
为提升港口纯电动牵引车充电效率,提出一种基于物联网技术和深度强化学习的智能充电调度系统。系统采用微服务架构,实现各功能模块的松耦合和高扩展性。多智能体深度强化学习模型用于智能充电调度决策,可有效降低充电等待时间,提高港口... 为提升港口纯电动牵引车充电效率,提出一种基于物联网技术和深度强化学习的智能充电调度系统。系统采用微服务架构,实现各功能模块的松耦合和高扩展性。多智能体深度强化学习模型用于智能充电调度决策,可有效降低充电等待时间,提高港口运营效率,同时满足港口作业中的实时数据服务需求。 展开更多
关键词 纯电动牵引车 智能调度 微服务 多智能 强化学习
在线阅读 下载PDF
时变水声信道下基于多智能体强化学习的水声网络跨层传输调度方法
15
作者 高煜 肖俏 王超峰 《水下无人系统学报》 2025年第2期261-271,共11页
水声通信因其高传播时延、信道时变特性及带宽受限等因素,在传输调度决策方面面临诸多挑战。为提升复杂水声环境下的通信效率,文中提出了一种基于多智能体强化学习(MARL)的水声网络跨层传输调度(TS)方法MARL-TS。该方法针对高水声传播... 水声通信因其高传播时延、信道时变特性及带宽受限等因素,在传输调度决策方面面临诸多挑战。为提升复杂水声环境下的通信效率,文中提出了一种基于多智能体强化学习(MARL)的水声网络跨层传输调度(TS)方法MARL-TS。该方法针对高水声传播时延和动态信道环境,以传输节点的数据缓存状态与信道条件为基础,以通信网络的传输效率和传输时延为优化目标,自适应地进行跨层优化,实现功率分配与时隙资源调度的联合优化。为学习最优传输策略,文中构建了可学习的策略网络与价值网络,并结合多智能体协同学习,提升策略优化的效率与自适应决策能力。仿真实验表明,与现有基于强化学习的多路访问控制协议相比,MARL-TS在传输能效优化和传输时延降低等方面表现出显著优势,尤其在多节点高负载场景下展现了更强的适应性与稳定性,为复杂水下通信系统的优化提供了新思路。 展开更多
关键词 水声通信网络 时变信道 多智能强化学习 跨层传输
在线阅读 下载PDF
基于多智能体深度强化学习的车联网频谱共享 被引量:1
16
作者 王为念 苏健 +2 位作者 陈勇 张建照 唐震 《电子学报》 EI CAS CSCD 北大核心 2024年第5期1690-1699,共10页
针对高动态车联网环境中基站难以收集和管理瞬时信道状态信息的问题,提出了基于多智能体深度强化学习的车联网频谱分配算法.该算法以车辆通信延迟和可靠性约束条件下最大化网络吞吐量为目标,利用学习算法改进频谱和功率分配策略.首先通... 针对高动态车联网环境中基站难以收集和管理瞬时信道状态信息的问题,提出了基于多智能体深度强化学习的车联网频谱分配算法.该算法以车辆通信延迟和可靠性约束条件下最大化网络吞吐量为目标,利用学习算法改进频谱和功率分配策略.首先通过改进DQN模型和Exp3策略训练隐式协作智能体.其次,利用迟滞性Q学习和并发体验重放轨迹解决多智能体并发学习引起的非平稳性问题.仿真结果表明,该算法有效载荷平均成功交付率可达95.89%,比随机基线算法提高了16.48%,可快速获取近似最优解,在降低车联网通信系统信令开销方面具有显著优势. 展开更多
关键词 车联网 分布式频谱共享 多智能 深度强化学习
在线阅读 下载PDF
基于多智能体深度强化学习的多星观测任务分配方法 被引量:1
17
作者 王桢朗 何慧群 +1 位作者 周军 金云飞 《上海航天(中英文)》 CSCD 2024年第1期108-115,共8页
为应对多星环境中复杂多约束条件下的任务分配场景,提出一种多星自主决策观测任务分配算法,该算法采用基于集中式训练、分布式执行的多智能体深度强化学习算法。通过这种方式训练后的卫星智能体,即使在没有中心决策节点或通信受限的情况... 为应对多星环境中复杂多约束条件下的任务分配场景,提出一种多星自主决策观测任务分配算法,该算法采用基于集中式训练、分布式执行的多智能体深度强化学习算法。通过这种方式训练后的卫星智能体,即使在没有中心决策节点或通信受限的情况下,仍具有一定的自主协同能力及独立实现多星观测任务的高效分配能力。 展开更多
关键词 多智能系统 深度强化学习 多星系统 多智能深度确定性策略梯度算法 任务规划
在线阅读 下载PDF
基于多智能体深度强化学习的车联网资源分配方法 被引量:2
18
作者 孟水仙 刘艳超 王树彬 《无线电工程》 2024年第6期1388-1397,共10页
在车联网中,合理分配频谱资源对满足不同车辆链路业务的服务质量(Quality of Service,QoS)需求具有重要意义。为解决车辆高速移动性和全局状态信息获取困难等问题,提出了一种基于完全分布式多智能体深度强化学习(Multi-Agent Deep Reinf... 在车联网中,合理分配频谱资源对满足不同车辆链路业务的服务质量(Quality of Service,QoS)需求具有重要意义。为解决车辆高速移动性和全局状态信息获取困难等问题,提出了一种基于完全分布式多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)的资源分配算法。该算法在考虑车辆通信延迟和可靠性的情况下,通过优化频谱选择和功率分配策略来实现最大化网络吞吐量。引入共享经验池机制来解决多智能体并发学习导致的非平稳性问题。该算法基于深度Q网络(Deep Q Network,DQN),利用长短期记忆(Long Short Term Memory,LSTM)网络来捕捉和利用动态环境信息,以解决智能体的部分可观测性问题。将卷积神经网络(Convolutional Neural Network,CNN)和残差网络(Residual Network,ResNet)结合增强算法训练的准确性和预测能力。实验结果表明,所提出的算法能够满足车对基础设施(Vehicle-to-Infrastructure,V2I)链路的高吞吐量以及车对车(Vehicle-to-Vehicle,V2V)链路的低延迟要求,并且对环境变化表现出良好的适应性。 展开更多
关键词 车联网 资源分配 多智能深度强化学习 深度Q网络
在线阅读 下载PDF
一种进化梯度引导的强化学习算法
19
作者 许斌 练元洪 +2 位作者 卞鸿根 刘丹 亓晋 《南京邮电大学学报(自然科学版)》 北大核心 2025年第1期99-105,共7页
进化算法(Evolutionary Algorithm,EA)和深度强化学习(Deep Reinforcement Learning,DRL)的组合被认为能够结合二者的优点,即EA的强大随机搜索能力和DRL的样本效率,实现更好的策略学习。然而,现有的组合方法存在EA引入所导致的策略性能... 进化算法(Evolutionary Algorithm,EA)和深度强化学习(Deep Reinforcement Learning,DRL)的组合被认为能够结合二者的优点,即EA的强大随机搜索能力和DRL的样本效率,实现更好的策略学习。然而,现有的组合方法存在EA引入所导致的策略性能不可预测性问题。提出自适应历史梯度引导机制,其利用历史梯度信息,找到平衡探索和利用的线索,从而获得较为稳定的高质量策略,进一步将此机制融合经典的进化强化学习算法,提出一种进化梯度引导的强化学习算法(Evolutionary Gradient Guided Reinforcement Learning,EGG⁃RL)。在连续控制任务方面的实验表明,EGG⁃RL的性能表现优于其他方法。 展开更多
关键词 CEM⁃RL 深度强化学习 进化算法 历史梯度
在线阅读 下载PDF
基于多智能体模糊深度强化学习的跳频组网智能抗干扰决策算法 被引量:9
20
作者 赵知劲 朱家晟 +1 位作者 叶学义 尚俊娜 《电子与信息学报》 EI CSCD 北大核心 2022年第8期2814-2823,共10页
为提高复杂电磁环境下跳频异步组网的抗干扰性能,该文提出一种基于集中式训练和分散式执行框架的多智能体模糊深度强化学习(MFDRL-CTDE)算法。针对多种干扰并存的复杂电磁环境和异步组网结构,设计了相应的状态-动作空间和奖赏函数。为... 为提高复杂电磁环境下跳频异步组网的抗干扰性能,该文提出一种基于集中式训练和分散式执行框架的多智能体模糊深度强化学习(MFDRL-CTDE)算法。针对多种干扰并存的复杂电磁环境和异步组网结构,设计了相应的状态-动作空间和奖赏函数。为应对智能体之间的相互影响和动态的环境,引入集中式训练和分散式执行(CTDE)框架。该文提出基于模糊推理系统的融合权重分配策略,用于解决网络融合过程中各智能体的权重分配问题。采用竞争性深度Q网络算法和优先经验回放技术以提高算法的效率。仿真结果表明,该算法在收敛速度和最佳性能方面都具有较大优势,且对多变复杂电磁环境具有较好的适应性。 展开更多
关键词 异步组网 多智能 深度强化学习 集中式学习和分散式执行 模糊推理系统
在线阅读 下载PDF
上一页 1 2 29 下一页 到第
使用帮助 返回顶部