期刊文献+
共找到97篇文章
< 1 2 5 >
每页显示 20 50 100
基于改进Q-learning算法的移动机器人路径规划 被引量:3
1
作者 井征淼 刘宏杰 周永录 《火力与指挥控制》 CSCD 北大核心 2024年第3期135-141,共7页
针对传统Q-learning算法应用在路径规划中存在收敛速度慢、运行时间长、学习效率差等问题,提出一种将人工势场法和传统Q-learning算法结合的改进Q-learning算法。该算法引入人工势场法的引力函数与斥力函数,通过对比引力函数动态选择奖... 针对传统Q-learning算法应用在路径规划中存在收敛速度慢、运行时间长、学习效率差等问题,提出一种将人工势场法和传统Q-learning算法结合的改进Q-learning算法。该算法引入人工势场法的引力函数与斥力函数,通过对比引力函数动态选择奖励值,以及对比斥力函数计算姿值,动态更新Q值,使移动机器人具有目的性的探索,并且优先选择离障碍物较远的位置移动。通过仿真实验证明,与传统Q-learning算法、引入引力场算法对比,改进Q-learning算法加快了收敛速度,缩短了运行时间,提高了学习效率,降低了与障碍物相撞的概率,使移动机器人能够快速地找到一条无碰撞通路。 展开更多
关键词 移动机器人 路径规划 改进的Q-learning 人工势场法 强化学习
在线阅读 下载PDF
离散四水库问题基准下基于n步Q-learning的水库群优化调度 被引量:5
2
作者 胡鹤轩 钱泽宇 +1 位作者 胡强 张晔 《中国水利水电科学研究院学报(中英文)》 北大核心 2023年第2期138-147,共10页
水库优化调度问题是一个具有马尔可夫性的优化问题。强化学习是目前解决马尔可夫决策过程问题的研究热点,其在解决单个水库优化调度问题上表现优异,但水库群系统的复杂性为强化学习的应用带来困难。针对复杂的水库群优化调度问题,提出... 水库优化调度问题是一个具有马尔可夫性的优化问题。强化学习是目前解决马尔可夫决策过程问题的研究热点,其在解决单个水库优化调度问题上表现优异,但水库群系统的复杂性为强化学习的应用带来困难。针对复杂的水库群优化调度问题,提出一种离散四水库问题基准下基于n步Q-learning的水库群优化调度方法。该算法基于n步Q-learning算法,对离散四水库问题基准构建一种水库群优化调度的强化学习模型,通过探索经验优化,最终生成水库群最优调度方案。试验分析结果表明,当有足够的探索经验进行学习时,结合惩罚函数的一步Q-learning算法能够达到理论上的最优解。用可行方向法取代惩罚函数实现约束,依据离散四水库问题基准约束建立时刻可行状态表和时刻状态可选动作哈希表,有效的对状态动作空间进行降维,使算法大幅度缩短优化时间。不同的探索策略决定探索经验的有效性,从而决定优化效率,尤其对于复杂的水库群优化调度问题,提出了一种改进的ε-greedy策略,并与传统的ε-greedy、置信区间上限UCB、Boltzmann探索三种策略进行对比,验证了其有效性,在其基础上引入n步回报改进为n步Q-learning,确定合适的n步和学习率等超参数,进一步改进算法优化效率。 展开更多
关键词 水库优化调度 强化学习 Q学习 惩罚函数 可行方向法
在线阅读 下载PDF
延误场景下列车速度曲线与动态调度联合优化方法 被引量:1
3
作者 林俊亭 李茂林 邱晓辉 《交通运输系统工程与信息》 北大核心 2025年第1期173-187,共15页
为使发生延误的高速列车能够快速恢复正常运营,同时满足停车精度、准时性、节能性及调度实时性等多方面的要求,综合考虑一体化模型在平衡多个目标时面临的多重非线性约束问题,以及非一体化模型需分别求解多个独立模型的局限性,本文提出... 为使发生延误的高速列车能够快速恢复正常运营,同时满足停车精度、准时性、节能性及调度实时性等多方面的要求,综合考虑一体化模型在平衡多个目标时面临的多重非线性约束问题,以及非一体化模型需分别求解多个独立模型的局限性,本文提出一种列车动态调度与速度曲线的联合优化方法。首先,基于参考系统的约束,应用集成内在好奇心模块和优先经验回放机制的双决斗深度强化学习算法(Intrinsic Curiosity Module Prioritized Experience Replay Dueling Double Deep Q-Network,ICM-PER-D3QN)优化列车速度曲线模型,保证列车的停车精度、准时性和节能性,并将此数据用作联合模型训练的基础;其次,采用ICM-PER-D3QN算法求解列车的动态调度模型,缓解列车延误并确保调度的实时性;最后,基于列车在站间区间的运行信息,使用集成长短期记忆网络的卷积神经网络完成列车速度曲线与动态调度的联合。实验环境选择京沪高铁的一段下行线路,设置3组延误场景验证所提方法的有效性。仿真结果表明,在联合优化模型下,列车的平均调度时长为0.92 s,列车动态调度结果与速度曲线的平均匹配度为98.89%,平均匹配时长为0.0014 s。此外,相较于仅基于动态调度模型的未优化速度曲线,平均牵引能耗降低了9%,平均总延误时间降低了6.38%。 展开更多
关键词 铁路运输 联合方法 深度学习 速度曲线 动态调度 强化学习
在线阅读 下载PDF
CFRP加固废弃纤维再生混凝土柱偏心受压力学性能
4
作者 康天蓓 朱龙狄 +2 位作者 周家归 张佳昕 周静海 《沈阳建筑大学学报(自然科学版)》 北大核心 2025年第4期485-494,共10页
研究CFRP加固废弃纤维再生混凝土柱偏心受压力学性能,提出适用于废弃纤维再生混凝土柱的加固方案。基于有限元软件ABAQUS,分析加固方式和初始偏心距对CFRP加固废弃纤维再生混凝土柱的偏心受压力学性能的影响,并采用BPNN、PSO-BPNN、SVM... 研究CFRP加固废弃纤维再生混凝土柱偏心受压力学性能,提出适用于废弃纤维再生混凝土柱的加固方案。基于有限元软件ABAQUS,分析加固方式和初始偏心距对CFRP加固废弃纤维再生混凝土柱的偏心受压力学性能的影响,并采用BPNN、PSO-BPNN、SVM和RFR四种机器学习模型对其受压承载力进行预测。研究得出,当偏心距为30mm和60mm时,CFRP全包裹加固试件承载力较未加固试件分别提升了43.1%和34%;不同形式条幅包裹加固试件承载力提升幅度在20%~30%。随着CFRP条幅宽度、层数的增加,减小CFRP条幅间距可以有效地提升CFRP加固效果,减小加固柱的侧向变形。不同加固方式下废弃纤维再生混凝土柱承载力、侧向变形都得到了有效提升。机器学习模型PSO-BNPP的预测结果可为CFRP加固废弃纤维再生混凝土偏心受压柱的工程设计提供较优的CFRP配纤率、CFRP加固方式等技术指标。 展开更多
关键词 碳纤维布 偏心受压 有限元 机器学习
在线阅读 下载PDF
面向低轨卫星通信网络的联邦深度强化学习智能路由方法
5
作者 李学华 廖海龙 +1 位作者 张贤 周家恩 《电子与信息学报》 北大核心 2025年第8期2652-2664,共13页
低轨卫星通信网络拓扑结构动态变化,传统地面网络路由方法难以直接适用,同时由于卫星星载资源受限,基于人工智能的路由方法通常学习效率较低,而协同训练需要数据共享和传输,难度大且存在数据安全风险。为此,针对上述挑战,该文提出一种... 低轨卫星通信网络拓扑结构动态变化,传统地面网络路由方法难以直接适用,同时由于卫星星载资源受限,基于人工智能的路由方法通常学习效率较低,而协同训练需要数据共享和传输,难度大且存在数据安全风险。为此,针对上述挑战,该文提出一种基于卫星分簇的多智能体联邦深度强化学习路由方法。首先,设计了结合网络拓扑、通信和能耗的低轨卫星通信网络路由模型;然后,基于每颗卫星的平均连接度将星座节点划分为多个簇,在簇内采用联邦深度强化学习框架,通过簇内卫星协同共享模型参数,共同训练对应簇内的全局模型,以最大化网络能量效率。最后,仿真结果表明,该文所设计方法对比Sarsa、MAD2QN和REINFORCE 3种基准方法,网络平均吞吐量分别提高83.7%,19.8%和14.1%;数据包平均跳数分别减少25.0%,18.9%和9.1%;网络能量效率分别提升55.6%,42.9%和45.8%。 展开更多
关键词 低轨卫星通信 路由方法 卫星分簇 联邦深度强化学习 能量效率
在线阅读 下载PDF
基于深度强化学习的主动配电网动态重构综述 被引量:2
6
作者 江昌旭 郭辰 +2 位作者 刘晨曦 林俊杰 邵振国 《高电压技术》 北大核心 2025年第4期1801-1816,I0016-I0020,共21页
随着双碳目标的快速发展,大量以风电、光伏为代表的分布式电源接入配电网,这将进一步加剧电源出力的间歇性与波动性。主动配电网动态重构属于一个复杂的高维混合整数非线性随机优化问题,传统算法在解决该问题的过程中存在着诸多不足之... 随着双碳目标的快速发展,大量以风电、光伏为代表的分布式电源接入配电网,这将进一步加剧电源出力的间歇性与波动性。主动配电网动态重构属于一个复杂的高维混合整数非线性随机优化问题,传统算法在解决该问题的过程中存在着诸多不足之处。而深度强化学习算法结合了深度学习与强化学习的优势,非常适用于制定当前备受关注的主动配电网动态重构策略。该文首先对新型电力系统主动配电网特征进行总结,并对当前主动配电网动态重构研究在构建数学模型方面所取得的进展以及所面临的挑战进行了深入分析。其次,对配电网动态重构编码方式进行了探讨,并对深度强化学习算法进行了系统性地综述。进而,重点分析了现有算法在处理主动配电网动态重构时的不足之处,并对深度强化学习算法在主动配电网动态重构方面的研究现状与优势进行了总结与概括。最后,对主动配电网动态重构的未来研究方向进行了展望。 展开更多
关键词 主动配电网 动态重构 深度强化学习 编码方式 机器学习 人工智能
在线阅读 下载PDF
基于深度强化学习的多区域通风系统风量控制方法研究 被引量:1
7
作者 李春晓 崔璨 黎明 《控制工程》 北大核心 2025年第2期265-272,共8页
通风系统在实际运行时,其风量负荷动态变化,且各区域风量之间存在强耦合,导致其风量调节的难度高、调节时间长。针对此问题,提出一种基于深度确定性策略梯度的多区域通风系统风量控制方法,实现对各区域风量的快速、准确控制。此外,提出... 通风系统在实际运行时,其风量负荷动态变化,且各区域风量之间存在强耦合,导致其风量调节的难度高、调节时间长。针对此问题,提出一种基于深度确定性策略梯度的多区域通风系统风量控制方法,实现对各区域风量的快速、准确控制。此外,提出一种动态目标训练机制,有效提高强化学习训练的效率。最后,建立通风系统仿真环境,验证所提控制方法的性能。仿真结果表明,所提控制方法能够快速实现对风量的准确控制,能够抵抗一定程度的系统噪声,并且适用于不同拓扑结构的通风系统。 展开更多
关键词 风量控制方法 深度强化学习 深度确定性策略梯度 动态目标 多区域通风系统
在线阅读 下载PDF
基于DQN的快速路合流区CAV换道决策方法 被引量:1
8
作者 程国柱 王文志 +1 位作者 陈永胜 徐亮 《哈尔滨工业大学学报》 北大核心 2025年第3期98-109,共12页
为解决快速路合流区的交通拥堵和安全问题,保障智能网联车辆(connected and automated vehicle,CAV)在快速路合流区高效、安全、舒适、稳定地行驶,采用深度强化学习方法之DQN(deep q-network)算法,综合考虑车辆行驶安全性、高效性与舒... 为解决快速路合流区的交通拥堵和安全问题,保障智能网联车辆(connected and automated vehicle,CAV)在快速路合流区高效、安全、舒适、稳定地行驶,采用深度强化学习方法之DQN(deep q-network)算法,综合考虑车辆行驶安全性、高效性与舒适性等因素,建立了用于神经网络训练的奖励函数模型,提出了快速路合流区CAV换道决策方法。应用开源自动驾驶仿真场景highway-env,搭建快速路合流区仿真环境,对其主线路段及匝道进行仿真试验。仿真试验结果表明:相比于智能驾驶人模型(intelligent driver model,IDM)和highway-env中换道决策方法,采用所提出的快速路合流区CAV换道决策方法时,CAV能够快速达到22.22 m/s行驶的稳定状态,同时避免频繁换道及加减速行为,并优化了车头时距,很大程度上提高了交通流运行效率和乘车舒适性。研究成果在智能交通领域中,可为智能网联环境下城市快速路合流区的车辆通行提供了一种新方法,为未来智能网联车辆的换道提供了决策方法。 展开更多
关键词 智能交通 CAV换道决策方法 DQN 智能网联车辆 深度强化学习 快速路合流区
在线阅读 下载PDF
基于改进MAML与GVAE的容量约束车辆路径问题求解方法
9
作者 张焱鹏 赵于前 +3 位作者 张帆 丘腾海 桂瑰 余伶俐 《计算机应用》 北大核心 2025年第11期3642-3648,共7页
基于深度强化学习(DRL)的车辆路径规划方法以其求解速度快、端到端等优势受到广泛关注,但现有方法大多局限于对节点分布均匀和数量固定问题的求解,当面临节点不平均分布以及节点数变化的情况时,求解效果有所下降。针对这一问题,提出一... 基于深度强化学习(DRL)的车辆路径规划方法以其求解速度快、端到端等优势受到广泛关注,但现有方法大多局限于对节点分布均匀和数量固定问题的求解,当面临节点不平均分布以及节点数变化的情况时,求解效果有所下降。针对这一问题,提出一种基于改进模型无关的元学习(MAML)和图变分自编码器(GVAE)的元学习框架,旨在通过元训练得到一个良好的初始化模型,并针对数据集外分布的任务进行快速微调,从而提升模型的泛化性能;此外利用GVAE初始化元学习框架的参数,以进一步提升元学习效果。实验结果表明,所提方法可以较好地处理不同节点分布情况下的车辆路径问题(VRP),在面对不同节点数量问题时也有较好的表现,在5种任务上的平均偏差率较未使用元学习的方法降低了0.45个百分点。利用元学习框架可有效提升强化学习的效果,与先进求解器相比,所提框架在保证成本接近的前提下可有效缩短求解时间。 展开更多
关键词 车辆路径问题 深度强化学习 元学习 图变分自编码器 组合优化 策略梯度方法
在线阅读 下载PDF
基于强化学习的多能源动态滑翔航迹优化方法
10
作者 张云飞 王宏伦 +1 位作者 张梦华 巩轶男 《西北工业大学学报》 北大核心 2025年第1期128-139,共12页
针对无人机动态滑翔问题,提出了一种基于深度强化学习的航迹优化方法。该方法综合利用梯度风能和太阳能,引入了障碍物约束以模拟复杂障碍环境。使用神经网络近似逼近高斯伪谱方法求解航迹的策略,在训练得到的策略基础上利用双延迟深度... 针对无人机动态滑翔问题,提出了一种基于深度强化学习的航迹优化方法。该方法综合利用梯度风能和太阳能,引入了障碍物约束以模拟复杂障碍环境。使用神经网络近似逼近高斯伪谱方法求解航迹的策略,在训练得到的策略基础上利用双延迟深度确定性策略梯度算法进行策略改进,在大幅度提升推理实时性的同时解决了传统最优控制算法在动态滑翔领域难以应对变化风场的问题。实验针对动态滑翔2种经典模式进行仿真验证,之后在考虑多种能量源的情况下进行蒙特卡洛仿真。结果表明,基于深度强化学习的动态滑翔航迹优化方法在单个滑翔周期内获能与最优结果相近,而实时推理决策时间减少了91%。在变化风场环境下,文中方法相较于传统方法具有更强的适应性。 展开更多
关键词 动态滑翔 强化学习 高斯伪谱 航迹优化
在线阅读 下载PDF
集成深度强化学习在股票指数投资组合优化中的应用分析 被引量:1
11
作者 冀中 张文嘉 《计算机科学与探索》 北大核心 2025年第1期237-244,共8页
基于集成深度强化学习的投资组合选择是当前量化金融领域的关键技术之一。然而,目前采用上一窗口阶段最优指标决定下一阶段代理的集成滚动窗口方法存在一定的滞后性。为了有效应对这一不足,提出了双层嵌套集成深度强化学习方法。该方法... 基于集成深度强化学习的投资组合选择是当前量化金融领域的关键技术之一。然而,目前采用上一窗口阶段最优指标决定下一阶段代理的集成滚动窗口方法存在一定的滞后性。为了有效应对这一不足,提出了双层嵌套集成深度强化学习方法。该方法对三种代理(优势演员-评论员、深度确定性策略梯度和近端策略优化)进行两层嵌套模式,第一层集成通过最优化夏普比率进行阶段模型选择,第二层通过加权投票的方法集成三种深度强化学习算法,从单次训练中收集多个模型快照,在训练期间利用这些模型进行集成预测。分别对上证50投资指数和道琼斯指数及其包含的股票进行了投资组合研究,将持有指数被动策略和均值方差投资组合策略作为基线策略。实验采用了投资组合价值、年化回报率、年化波动率、最大回撤和夏普比率等指标作为对比指标。结果表明,所提出的集成方法在实用性和有效性上表现出较好的性能。 展开更多
关键词 股票投资组合 交易策略 深度强化学习 双层嵌套集成深度强化学习方法 集成学习
在线阅读 下载PDF
面向CPS时空规则验证制导的安全强化学习
12
作者 印婵 祝义 +2 位作者 王金永 陈小颖 郝国生 《计算机科学与探索》 北大核心 2025年第2期513-527,共15页
深度强化学习是目前信息物理融合系统(CPS)决策中常用的一种方法。然而,当面对未知环境和复杂任务时,基于黑盒的深度强化学习方法在系统的安全性和奖励函数设置的可解释性方面存在不足。针对上述问题,提出了一种形式化时空规则验证制导... 深度强化学习是目前信息物理融合系统(CPS)决策中常用的一种方法。然而,当面对未知环境和复杂任务时,基于黑盒的深度强化学习方法在系统的安全性和奖励函数设置的可解释性方面存在不足。针对上述问题,提出了一种形式化时空规则验证制导的安全强化学习方法。提出了时空规则通信顺序进程(CSR-TCSP)对系统进行建模,并结合时空规约语言(STSL)和模型检测工具FDR对进程代数模型进行验证。利用系统环境模型形式化奖励状态机的结构,提出了时空规则奖励状态机(STR-RM)以指导强化学习中奖励函数的设置。此外,为了监测系统的运行并确保输出决策的安全性,设计了一个监控器及安全动作决策算法以获得更安全的状态行为策略。通过一个自动驾驶系统中的避障与变道超车实例,证明所提方法的有效性。 展开更多
关键词 信息物理融合系统 形式化方法 进程代数 安全强化学习 自动驾驶
在线阅读 下载PDF
基于无建图的强化学习人工势场法编队
13
作者 丁磊 骆云志 +4 位作者 洪华杰 黄杰 樊鹏 赵伟 陈斯灏 《兵工自动化》 北大核心 2025年第4期96-100,共5页
针对同步定位与建图(simultaneous localization and mapping,SLAM)技术对计算资源的高需求、有限环境适应性、累积误差问题、系统复杂度高、成本昂贵、大场景处理能力受限以及缺乏有效的回环检测机制的缺点,提出一种结合人工势场法和... 针对同步定位与建图(simultaneous localization and mapping,SLAM)技术对计算资源的高需求、有限环境适应性、累积误差问题、系统复杂度高、成本昂贵、大场景处理能力受限以及缺乏有效的回环检测机制的缺点,提出一种结合人工势场法和深度强化学习的方法。利用图论模拟人工势场在机器人间的相互作用以及机器人与目的地之间的势场力,并采用孪生延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法来优化机器人对障碍物信息的感知和处理。仿真试验结果表明:该方法使机器人能够在未知环境中快速、准确地进行定位、移动,同时维持队形的稳定性和一致性。 展开更多
关键词 人工势场法 强化学习 双延时确定策略梯度 图论
在线阅读 下载PDF
无人驾驶深度强化学习决策模型性能评测方法综述
14
作者 顾同成 徐东伟 孙成巨 《计算机工程与应用》 北大核心 2025年第19期12-42,共31页
目前,以深度强化学习(deep reinforcement learning,DRL)为主要决策方法的端到端无人驾驶技术在典型交通驾驶任务中的表现取得显著进展。但是,由于DRL“试错”交互的独特学习方式,使其在应用到真实驾驶环境之前,必须经过严格的多维评测... 目前,以深度强化学习(deep reinforcement learning,DRL)为主要决策方法的端到端无人驾驶技术在典型交通驾驶任务中的表现取得显著进展。但是,由于DRL“试错”交互的独特学习方式,使其在应用到真实驾驶环境之前,必须经过严格的多维评测过程。因此,性能评测成为DRL无人驾驶决策模型向真实世界迁移的一个关键且不可或缺的步骤。梳理分析当前无人驾驶领域主流的技术实现方法;聚焦DRL方法,综述其在无人驾驶决策中的研究模式与最新成果,探讨其在处理无人驾驶任务时所面临的问题与瓶颈;面向端到端DRL无人驾驶决策模型,从安全性、鲁棒性、舒适性、效率、可靠性五个方面全面综述性能评测方法,分析影响因素并梳理性能评测流程;对比总结目前常用且开源的无人驾驶虚拟仿真平台的特点及适用场景;概述性能评测存在的开放性问题及对未来评测方法的研究展望,为相关研究和模型应用部署提供理论支持和参考依据。 展开更多
关键词 智能交通 无人驾驶 深度强化学习 评测方法 决策性能 端到端控制
在线阅读 下载PDF
基于深度强化学习的除草机器臂路径规划研究 被引量:2
15
作者 杨卜 邬鑫 +1 位作者 张梦磊 冯松科 《农机化研究》 北大核心 2025年第5期15-21,共7页
针对智能除草机器人领域缺少主动避苗路径规划问题,提出了一种基于改进的深度确定性策略梯度除草机器人机械臂路径规划算法。通过引入奖励等势面的概念改进DDPG算法,并利用CoppeliaSim软件搭建仿真训练环境,对提出的算法进行训练与验证... 针对智能除草机器人领域缺少主动避苗路径规划问题,提出了一种基于改进的深度确定性策略梯度除草机器人机械臂路径规划算法。通过引入奖励等势面的概念改进DDPG算法,并利用CoppeliaSim软件搭建仿真训练环境,对提出的算法进行训练与验证。研究表明:改进的DDPG算法在仿真环境下除草成功率为93.36%,伤苗率为2.79%。同时,通过搭建测试平台,在实际温室环境下进行了田间除草试验,试验结果与仿真结果一致,实际除草成功率为91.50%、伤苗率为2.82%。研究结果表明:所提出的算法能够在实际环境中有效减少除草机器人除草作业时对作物幼苗的损伤。 展开更多
关键词 除草机器人 深度强化学习 路径规划 人工势场法
在线阅读 下载PDF
基于改进粒子群的智能汽车最优路径规划方法研究
16
作者 夏佳 郑晏群 +1 位作者 谢秉磊 张鹍鹏 《机械设计与制造》 北大核心 2025年第2期264-268,共5页
为了提高复杂环境下智能车辆路径规划的实时性和安全性,提出了一种结合改进强化学习算法和改进粒子群优化算法的智能车辆路径规划方法。采用小批量梯度下降法优化强化学习算法的衰减参数和学习因子,提高学习效率。通过改进的强化学习算... 为了提高复杂环境下智能车辆路径规划的实时性和安全性,提出了一种结合改进强化学习算法和改进粒子群优化算法的智能车辆路径规划方法。采用小批量梯度下降法优化强化学习算法的衰减参数和学习因子,提高学习效率。通过改进的强化学习算法训练改进的粒子群优化算法,并根据评价指标选择最优路径。通过与传统路径规划方法进行仿真对比,验证了该方法的优越性。结果表明,与传统的路径规划方法相比,随着障碍物比例的增加,这里方法规划的路径最优,路径规划的综合成本最低,为复杂环境下智能车辆的路径规划提供了保障。 展开更多
关键词 智能汽车 路径规划方法 梯度下降法 强化学习算法 粒子群算法
在线阅读 下载PDF
SDWN中基于多智能体图强化学习的多对多通信路由方法
17
作者 文鹏 叶苗 +2 位作者 王勇 何倩 仇洪冰 《电子学报》 北大核心 2025年第6期1885-1905,共21页
多对多通信路由问题是NP(Nondeterministic Polynomial time)难的组合优化问题,构建出高效的多对多通信路由路径还需及时获取全局网络状态信息以适应网络状态高度动态变化的特点.本文在软件定义无线网络(Software-Defined Wireless Netw... 多对多通信路由问题是NP(Nondeterministic Polynomial time)难的组合优化问题,构建出高效的多对多通信路由路径还需及时获取全局网络状态信息以适应网络状态高度动态变化的特点.本文在软件定义无线网络(Software-Defined Wireless Networks,SDWN)场景中针对现有数据驱动的多智能体深度强化学习方法存在计算和部署成本高、难以适应非欧结构特点的网络拓扑的问题,并且训练过程中无效动作过多会增加存储空间和时间开销以及收敛速度慢,本文设计了一种SDN控制平面和数据平面进行协同感知与智能决策的新框架,并针对多对多通信路由问题设计了一种两阶段的多智能体路由方法(基于智能节点部署策略的多智能体图强化学习方法:MAGDS-M2M).为了降低在每个节点上都部署智能体所带来的计算和部署成本,设计了一种基于Q-学习的智能节点部署算法来确定需要部署智能体的网络节点;在完成多智能体部署后,在Actor-Critic(AC)框架下设计了一种基于多智能体图强化学习的多对多路由决策方法,基于图卷积网络(Graph Convolutional Networks,GCN)和图神经网络(Graph Neural Networks,GNN)重新设计Actor和Critic网络,解决了现有多智能体强化学习方法中卷积神经网络(Convolutional Neural Networks,CNN)对拓扑结构数据适应能力比较弱的问题;此外,为解决Actor网络固定长度的动作空间在训练过程中产生大量无效动作的问题,设计了一种新的动作空间局部观测方法.实验结果表明所提出的方法相比于基准实验降低了29.33%任务完成时延,并且验证了可以通过调节参数使任务完成的时延和各节点累计能耗标准差之间达到平衡.本文所做工作源代码已提交至开源平台https://github.com/GuetYe/MAGDS-M2M. 展开更多
关键词 多对多通信 智能节点部署 多智能体图强化学习 动作空间局部观测方法 软件定义无线网络
在线阅读 下载PDF
基于多智能体与改进目标级联法的输配协同优化调度
18
作者 吉兴全 孙辰昊 +3 位作者 张玉敏 杨明 叶平峰 韩学山 《电力系统自动化》 北大核心 2025年第2期165-174,共10页
输配协同优化调度问题呈现多时间尺度耦合、非凸非线性特征,其本质上是非确定性多项式难问题。随着系统可调节资源的增加,控制变量呈指数增长,“维数灾”现象愈加明显,仅基于物理模型的求解策略难以兼顾计算精度与求解效率。为此,提出... 输配协同优化调度问题呈现多时间尺度耦合、非凸非线性特征,其本质上是非确定性多项式难问题。随着系统可调节资源的增加,控制变量呈指数增长,“维数灾”现象愈加明显,仅基于物理模型的求解策略难以兼顾计算精度与求解效率。为此,提出一种基于改进多智能体双延迟深度确定性策略梯度(IMATD3)和Peaceman-Rachford(PR)目标级联(ATC)法的输配协同多时间尺度优化调度方法。根据PR分裂方法改进ATC法中主-子系统的信息迭代策略,提出基于PR-ATC的输配协同日前调度方法;通过多智能体与输配网络的离线交互提取连续调度策略的时序特征,并基于物理模型并行计算各系统调度问题,形成基于深度强化学习的离线训练和基于物理模型的在线应用联合调度决策方法。以T6-D7-D7和IEEE 118-D9-D33-D69输配网络为例,验证了所提方法的有效性。 展开更多
关键词 多智能体系统 协同优化调度 输电网 主动配电网 Peaceman-Rachford目标级联法 深度强化学习 并行计算
在线阅读 下载PDF
融合强化学习与改进人工势场的无人机编队路径规划
19
作者 赵天隆 陈龙胜 +1 位作者 张存富 许贝 《航空兵器》 北大核心 2025年第5期54-63,共10页
本文针对三维环境下采用传统人工势场法(Artificial Potential Field,APF)实现无人机编队路径规划存在的规划效率低及路径震荡的问题,提出一种融合深度强化学习与改进APF的无人机编队路径规划策略。首先,基于双深度Q网络(Double Deep Q-... 本文针对三维环境下采用传统人工势场法(Artificial Potential Field,APF)实现无人机编队路径规划存在的规划效率低及路径震荡的问题,提出一种融合深度强化学习与改进APF的无人机编队路径规划策略。首先,基于双深度Q网络(Double Deep Q-Network,DDQN)和优先经验回放机制生成长机的全局最优路径,解决了传统APF的路径非最优问题;其次,通过设计引力系数、斥力系数与步长的自适应调整策略,改进APF以抑制路径震荡,并提升僚机路径的平滑度与收敛效率;最后,以DDQN生成的路径作为虚拟长机,结合改进APF实现多无人机编队的协同避障与路径规划。仿真实验表明,所提出的方法能引导无人机编队在实现避障与避碰的同时到达目标点,每个无人机的平均路径长度为114 m,平均路径平滑度为2.3(°)/m,相比于传统方法有效提升了编队路径的收敛效率与平滑度,且兼顾了路径规划的全局最优性以及编队协同性。 展开更多
关键词 无人机编队 路径规划 路径震荡 深度强化学习 人工势场法 自适应参数
在线阅读 下载PDF
数据中心制冷系统强化学习控制
20
作者 魏东 贾宇辰 韩少然 《计算机工程与科学》 北大核心 2025年第3期422-433,共12页
数据中心制冷系统需要全年不间断运行,其能耗不容忽视,且传统PID控制方法难以实现系统整体节能。为此提出数据中心制冷系统强化学习控制方法,控制目标为在满足制冷要求的前提下提升系统整体能效。设计双层递阶控制结构,针对上层优化层... 数据中心制冷系统需要全年不间断运行,其能耗不容忽视,且传统PID控制方法难以实现系统整体节能。为此提出数据中心制冷系统强化学习控制方法,控制目标为在满足制冷要求的前提下提升系统整体能效。设计双层递阶控制结构,针对上层优化层提出多步预测深度确定性策略梯度MP-DDPG算法,利用DDPG处理制冷系统多维连续动作空间问题,以求取空气处理机组水阀开度以及制冷站系统各回路的最佳设定值,同时通过多步预测提升算法效率,并在实时控制阶段克服系统大时滞影响。下层现场控制层通过PID控制使被控变量跟踪优化层得出的最优设定值,可在不破坏原有现场控制系统的情况下实现性能优化。针对无模型强化学习控制难以满足控制实时性问题,首先构建系统预测模型,将强化学习控制器与其进行离线交互训练,然后实现在线实时控制。实验结果表明,与传统DDPG算法相比,控制器学习效率提升50%;与PID和MP-DQN相比,系统动态性能得到了改善,且整体能效提升约30.149%和11.6%。 展开更多
关键词 数据中心制冷系统 预测控制 强化学习 深度确定性策略梯度法 集成学习
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部