期刊文献+
共找到92篇文章
< 1 2 5 >
每页显示 20 50 100
基于改进Q-learning算法的移动机器人路径规划 被引量:3
1
作者 井征淼 刘宏杰 周永录 《火力与指挥控制》 CSCD 北大核心 2024年第3期135-141,共7页
针对传统Q-learning算法应用在路径规划中存在收敛速度慢、运行时间长、学习效率差等问题,提出一种将人工势场法和传统Q-learning算法结合的改进Q-learning算法。该算法引入人工势场法的引力函数与斥力函数,通过对比引力函数动态选择奖... 针对传统Q-learning算法应用在路径规划中存在收敛速度慢、运行时间长、学习效率差等问题,提出一种将人工势场法和传统Q-learning算法结合的改进Q-learning算法。该算法引入人工势场法的引力函数与斥力函数,通过对比引力函数动态选择奖励值,以及对比斥力函数计算姿值,动态更新Q值,使移动机器人具有目的性的探索,并且优先选择离障碍物较远的位置移动。通过仿真实验证明,与传统Q-learning算法、引入引力场算法对比,改进Q-learning算法加快了收敛速度,缩短了运行时间,提高了学习效率,降低了与障碍物相撞的概率,使移动机器人能够快速地找到一条无碰撞通路。 展开更多
关键词 移动机器人 路径规划 改进的Q-learning 人工势场法 强化学习
在线阅读 下载PDF
离散四水库问题基准下基于n步Q-learning的水库群优化调度 被引量:5
2
作者 胡鹤轩 钱泽宇 +1 位作者 胡强 张晔 《中国水利水电科学研究院学报(中英文)》 北大核心 2023年第2期138-147,共10页
水库优化调度问题是一个具有马尔可夫性的优化问题。强化学习是目前解决马尔可夫决策过程问题的研究热点,其在解决单个水库优化调度问题上表现优异,但水库群系统的复杂性为强化学习的应用带来困难。针对复杂的水库群优化调度问题,提出... 水库优化调度问题是一个具有马尔可夫性的优化问题。强化学习是目前解决马尔可夫决策过程问题的研究热点,其在解决单个水库优化调度问题上表现优异,但水库群系统的复杂性为强化学习的应用带来困难。针对复杂的水库群优化调度问题,提出一种离散四水库问题基准下基于n步Q-learning的水库群优化调度方法。该算法基于n步Q-learning算法,对离散四水库问题基准构建一种水库群优化调度的强化学习模型,通过探索经验优化,最终生成水库群最优调度方案。试验分析结果表明,当有足够的探索经验进行学习时,结合惩罚函数的一步Q-learning算法能够达到理论上的最优解。用可行方向法取代惩罚函数实现约束,依据离散四水库问题基准约束建立时刻可行状态表和时刻状态可选动作哈希表,有效的对状态动作空间进行降维,使算法大幅度缩短优化时间。不同的探索策略决定探索经验的有效性,从而决定优化效率,尤其对于复杂的水库群优化调度问题,提出了一种改进的ε-greedy策略,并与传统的ε-greedy、置信区间上限UCB、Boltzmann探索三种策略进行对比,验证了其有效性,在其基础上引入n步回报改进为n步Q-learning,确定合适的n步和学习率等超参数,进一步改进算法优化效率。 展开更多
关键词 水库优化调度 强化学习 Q学习 惩罚函数 可行方向法
在线阅读 下载PDF
延误场景下列车速度曲线与动态调度联合优化方法 被引量:1
3
作者 林俊亭 李茂林 邱晓辉 《交通运输系统工程与信息》 北大核心 2025年第1期173-187,共15页
为使发生延误的高速列车能够快速恢复正常运营,同时满足停车精度、准时性、节能性及调度实时性等多方面的要求,综合考虑一体化模型在平衡多个目标时面临的多重非线性约束问题,以及非一体化模型需分别求解多个独立模型的局限性,本文提出... 为使发生延误的高速列车能够快速恢复正常运营,同时满足停车精度、准时性、节能性及调度实时性等多方面的要求,综合考虑一体化模型在平衡多个目标时面临的多重非线性约束问题,以及非一体化模型需分别求解多个独立模型的局限性,本文提出一种列车动态调度与速度曲线的联合优化方法。首先,基于参考系统的约束,应用集成内在好奇心模块和优先经验回放机制的双决斗深度强化学习算法(Intrinsic Curiosity Module Prioritized Experience Replay Dueling Double Deep Q-Network,ICM-PER-D3QN)优化列车速度曲线模型,保证列车的停车精度、准时性和节能性,并将此数据用作联合模型训练的基础;其次,采用ICM-PER-D3QN算法求解列车的动态调度模型,缓解列车延误并确保调度的实时性;最后,基于列车在站间区间的运行信息,使用集成长短期记忆网络的卷积神经网络完成列车速度曲线与动态调度的联合。实验环境选择京沪高铁的一段下行线路,设置3组延误场景验证所提方法的有效性。仿真结果表明,在联合优化模型下,列车的平均调度时长为0.92 s,列车动态调度结果与速度曲线的平均匹配度为98.89%,平均匹配时长为0.0014 s。此外,相较于仅基于动态调度模型的未优化速度曲线,平均牵引能耗降低了9%,平均总延误时间降低了6.38%。 展开更多
关键词 铁路运输 联合方法 深度学习 速度曲线 动态调度 强化学习
在线阅读 下载PDF
面向低轨卫星通信网络的联邦深度强化学习智能路由方法
4
作者 李学华 廖海龙 +1 位作者 张贤 周家恩 《电子与信息学报》 北大核心 2025年第8期2652-2664,共13页
低轨卫星通信网络拓扑结构动态变化,传统地面网络路由方法难以直接适用,同时由于卫星星载资源受限,基于人工智能的路由方法通常学习效率较低,而协同训练需要数据共享和传输,难度大且存在数据安全风险。为此,针对上述挑战,该文提出一种... 低轨卫星通信网络拓扑结构动态变化,传统地面网络路由方法难以直接适用,同时由于卫星星载资源受限,基于人工智能的路由方法通常学习效率较低,而协同训练需要数据共享和传输,难度大且存在数据安全风险。为此,针对上述挑战,该文提出一种基于卫星分簇的多智能体联邦深度强化学习路由方法。首先,设计了结合网络拓扑、通信和能耗的低轨卫星通信网络路由模型;然后,基于每颗卫星的平均连接度将星座节点划分为多个簇,在簇内采用联邦深度强化学习框架,通过簇内卫星协同共享模型参数,共同训练对应簇内的全局模型,以最大化网络能量效率。最后,仿真结果表明,该文所设计方法对比Sarsa、MAD2QN和REINFORCE 3种基准方法,网络平均吞吐量分别提高83.7%,19.8%和14.1%;数据包平均跳数分别减少25.0%,18.9%和9.1%;网络能量效率分别提升55.6%,42.9%和45.8%。 展开更多
关键词 低轨卫星通信 路由方法 卫星分簇 联邦深度强化学习 能量效率
在线阅读 下载PDF
基于强化学习的多能源动态滑翔航迹优化方法
5
作者 张云飞 王宏伦 +1 位作者 张梦华 巩轶男 《西北工业大学学报》 北大核心 2025年第1期128-139,共12页
针对无人机动态滑翔问题,提出了一种基于深度强化学习的航迹优化方法。该方法综合利用梯度风能和太阳能,引入了障碍物约束以模拟复杂障碍环境。使用神经网络近似逼近高斯伪谱方法求解航迹的策略,在训练得到的策略基础上利用双延迟深度... 针对无人机动态滑翔问题,提出了一种基于深度强化学习的航迹优化方法。该方法综合利用梯度风能和太阳能,引入了障碍物约束以模拟复杂障碍环境。使用神经网络近似逼近高斯伪谱方法求解航迹的策略,在训练得到的策略基础上利用双延迟深度确定性策略梯度算法进行策略改进,在大幅度提升推理实时性的同时解决了传统最优控制算法在动态滑翔领域难以应对变化风场的问题。实验针对动态滑翔2种经典模式进行仿真验证,之后在考虑多种能量源的情况下进行蒙特卡洛仿真。结果表明,基于深度强化学习的动态滑翔航迹优化方法在单个滑翔周期内获能与最优结果相近,而实时推理决策时间减少了91%。在变化风场环境下,文中方法相较于传统方法具有更强的适应性。 展开更多
关键词 动态滑翔 强化学习 高斯伪谱 航迹优化
在线阅读 下载PDF
集成深度强化学习在股票指数投资组合优化中的应用分析 被引量:1
6
作者 冀中 张文嘉 《计算机科学与探索》 北大核心 2025年第1期237-244,共8页
基于集成深度强化学习的投资组合选择是当前量化金融领域的关键技术之一。然而,目前采用上一窗口阶段最优指标决定下一阶段代理的集成滚动窗口方法存在一定的滞后性。为了有效应对这一不足,提出了双层嵌套集成深度强化学习方法。该方法... 基于集成深度强化学习的投资组合选择是当前量化金融领域的关键技术之一。然而,目前采用上一窗口阶段最优指标决定下一阶段代理的集成滚动窗口方法存在一定的滞后性。为了有效应对这一不足,提出了双层嵌套集成深度强化学习方法。该方法对三种代理(优势演员-评论员、深度确定性策略梯度和近端策略优化)进行两层嵌套模式,第一层集成通过最优化夏普比率进行阶段模型选择,第二层通过加权投票的方法集成三种深度强化学习算法,从单次训练中收集多个模型快照,在训练期间利用这些模型进行集成预测。分别对上证50投资指数和道琼斯指数及其包含的股票进行了投资组合研究,将持有指数被动策略和均值方差投资组合策略作为基线策略。实验采用了投资组合价值、年化回报率、年化波动率、最大回撤和夏普比率等指标作为对比指标。结果表明,所提出的集成方法在实用性和有效性上表现出较好的性能。 展开更多
关键词 股票投资组合 交易策略 深度强化学习 双层嵌套集成深度强化学习方法 集成学习
在线阅读 下载PDF
面向CPS时空规则验证制导的安全强化学习
7
作者 印婵 祝义 +2 位作者 王金永 陈小颖 郝国生 《计算机科学与探索》 北大核心 2025年第2期513-527,共15页
深度强化学习是目前信息物理融合系统(CPS)决策中常用的一种方法。然而,当面对未知环境和复杂任务时,基于黑盒的深度强化学习方法在系统的安全性和奖励函数设置的可解释性方面存在不足。针对上述问题,提出了一种形式化时空规则验证制导... 深度强化学习是目前信息物理融合系统(CPS)决策中常用的一种方法。然而,当面对未知环境和复杂任务时,基于黑盒的深度强化学习方法在系统的安全性和奖励函数设置的可解释性方面存在不足。针对上述问题,提出了一种形式化时空规则验证制导的安全强化学习方法。提出了时空规则通信顺序进程(CSR-TCSP)对系统进行建模,并结合时空规约语言(STSL)和模型检测工具FDR对进程代数模型进行验证。利用系统环境模型形式化奖励状态机的结构,提出了时空规则奖励状态机(STR-RM)以指导强化学习中奖励函数的设置。此外,为了监测系统的运行并确保输出决策的安全性,设计了一个监控器及安全动作决策算法以获得更安全的状态行为策略。通过一个自动驾驶系统中的避障与变道超车实例,证明所提方法的有效性。 展开更多
关键词 信息物理融合系统 形式化方法 进程代数 安全强化学习 自动驾驶
在线阅读 下载PDF
基于无建图的强化学习人工势场法编队
8
作者 丁磊 骆云志 +4 位作者 洪华杰 黄杰 樊鹏 赵伟 陈斯灏 《兵工自动化》 北大核心 2025年第4期96-100,共5页
针对同步定位与建图(simultaneous localization and mapping,SLAM)技术对计算资源的高需求、有限环境适应性、累积误差问题、系统复杂度高、成本昂贵、大场景处理能力受限以及缺乏有效的回环检测机制的缺点,提出一种结合人工势场法和... 针对同步定位与建图(simultaneous localization and mapping,SLAM)技术对计算资源的高需求、有限环境适应性、累积误差问题、系统复杂度高、成本昂贵、大场景处理能力受限以及缺乏有效的回环检测机制的缺点,提出一种结合人工势场法和深度强化学习的方法。利用图论模拟人工势场在机器人间的相互作用以及机器人与目的地之间的势场力,并采用孪生延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法来优化机器人对障碍物信息的感知和处理。仿真试验结果表明:该方法使机器人能够在未知环境中快速、准确地进行定位、移动,同时维持队形的稳定性和一致性。 展开更多
关键词 人工势场法 强化学习 双延时确定策略梯度 图论
在线阅读 下载PDF
基于深度强化学习的除草机器臂路径规划研究 被引量:2
9
作者 杨卜 邬鑫 +1 位作者 张梦磊 冯松科 《农机化研究》 北大核心 2025年第5期15-21,共7页
针对智能除草机器人领域缺少主动避苗路径规划问题,提出了一种基于改进的深度确定性策略梯度除草机器人机械臂路径规划算法。通过引入奖励等势面的概念改进DDPG算法,并利用CoppeliaSim软件搭建仿真训练环境,对提出的算法进行训练与验证... 针对智能除草机器人领域缺少主动避苗路径规划问题,提出了一种基于改进的深度确定性策略梯度除草机器人机械臂路径规划算法。通过引入奖励等势面的概念改进DDPG算法,并利用CoppeliaSim软件搭建仿真训练环境,对提出的算法进行训练与验证。研究表明:改进的DDPG算法在仿真环境下除草成功率为93.36%,伤苗率为2.79%。同时,通过搭建测试平台,在实际温室环境下进行了田间除草试验,试验结果与仿真结果一致,实际除草成功率为91.50%、伤苗率为2.82%。研究结果表明:所提出的算法能够在实际环境中有效减少除草机器人除草作业时对作物幼苗的损伤。 展开更多
关键词 除草机器人 深度强化学习 路径规划 人工势场法
在线阅读 下载PDF
基于深度强化学习的主动配电网动态重构综述
10
作者 江昌旭 郭辰 +2 位作者 刘晨曦 林俊杰 邵振国 《高电压技术》 北大核心 2025年第4期1801-1816,I0016-I0020,共21页
随着双碳目标的快速发展,大量以风电、光伏为代表的分布式电源接入配电网,这将进一步加剧电源出力的间歇性与波动性。主动配电网动态重构属于一个复杂的高维混合整数非线性随机优化问题,传统算法在解决该问题的过程中存在着诸多不足之... 随着双碳目标的快速发展,大量以风电、光伏为代表的分布式电源接入配电网,这将进一步加剧电源出力的间歇性与波动性。主动配电网动态重构属于一个复杂的高维混合整数非线性随机优化问题,传统算法在解决该问题的过程中存在着诸多不足之处。而深度强化学习算法结合了深度学习与强化学习的优势,非常适用于制定当前备受关注的主动配电网动态重构策略。该文首先对新型电力系统主动配电网特征进行总结,并对当前主动配电网动态重构研究在构建数学模型方面所取得的进展以及所面临的挑战进行了深入分析。其次,对配电网动态重构编码方式进行了探讨,并对深度强化学习算法进行了系统性地综述。进而,重点分析了现有算法在处理主动配电网动态重构时的不足之处,并对深度强化学习算法在主动配电网动态重构方面的研究现状与优势进行了总结与概括。最后,对主动配电网动态重构的未来研究方向进行了展望。 展开更多
关键词 主动配电网 动态重构 深度强化学习 编码方式 机器学习 人工智能
在线阅读 下载PDF
基于改进粒子群的智能汽车最优路径规划方法研究
11
作者 夏佳 郑晏群 +1 位作者 谢秉磊 张鹍鹏 《机械设计与制造》 北大核心 2025年第2期264-268,共5页
为了提高复杂环境下智能车辆路径规划的实时性和安全性,提出了一种结合改进强化学习算法和改进粒子群优化算法的智能车辆路径规划方法。采用小批量梯度下降法优化强化学习算法的衰减参数和学习因子,提高学习效率。通过改进的强化学习算... 为了提高复杂环境下智能车辆路径规划的实时性和安全性,提出了一种结合改进强化学习算法和改进粒子群优化算法的智能车辆路径规划方法。采用小批量梯度下降法优化强化学习算法的衰减参数和学习因子,提高学习效率。通过改进的强化学习算法训练改进的粒子群优化算法,并根据评价指标选择最优路径。通过与传统路径规划方法进行仿真对比,验证了该方法的优越性。结果表明,与传统的路径规划方法相比,随着障碍物比例的增加,这里方法规划的路径最优,路径规划的综合成本最低,为复杂环境下智能车辆的路径规划提供了保障。 展开更多
关键词 智能汽车 路径规划方法 梯度下降法 强化学习算法 粒子群算法
在线阅读 下载PDF
基于多智能体与改进目标级联法的输配协同优化调度
12
作者 吉兴全 孙辰昊 +3 位作者 张玉敏 杨明 叶平峰 韩学山 《电力系统自动化》 北大核心 2025年第2期165-174,共10页
输配协同优化调度问题呈现多时间尺度耦合、非凸非线性特征,其本质上是非确定性多项式难问题。随着系统可调节资源的增加,控制变量呈指数增长,“维数灾”现象愈加明显,仅基于物理模型的求解策略难以兼顾计算精度与求解效率。为此,提出... 输配协同优化调度问题呈现多时间尺度耦合、非凸非线性特征,其本质上是非确定性多项式难问题。随着系统可调节资源的增加,控制变量呈指数增长,“维数灾”现象愈加明显,仅基于物理模型的求解策略难以兼顾计算精度与求解效率。为此,提出一种基于改进多智能体双延迟深度确定性策略梯度(IMATD3)和Peaceman-Rachford(PR)目标级联(ATC)法的输配协同多时间尺度优化调度方法。根据PR分裂方法改进ATC法中主-子系统的信息迭代策略,提出基于PR-ATC的输配协同日前调度方法;通过多智能体与输配网络的离线交互提取连续调度策略的时序特征,并基于物理模型并行计算各系统调度问题,形成基于深度强化学习的离线训练和基于物理模型的在线应用联合调度决策方法。以T6-D7-D7和IEEE 118-D9-D33-D69输配网络为例,验证了所提方法的有效性。 展开更多
关键词 多智能体系统 协同优化调度 输电网 主动配电网 Peaceman-Rachford目标级联法 深度强化学习 并行计算
在线阅读 下载PDF
基于深度强化学习的多区域通风系统风量控制方法研究
13
作者 李春晓 崔璨 黎明 《控制工程》 北大核心 2025年第2期265-272,共8页
通风系统在实际运行时,其风量负荷动态变化,且各区域风量之间存在强耦合,导致其风量调节的难度高、调节时间长。针对此问题,提出一种基于深度确定性策略梯度的多区域通风系统风量控制方法,实现对各区域风量的快速、准确控制。此外,提出... 通风系统在实际运行时,其风量负荷动态变化,且各区域风量之间存在强耦合,导致其风量调节的难度高、调节时间长。针对此问题,提出一种基于深度确定性策略梯度的多区域通风系统风量控制方法,实现对各区域风量的快速、准确控制。此外,提出一种动态目标训练机制,有效提高强化学习训练的效率。最后,建立通风系统仿真环境,验证所提控制方法的性能。仿真结果表明,所提控制方法能够快速实现对风量的准确控制,能够抵抗一定程度的系统噪声,并且适用于不同拓扑结构的通风系统。 展开更多
关键词 风量控制方法 深度强化学习 深度确定性策略梯度 动态目标 多区域通风系统
在线阅读 下载PDF
基于DQN的快速路合流区CAV换道决策方法
14
作者 程国柱 王文志 +1 位作者 陈永胜 徐亮 《哈尔滨工业大学学报》 北大核心 2025年第3期98-109,共12页
为解决快速路合流区的交通拥堵和安全问题,保障智能网联车辆(connected and automated vehicle,CAV)在快速路合流区高效、安全、舒适、稳定地行驶,采用深度强化学习方法之DQN(deep q-network)算法,综合考虑车辆行驶安全性、高效性与舒... 为解决快速路合流区的交通拥堵和安全问题,保障智能网联车辆(connected and automated vehicle,CAV)在快速路合流区高效、安全、舒适、稳定地行驶,采用深度强化学习方法之DQN(deep q-network)算法,综合考虑车辆行驶安全性、高效性与舒适性等因素,建立了用于神经网络训练的奖励函数模型,提出了快速路合流区CAV换道决策方法。应用开源自动驾驶仿真场景highway-env,搭建快速路合流区仿真环境,对其主线路段及匝道进行仿真试验。仿真试验结果表明:相比于智能驾驶人模型(intelligent driver model,IDM)和highway-env中换道决策方法,采用所提出的快速路合流区CAV换道决策方法时,CAV能够快速达到22.22 m/s行驶的稳定状态,同时避免频繁换道及加减速行为,并优化了车头时距,很大程度上提高了交通流运行效率和乘车舒适性。研究成果在智能交通领域中,可为智能网联环境下城市快速路合流区的车辆通行提供了一种新方法,为未来智能网联车辆的换道提供了决策方法。 展开更多
关键词 智能交通 CAV换道决策方法 DQN 智能网联车辆 深度强化学习 快速路合流区
在线阅读 下载PDF
数据中心制冷系统强化学习控制
15
作者 魏东 贾宇辰 韩少然 《计算机工程与科学》 北大核心 2025年第3期422-433,共12页
数据中心制冷系统需要全年不间断运行,其能耗不容忽视,且传统PID控制方法难以实现系统整体节能。为此提出数据中心制冷系统强化学习控制方法,控制目标为在满足制冷要求的前提下提升系统整体能效。设计双层递阶控制结构,针对上层优化层... 数据中心制冷系统需要全年不间断运行,其能耗不容忽视,且传统PID控制方法难以实现系统整体节能。为此提出数据中心制冷系统强化学习控制方法,控制目标为在满足制冷要求的前提下提升系统整体能效。设计双层递阶控制结构,针对上层优化层提出多步预测深度确定性策略梯度MP-DDPG算法,利用DDPG处理制冷系统多维连续动作空间问题,以求取空气处理机组水阀开度以及制冷站系统各回路的最佳设定值,同时通过多步预测提升算法效率,并在实时控制阶段克服系统大时滞影响。下层现场控制层通过PID控制使被控变量跟踪优化层得出的最优设定值,可在不破坏原有现场控制系统的情况下实现性能优化。针对无模型强化学习控制难以满足控制实时性问题,首先构建系统预测模型,将强化学习控制器与其进行离线交互训练,然后实现在线实时控制。实验结果表明,与传统DDPG算法相比,控制器学习效率提升50%;与PID和MP-DQN相比,系统动态性能得到了改善,且整体能效提升约30.149%和11.6%。 展开更多
关键词 数据中心制冷系统 预测控制 强化学习 深度确定性策略梯度法 集成学习
在线阅读 下载PDF
融合自适应势场法和深度强化学习的三维水下AUV路径规划方法
16
作者 郝琨 孟璇 +1 位作者 赵晓芳 李志圣 《浙江大学学报(工学版)》 北大核心 2025年第7期1451-1461,共11页
在复杂海洋环境中,AUV路径规划方法的生成路径质量低、动态避障能力差,为此提出新的三维水下AUV路径规划方法(IADQN).针对AUV在未知水下环境中障碍物识别和规避能力不足的问题,提出自适应势场法以提高AUV的动作选择效率.为了解决传统深... 在复杂海洋环境中,AUV路径规划方法的生成路径质量低、动态避障能力差,为此提出新的三维水下AUV路径规划方法(IADQN).针对AUV在未知水下环境中障碍物识别和规避能力不足的问题,提出自适应势场法以提高AUV的动作选择效率.为了解决传统深度Q网络(DQN)经验回放策略中样本选择效率低的问题,采用优先经验回放策略,从经验池中选择对训练贡献较高的样本来提高训练的效率. AUV根据当前状态动态调整奖励函数,加快DQN在训练期间的收敛速度.仿真结果表明,与DQN方案相比,IADQN能够在真实的海洋环境下高效规划出省时、无碰撞的路径,使AUV运行时间缩短6.41 s,与洋流的最大夹角减少10.39°. 展开更多
关键词 路径规划 深度强化学习 自适应势场法 自主水下航行器(AUV) 动态奖励函数
在线阅读 下载PDF
面向光伏集群的配电网模型⁃数据联合驱动无功/电压控制 被引量:12
17
作者 路小俊 吴在军 +2 位作者 李培帅 沈嘉伟 胡敏强 《电力系统自动化》 EI CSCD 北大核心 2024年第9期97-106,共10页
传统配电网的无功/电压控制(VVC)方法,难以兼顾控制决策的全局最优性与实时响应能力,分布式光伏(DPV)的分散化、高比例并网导致该矛盾日益突出。结合模型优化的寻优能力与深度强化学习的在线决策效率,提出了面向光伏(PV)集群的配电网模... 传统配电网的无功/电压控制(VVC)方法,难以兼顾控制决策的全局最优性与实时响应能力,分布式光伏(DPV)的分散化、高比例并网导致该矛盾日益突出。结合模型优化的寻优能力与深度强化学习的在线决策效率,提出了面向光伏(PV)集群的配电网模型-数据联合驱动VVC策略。首先,考虑日前优化调度与日内实时控制的运行特征,结合DPV集群划分,构建了配电网分布式两阶段VVC框架;然后,以系统运行网损最低为目标,建立了配电网分布式日前VVC模型,并提出了基于Nesterov加速梯度的分布式求解算法;其次,以日前决策为输入量,建立了基于部分可观马尔可夫博弈的配电网实时VVC模型,并提出了基于迭代终止惩罚函数的改进多智能体深度确定性策略梯度算法;最后,基于MATLAB/PyCharm软件平台进行了算例分析,验证了所提方法的全局趋优性以及实时响应能力,提高了PV高比例接入配电网运行的经济性和安全性。 展开更多
关键词 配电网 光伏集群 无功/电压控制 加速交替方向乘子法 深度强化学习
在线阅读 下载PDF
协同智能体强化学习算法的柔性作业车间调度方法研究 被引量:2
18
作者 李健 李洹坤 +3 位作者 何鹏博 王化北 徐莉萍 何奎 《系统仿真学报》 CAS CSCD 北大核心 2024年第11期2699-2711,共13页
为提高柔性作业车间调度效率,构建一种具有柔性作业车间调度问题约束条件的马尔可夫决策过程,针对工件与机器的同时选择问题,提出一种协同智能体强化学习方法进行求解。在构建马尔可夫决策过程中,引入析取图表述状态特征,采用两种智能... 为提高柔性作业车间调度效率,构建一种具有柔性作业车间调度问题约束条件的马尔可夫决策过程,针对工件与机器的同时选择问题,提出一种协同智能体强化学习方法进行求解。在构建马尔可夫决策过程中,引入析取图表述状态特征,采用两种智能体执行工件与机器的选取,预测不同时刻最小化最大完工时间的差值来映射整个调度过程的奖励参数;求解时,嵌入GIN(graph isomorphic network)图神经网络提取状态,为工件与机器智能体分别设置编码器-解码器构件输出两种动作策略,以PPO(proximal policy optimization)算法与D3QN算法训练工件与机器智能体的决策网络参数。通过正交试验法选取算法超参数,以标准实例与其他文献进行对比,实验结果表明,所提方法在求解FJSP方面明显优于其他算法,进一步验证所提方法的可行性与有效性。 展开更多
关键词 柔性作业车间调度问题 图神经网络 马尔可夫决策过程 协同智能体强化学习 正交试验法
在线阅读 下载PDF
基于拟牛顿法的深度强化学习在车联网边缘计算中的研究 被引量:3
19
作者 章坚武 芦泽韬 +1 位作者 章谦骅 詹明 《通信学报》 EI CSCD 北大核心 2024年第5期90-100,共11页
为了解决车联网中由于多任务和资源限制导致的任务卸载决策不理想的问题,提出了拟牛顿法的深度强化学习双阶段在线卸载(QNRLO)算法。该算法首先引入批归一化技术优化深度神经网络的训练过程,随后采用拟牛顿法进行优化,有效逼近最优解。... 为了解决车联网中由于多任务和资源限制导致的任务卸载决策不理想的问题,提出了拟牛顿法的深度强化学习双阶段在线卸载(QNRLO)算法。该算法首先引入批归一化技术优化深度神经网络的训练过程,随后采用拟牛顿法进行优化,有效逼近最优解。通过此双阶段优化,算法显著提升了在多任务和动态无线信道条件下的性能,提高了计算效率。通过引入拉格朗日算子和重构的对偶函数,将非凸优化问题转化为对偶函数的凸优化问题,确保算法的全局最优性。此外,算法考虑了车联网模型中的系统传输时间分配,增强了模型的实用性。与现有算法相比,所提算法显著提高了任务卸载的收敛性和稳定性,并能有效处理车联网中的任务卸载问题,具有较高的实用性和可靠性。 展开更多
关键词 车联网 任务卸载 深度强化学习 拟牛顿法
在线阅读 下载PDF
面向稀疏奖励的机器人操作技能学习
20
作者 吴培良 张彦 +2 位作者 毛秉毅 陈雯柏 高国伟 《控制理论与应用》 EI CAS CSCD 北大核心 2024年第1期99-108,共10页
基于深度强化学习的机器人操作技能学习成为研究热点,但由于任务的稀疏奖励性质,学习效率较低.本文提出了基于元学习的双经验池自适应软更新事后经验回放方法,并将其应用于稀疏奖励的机器人操作技能学习问题求解.首先,在软更新事后经验... 基于深度强化学习的机器人操作技能学习成为研究热点,但由于任务的稀疏奖励性质,学习效率较低.本文提出了基于元学习的双经验池自适应软更新事后经验回放方法,并将其应用于稀疏奖励的机器人操作技能学习问题求解.首先,在软更新事后经验回放算法的基础上推导出可以提高算法效率的精简值函数,并加入温度自适应调整策略,动态调整温度参数以适应不同的任务环境;其次,结合元学习思想对经验回放进行分割,训练时动态调整选取真实采样数据和构建虚拟数的比例,提出了DAS-HER方法;然后,将DAS-HER算法应用到机器人操作技能学习中,构建了一个稀疏奖励环境下具有通用性的机器人操作技能学习框架;最后,在Mujoco下的Fetch和Hand环境中,进行了8项任务的对比实验,实验结果表明,无论是在训练效率还是在成功率方面,本文算法表现均优于其他算法. 展开更多
关键词 机器人操作技能学习 强化学习 稀疏奖励 最大熵方法 自适应温度参数 元学习
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部