期刊文献+
共找到58篇文章
< 1 2 3 >
每页显示 20 50 100
基于改进深度强化学习的交通信号灯控制
1
作者 韦敏 蔡常健 《计算机工程与设计》 北大核心 2025年第3期927-933,共7页
为解决复杂交通情境下传统交通信号灯控制效果有限的问题,提出一种改进的深度强化学习交通信号灯控制方法。将对决网络和双Q学习结合,改进深度强化学习模型结构,缓解算法的高估;设计能提取更丰富交通信息的多特征状态空间,考虑车辆等待... 为解决复杂交通情境下传统交通信号灯控制效果有限的问题,提出一种改进的深度强化学习交通信号灯控制方法。将对决网络和双Q学习结合,改进深度强化学习模型结构,缓解算法的高估;设计能提取更丰富交通信息的多特征状态空间,考虑车辆等待时间和车道最大队列长度的多任务奖励函数,提高城市交叉口的通行效率。实验结果表明,所提方法能够获得更高奖励,在训练场景对比基线方法平均等待时间和平均队列长度均明显降低,平均速度明显提高,测试结果同样验证所提方法更能提高道路通行效率。 展开更多
关键词 深度强化学习 信号灯控制 对决网络 状态空间 奖励函数 城市交叉口 交通工程
在线阅读 下载PDF
重性抑郁障碍快感缺失的磁共振成像与神经生物学机制研究进展 被引量:1
2
作者 黄佩姗 王克 +2 位作者 张雪琳 苗懿 董强利 《中国神经精神疾病杂志》 北大核心 2025年第3期180-185,共6页
重性抑郁障碍的核心症状之一是快感缺失,表现为个体对愉悦刺激的反应能力下降。伴快感缺失的重性抑郁障碍患者脑影像表现出一定特点,如纹状体、颞叶等脑区体积或皮质厚度减少,脑白质束微观结构改变,额叶、颞叶和边缘系统的神经元活动异... 重性抑郁障碍的核心症状之一是快感缺失,表现为个体对愉悦刺激的反应能力下降。伴快感缺失的重性抑郁障碍患者脑影像表现出一定特点,如纹状体、颞叶等脑区体积或皮质厚度减少,脑白质束微观结构改变,额叶、颞叶和边缘系统的神经元活动异常,默认模式网络、奖赏网络和额顶叶网络的连接性改变等。此外,压力应激、基因表达、谷氨酸系统及生物节律等因素也可能对快感缺失产生影响。快感缺失的神经生物学机制复杂多样,对重性抑郁障碍的诊断、治疗和预后具有重要指导意义。 展开更多
关键词 快感缺失 重性抑郁障碍 磁共振成像 脑结构 脑功能 脑网络 奖赏网络 神经机制
在线阅读 下载PDF
洋流干扰下低速欠驱动AUV的三维路径规划
3
作者 陈世同 鲁子瑜 《智能系统学报》 北大核心 2025年第2期425-434,共10页
海洋洋流对低速欠驱动水下运载器(automatic underwater vehicle,AUV)的航行影响巨大,会增加航行时间、增大能源消耗以及改变航行轨迹,故在洋流干扰的情况下规划出一条最优航行路线有着重要的意义。本文主要分析了洋流对AUV的影响机理,... 海洋洋流对低速欠驱动水下运载器(automatic underwater vehicle,AUV)的航行影响巨大,会增加航行时间、增大能源消耗以及改变航行轨迹,故在洋流干扰的情况下规划出一条最优航行路线有着重要的意义。本文主要分析了洋流对AUV的影响机理,由于传统的强化Q网络(deep Q-network,DQN)路径规划算法在复杂环境下存在过估计的问题,提出了基于优先经验回放方法的改进DQN路径规划算法,同时对动作设计和奖励函数进行优化。在基于S57海图数据建立的三维海洋环境下,利用地球与空间研究机构(earth&space research,ESR)提供的洋流数据进行路径规划仿真。实验结果表明,在充分考虑洋流干扰的情况下,改进后的DQN算法能够规划出较优的全局路径规划,提供一条时间最短且能耗最低的航行路线,为AUV水下航行提供参考。 展开更多
关键词 自主水下运载器 强化学习 洋流干扰 路径规划 三维海洋环境 强化Q网络 S57海图 奖励函数
在线阅读 下载PDF
基于改进DQN算法的移动机器人路径规划
4
作者 于效民 王欣 +1 位作者 吴迪 刘雪莲 《计算机应用与软件》 北大核心 2025年第6期335-341,共7页
移动机器人在动态未知复杂环境中进行路径规划时,需要保证机器人的实时性。针对DQN算法在移动机器人路径规划中存在的过估计问题以及收敛速度慢的问题,提出一种C-RD3QN算法(Combination-Residual Dueling Double DQN)。该算法在D3QN算... 移动机器人在动态未知复杂环境中进行路径规划时,需要保证机器人的实时性。针对DQN算法在移动机器人路径规划中存在的过估计问题以及收敛速度慢的问题,提出一种C-RD3QN算法(Combination-Residual Dueling Double DQN)。该算法在D3QN算法基础上,将卷积层修改为残差网络结构,使用竞争网络结构中的动作优势函数来估计动作值函数,将状态值函数与奖励值结合,使机器人达到更快的收敛速度。经过仿真实验对比分析,表明C-RD3QN算法能够进行更优的路径规划。 展开更多
关键词 深度强化学习 机器人路径规划 残差网络结构 奖励值重构
在线阅读 下载PDF
基于深度强化学习PPO的车辆智能控制方法
5
作者 叶宝林 王欣 +1 位作者 李灵犀 吴维敏 《计算机工程》 北大核心 2025年第7期385-396,共12页
为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制... 为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制策略,下层PID控制器负责执行控制策略。其次为了提升车辆的行驶效率,通过定义优势距离对观测到的环境状态矩阵进行数据筛选,帮助自主车辆选择具有更长优势距离的车道进行变道。基于定义的优势距离提出一种新的状态采集方法以减少数据处理量,加快深度强化学习模型的收敛速度。另外,为了兼顾车辆的安全性、行驶效率和稳定性,设计一个多目标奖励函数。最后在基于Gym搭建的车辆强化学习任务仿真环境Highway_env中进行测试,对所提方法在不同目标速度下的表现进行分析和讨论。仿真测试结果表明,相比深度Q网络(DQN)方法,所提方法具有更快的收敛速度,且在两种不同目标速度下均能使车辆安全平稳地完成驾驶任务。 展开更多
关键词 近端策略优化 车辆控制 分层控制框架 多目标奖励函数 深度Q网络
在线阅读 下载PDF
基于PD3PG的无人驾驶行为决策仿真
6
作者 曹克让 王涵 +2 位作者 刘亚茹 范慧杰 梁琳琦 《计算机工程与设计》 北大核心 2025年第4期1149-1156,共8页
为提高无人驾驶车辆的行为决策控制能力,将深度强化学习中的DDPG算法应用到无人驾驶行为决策中。提出一种将混合优先经验回放机制以及决斗网络结合的确定性策略梯度算法PD3PG。构建无人驾驶行为决策模型,设计合理的奖励函数。提出PD3PG... 为提高无人驾驶车辆的行为决策控制能力,将深度强化学习中的DDPG算法应用到无人驾驶行为决策中。提出一种将混合优先经验回放机制以及决斗网络结合的确定性策略梯度算法PD3PG。构建无人驾驶行为决策模型,设计合理的奖励函数。提出PD3PG算法,提高重要经验的利用率以及加快神经网络的训练速度。通过仿真平台TORCS,验证了PD3PG算法相比于DDPG算法拥有更快的收敛速度,更高的回合奖励,以及更加稳定的偏移量,行为决策控制效果更加优秀。 展开更多
关键词 深度强化学习 深度确定性策略梯度算法 无人驾驶 行为决策 奖励函数 经验回放 决斗网络
在线阅读 下载PDF
社交媒体互动反馈对食物奖赏加工的影响机制
7
作者 张雪萌 刘永 +1 位作者 韩茵 陈红 《心理科学进展》 北大核心 2025年第5期753-765,共13页
食物奖赏反应的增强和环境中食物线索的诱惑可能是肥胖流行的重要因素。研究发现社交媒体曝光是导致过度进食的风险因素,但其潜在影响机制还未见探究。本研究从社交媒体互动的新视角切入,第一部分从理论层面探究社交媒体互动反馈对肥胖... 食物奖赏反应的增强和环境中食物线索的诱惑可能是肥胖流行的重要因素。研究发现社交媒体曝光是导致过度进食的风险因素,但其潜在影响机制还未见探究。本研究从社交媒体互动的新视角切入,第一部分从理论层面探究社交媒体互动反馈对肥胖者食物奖赏加工的影响机制;模拟社交媒体互动,利用ERP技术(研究1)、fMRI技术(研究2)探究社交媒体“点赞”与评论对肥胖者食物奖赏“想要”“喜欢”成分以及奖赏神经机制的影响。第二部分从应用层面,关注如何构建健全的社会网络文化体系,引导肥胖者建立健康饮食行为;训练社交媒体行为,利用ERP技术(研究3)、fMRI技术(研究4)考察社交媒体互动行为训练对肥胖者健康食物“想要”“喜欢”以及奖赏神经机制的影响。本研究进一步从社交媒体互动的视角丰富了食物奖赏理论,同时为健全公共文化服务体系,引导健康饮食提出干预策略。 展开更多
关键词 社交网络 网络行为 食物奖赏 肥胖 社交媒体互动
在线阅读 下载PDF
基于改进DDQN船舶自动靠泊路径规划方法 被引量:1
8
作者 李康斌 朱齐丹 +1 位作者 牟进友 菅紫婷 《智能系统学报》 北大核心 2025年第1期73-80,共8页
船舶在自动靠泊过程中会受到风、浪、流和岸壁效应等因素的影响,故需要精确的路径规划方法防止靠泊失败。针对全驱动船舶靠泊过程的基于双深度Q网络(double deep Q network,DDQN)算法,设计了一种船舶自动靠泊路径规划方法。首先建立船... 船舶在自动靠泊过程中会受到风、浪、流和岸壁效应等因素的影响,故需要精确的路径规划方法防止靠泊失败。针对全驱动船舶靠泊过程的基于双深度Q网络(double deep Q network,DDQN)算法,设计了一种船舶自动靠泊路径规划方法。首先建立船舶三自由度模型,然后通过将距离、航向、推力、时间和碰撞作为奖励或惩罚,改进奖励函数。随后引入DDQN来学习动作奖励模型,并使用学习结果来操纵船舶运动。通过追求更高的奖励值,船舶可以自行找到最优的靠泊路径。实验结果表明,在不同水流速度下,船舶都可以在完成靠泊的同时减小时间和推力,并且在相同水流速度下,DDQN算法与Q-learning、SARSA(state action reward state action)、深度Q网络(deep Q network,DQN)等算法相比,靠泊过程推力分别减小了241.940、234.614、80.202 N,且时间仅为252.485 s。 展开更多
关键词 自动靠泊 路径规划 深度强化学习 双深度Q网络 奖励函数 水流速度 状态探索 推力 时间 独立重复实验
在线阅读 下载PDF
多智能体强化学习驱动的主动声呐发射参数联合优化
9
作者 生雪莉 穆梦飞 +2 位作者 毕耀 高远 石冰玉 《哈尔滨工程大学学报》 北大核心 2025年第8期1557-1565,共9页
针对传统固定发射策略的主动声呐在水声信道中面临环境适配性不足,导致探测稳定性差的问题,本文提出一种基于多智能体强化学习的主动声呐发射波形与声源级的联合优化方法。采用多智能体协作学习方法,将发射波形优化与声源级优化解耦为... 针对传统固定发射策略的主动声呐在水声信道中面临环境适配性不足,导致探测稳定性差的问题,本文提出一种基于多智能体强化学习的主动声呐发射波形与声源级的联合优化方法。采用多智能体协作学习方法,将发射波形优化与声源级优化解耦为多个智能体任务。引入奖励塑形方法,抑制多峰信道频谱引起的奖励信号噪声,提升智能体寻优能力,并避免子脉冲频点冲突。此外,使用双深度Q网络(double deep q-network),降低智能体Q值估计偏差并提升决策稳定性。在基于南海实测声速梯度重构的典型深海信道场景下进行了数值验证,结果表明:经所提算法优化后的信道适配度与回波信噪比调控准确性均优于对比算法,为构建具备环境自适应能力的智能主动声呐系统提供了一种可行的技术途径。 展开更多
关键词 主动声呐 水下探测 信道适配 发射参数联合优化 多智能体 强化学习 奖励塑形 双深度Q网络
在线阅读 下载PDF
基于分层多智能体强化学习的多无人机视距内空战
10
作者 雍宇晨 李子豫 董琦 《智能系统学报》 北大核心 2025年第3期548-556,共9页
为提高无人机在视距内空战中的自主机动决策能力,本文提出一种基于自博弈理论(self-play,SP)和多智能体分层强化学习(mutil agent hierarchical reinforcement learning,MAHRL)的层次决策网络框架。该框架通过结合自身博弈和多智能体强... 为提高无人机在视距内空战中的自主机动决策能力,本文提出一种基于自博弈理论(self-play,SP)和多智能体分层强化学习(mutil agent hierarchical reinforcement learning,MAHRL)的层次决策网络框架。该框架通过结合自身博弈和多智能体强化学习算法,研究了多无人机空战缠斗场景。复杂的空战任务被分解为上层导弹打击任务和下层飞行跟踪任务,有效地减少了战术行动的模糊性,并提高了多无人机空战场景中的自主机动决策能力。此外,通过设计新颖的奖励函数和采用自博弈方法,减少了大型战场环境导致的无意义探索。仿真结果表明,该算法不仅有助于智能体学习基本的飞行战术和高级的作战战术,而且在防御和进攻能力上优于其他多智能体空战算法。 展开更多
关键词 视距内空战 缠斗 自主机动决策 自博弈 分层强化学习 多智能体博弈 分层决策网络 奖励函数设计
在线阅读 下载PDF
基于节点信任特征和非合作博弈的恶意节点检测 被引量:1
11
作者 王欢 杜永文 +1 位作者 王春芳 黄腾飞 《传感器与微系统》 北大核心 2025年第4期123-127,共5页
针对无线传感器网络(WSNs)中恶意节点检测存在复杂度高和检测精度低等问题,提出一种基于节点信任特征和非合作博弈(NTC-NCG)的恶意节点检测方法。首先,该方法通过设置独立监督网络确保监督节点安全,采用分簇优化机制改进簇头选取策略;其... 针对无线传感器网络(WSNs)中恶意节点检测存在复杂度高和检测精度低等问题,提出一种基于节点信任特征和非合作博弈(NTC-NCG)的恶意节点检测方法。首先,该方法通过设置独立监督网络确保监督节点安全,采用分簇优化机制改进簇头选取策略;其次,构建信任评估模型,比较节点可信度和相异系数,将节点分为恶意节点和可疑节点;最后,建立非合作博弈模型,引入奖惩机制,迫使可疑节点转发数据包,激励监督节点持续监听并及时检测出网络中的恶意节点。实验结果表明:该方法对恶意节点入侵检测具有有效性,提高了网络检测率,降低了误检率,从而延长了网络生命周期。 展开更多
关键词 无线传感器网络 恶意节点 信任评估模型 非合作博弈 奖惩机制
在线阅读 下载PDF
针对区域防御的多无人机序列捕捉算法 被引量:1
12
作者 何子琦 李博宸 +1 位作者 王成罡 宋磊 《兵工学报》 北大核心 2025年第4期279-291,共13页
针对区域防御任务中多个入侵者的拦截问题,考虑追捕任务间时序关系与总体拦截效能,提出一种多无人机序列捕捉算法。基于任务的长期规划收益与短期执行效果构建任务的时序收益与空间收益,分别作为任务分配和任务执行的优化目标,实现复杂... 针对区域防御任务中多个入侵者的拦截问题,考虑追捕任务间时序关系与总体拦截效能,提出一种多无人机序列捕捉算法。基于任务的长期规划收益与短期执行效果构建任务的时序收益与空间收益,分别作为任务分配和任务执行的优化目标,实现复杂博弈问题的动态实时求解。基于可达集方法描述攻防双方优势程度并构建任务时序收益,引入深度Q网络对其进行估计进而引导任务分配;基于任务空间收益求解单攻击者追逃博弈问题,给出连续动作空间任务执行的最优控制策略。仿真结果表明,所提算法通过优化任务时空收益能够实现多无人机间的有效合作,提升防御方的捕获成功率,并具有较强的可扩展性。 展开更多
关键词 多无人机 时空任务收益 序列捕捉 时序任务分配 深度Q网络
在线阅读 下载PDF
基于强化学习的多机协同超视距空战决策算法
13
作者 王志刚 龚华军 +1 位作者 尹逸 刘小雄 《南京航空航天大学学报(自然科学版)》 北大核心 2025年第5期831-841,共11页
现代战争中的空战态势复杂多变,因此探索一种快速有效的决策方法十分重要。本文对多架无人机协同对抗问题展开研究,提出一种基于长短期记忆(Long and short-term memory,LSTM)和多智能体深度确定策略梯度(Multi-agent deep deterministi... 现代战争中的空战态势复杂多变,因此探索一种快速有效的决策方法十分重要。本文对多架无人机协同对抗问题展开研究,提出一种基于长短期记忆(Long and short-term memory,LSTM)和多智能体深度确定策略梯度(Multi-agent deep deterministic policy gradient,MADDPG)的多机协同超视距空战决策算法。首先,建立无人机运动模型、雷达探测区模型和导弹攻击区模型。然后,提出了多机协同超视距空战决策算法。设计了集中式训练LSTM-MADDPG分布式执行架构和协同空战系统的状态空间来处理多架无人机之间的同步决策问题;设计了学习率衰减机制来提升网络的收敛速度和稳定性;利用LSTM网络改进了网络结构,增强了网络对战术特征的提取能力;利用基于衰减因子的奖励函数机制加强无人机的协同对抗能力。仿真结果表明所提出的多机协同超视距空战决策算法使无人机具备了协同攻防的能力,同时算法具备良好的稳定性和收敛性。 展开更多
关键词 协同空战决策 多智能体强化学习 混合奖励函数 长短期记忆网络
在线阅读 下载PDF
改进MADDPG算法的非凸环境下多智能体自组织协同围捕 被引量:1
14
作者 张红强 石佳航 +5 位作者 吴亮红 王汐 左词立 陈祖国 刘朝华 陈磊 《计算机科学与探索》 CSCD 北大核心 2024年第8期2080-2090,共11页
针对多智能体在非凸环境下的围捕效率问题,提出基于改进经验回放的多智能体强化学习算法。利用残差网络(ResNet)来改善网络退化问题,并与多智能体深度确定性策略梯度算法(MADDPG)相结合,提出了RW-MADDPG算法。为解决多智能体在训练过程... 针对多智能体在非凸环境下的围捕效率问题,提出基于改进经验回放的多智能体强化学习算法。利用残差网络(ResNet)来改善网络退化问题,并与多智能体深度确定性策略梯度算法(MADDPG)相结合,提出了RW-MADDPG算法。为解决多智能体在训练过程中,经验池数据利用率低的问题,提出两种改善经验池数据利用率的方法;为解决多智能体在非凸障碍环境下陷入障碍物内部的情况(如陷入目标不可达等),通过设计合理的围捕奖励函数使得智能体在非凸障碍物环境下完成围捕任务。基于此算法设计仿真实验,实验结果表明,该算法在训练阶段奖励增加得更快,能更快地完成围捕任务,相比MADDPG算法静态围捕环境下训练时间缩短18.5%,动态环境下训练时间缩短49.5%,而且在非凸障碍环境下该算法训练的围捕智能体的全局平均奖励更高。 展开更多
关键词 深度强化学习 RW-MADDPG 残差网络 经验池 围捕奖励函数
在线阅读 下载PDF
基于任务评估反馈的异构无人机动态任务分配
15
作者 张友安 何子琦 +1 位作者 李博宸 宋磊 《航空兵器》 CSCD 北大核心 2024年第6期78-85,共8页
异构无人机在动态战场环境下的任务分配是实现无人机快速战斗力生成的关键技术之一。针对现有异构无人机的任务分配方法难以响应战场不确定性带来的任务需求变化和潜在的求解可行性问题,提出一种基于任务评估反馈的动态任务分配方法。... 异构无人机在动态战场环境下的任务分配是实现无人机快速战斗力生成的关键技术之一。针对现有异构无人机的任务分配方法难以响应战场不确定性带来的任务需求变化和潜在的求解可行性问题,提出一种基于任务评估反馈的动态任务分配方法。通过设计任务评估反馈模块实现对无人机任务执行效能的实时监控,并利用事件触发机制响应动态环境中变化的任务需求,基于深度Q网络实现异构无人机分配,利用任务分配和执行解耦以及动作过滤机制缓解传统强化学习稀疏奖励导致训练难以收敛的问题,形成动态快速的任务实时响应方案。仿真结果表明,提出方法可有效应对不确定战场环境带来的任务失效,最终实现比现有方法更优的任务完成率。 展开更多
关键词 无人机 任务分配 战场不确定性 任务评估 稀疏奖励 深度Q网络 强化学习
在线阅读 下载PDF
融合IMR-WGAN的时序数据修复方法 被引量:1
16
作者 孟祥福 马荣国 《小型微型计算机系统》 CSCD 北大核心 2024年第3期641-650,共10页
工业数据由于技术故障和人为因素通常导致数据异常,现有基于约束的方法因约束阈值设置的过于宽松或严格会导致修复错误,基于统计的方法因平滑修复机制导致对时间步长较远的异常值修复准确度较低.针对上述问题,提出了基于奖励机制的最小... 工业数据由于技术故障和人为因素通常导致数据异常,现有基于约束的方法因约束阈值设置的过于宽松或严格会导致修复错误,基于统计的方法因平滑修复机制导致对时间步长较远的异常值修复准确度较低.针对上述问题,提出了基于奖励机制的最小迭代修复和改进WGAN混合模型的时序数据修复方法.首先,在预处理阶段,保留异常数据,进行信息标注等处理,从而充分挖掘异常值与真实值之间的特征约束.其次,在噪声模块提出了近邻参数裁剪规则,用于修正最小迭代修复公式生成的噪声向量.将其传递至模拟分布模块的生成器中,同时设计了一个动态时间注意力网络层,用于提取时序特征权重并与门控循环单元串联组合捕捉不同步长的特征依赖,并引入递归多步预测原理共同提升模型的表达能力;在判别器中设计了Abnormal and Truth奖励机制和Weighted Mean Square Error损失函数共同反向优化生成器修复数据的细节和质量.最后,在公开数据集和真实数据集上的实验结果表明,该方法的修复准确度与模型稳定性显著优于现有方法. 展开更多
关键词 数据修复 改进Wasserstein生成对抗网络 Abnormal and Truth奖励机制 动态时间注意力机制 Weighted Mean Square Error损失函数
在线阅读 下载PDF
基于深度强化学习的柔性作业车间调度方法 被引量:1
17
作者 郭羽 唐敦兵 张泽群 《航空制造技术》 CSCD 北大核心 2024年第23期114-120,共7页
受到车间动态扰动的影响,单一调度规则在车间调度问题中无法一直获得较好的调度结果。对此,本文提出了一种基于D3QN(Dueling double DQN)的调度方法,用于柔性作业车间调度问题。首先通过将调度问题转化为马尔可夫决策过程,构建了强化学... 受到车间动态扰动的影响,单一调度规则在车间调度问题中无法一直获得较好的调度结果。对此,本文提出了一种基于D3QN(Dueling double DQN)的调度方法,用于柔性作业车间调度问题。首先通过将调度问题转化为马尔可夫决策过程,构建了强化学习任务数学模型,并依次设计了18种生产系统状态特征、9种用于评价机床和工件的分值动作以及与调度目标相关的奖励函数。然后基于Dueling double DQN算法,在机床Agent、工件Agent与车间生产系统的交互过程中,不断训练两个Agent在每个调度决策时刻选择最高评分的机床和工件,从而完成工件和机床的资源分配任务。最后通过仿真试验,将所提出的方法与直接选取机床编号和选取调度规则的调度方法进行对比,结果表明该方法能取得更好的调度结果。 展开更多
关键词 深度强化学习 柔性作业车间调度 神经网络 深度Q网络 奖励函数
在线阅读 下载PDF
奖励机制与用户意愿结合的高峰期负荷博弈调度策略 被引量:2
18
作者 杨雪莹 祁琪 +2 位作者 李启明 杨春萍 祁兵 《电工技术学报》 EI CSCD 北大核心 2024年第16期5060-5074,共15页
在高峰时段,居民冷/热设备占尖峰负荷的比重不断攀升,影响了低压配电网的安全稳定优化运行。为补充供给侧调节能力,提升调控灵活性,亟须引导用户侧可调资源参与电网供需互动。该文提出一种奖励机制与用户意愿相结合的高峰期负荷博弈调... 在高峰时段,居民冷/热设备占尖峰负荷的比重不断攀升,影响了低压配电网的安全稳定优化运行。为补充供给侧调节能力,提升调控灵活性,亟须引导用户侧可调资源参与电网供需互动。该文提出一种奖励机制与用户意愿相结合的高峰期负荷博弈调度策略。依据用户用能意愿对高峰时段用电负荷进行动态划分,制定基于负载率-奖励函数的差异化补贴机制。将高峰时段需要提升功率的负荷群视为领导者,将具有灵活削减能力的负荷群视为追随者,建立Stackelberg博弈模型,证明博弈均衡的唯一性。进而该文提出了Stackelberg博弈下的用电高峰期负荷日内优化调度方法,优化博弈双方在追求效益最大时的策略。该文构建多通路混合专家网络求解设备动作意愿,提出基于用户意愿的单功率-多功率级负荷联合控制策略,实现负荷的实时精细化调控。最后,算例表明所提策略能够在实现聚合商与用户侧双赢、遵从用户调控意愿的同时,有效地平抑用电高峰期的负荷波动,减小峰谷差。 展开更多
关键词 主从博弈 高峰期负荷 用户意愿 负载率-奖励函数 混合专家网络
在线阅读 下载PDF
一种新的基于Sigmoid函数的分布式深度Q网络概率分布更新策略 被引量:2
19
作者 高卓凡 郭文利 《计算机科学》 CSCD 北大核心 2024年第12期277-285,共9页
分布式深度Q网络(Distributed-Deep Q Network,Dist-DQN)是在传统期望值深度Q网络的基础上将离散的动作奖励在一个区间上连续化,通过不断更新支集区间的概率分布来解决复杂环境的随机奖励问题。奖励概率的分布更新策略作为Dist-DQN实现... 分布式深度Q网络(Distributed-Deep Q Network,Dist-DQN)是在传统期望值深度Q网络的基础上将离散的动作奖励在一个区间上连续化,通过不断更新支集区间的概率分布来解决复杂环境的随机奖励问题。奖励概率的分布更新策略作为Dist-DQN实现的重要函数,会显著影响智能体在环境中的学习效率。针对上述问题,提出了一种新的Sig-Dist-DQN概率分布更新策略。该策略综合考虑奖励概率支集之间的相关性强弱关系,提高与观察奖励强相关支集的概率质量更新速率,同时降低弱相关支集概率质量的更新速率。在OpenAI gym提供的环境下进行实验,结果表明,指数更新和调和序列更新策略在每次训练的差异性较大,而Sig-Dist-DQN策略的训练图像非常稳定。相较于指数更新和调和序列更新策略,应用Sig-Dist-DQN的智能体在学习过程中损失函数的收敛速度和收敛过程的稳定性都有显著提高。 展开更多
关键词 分布式深度Q网络 奖励区间连续化 概率分布更新 学习效率 训练稳定性
在线阅读 下载PDF
独立直流微网电压动态轨迹神经网络优化控制策略 被引量:4
20
作者 郭睿恒 黄文焘 +3 位作者 余墨多 邰能灵 王良秀 李江 《中国电机工程学报》 EI CSCD 北大核心 2024年第16期6404-6415,I0010,共13页
为解决独立直流微网功率扰动下电压过渡过程动态偏差大的问题,该文提出一种优化电压动态轨迹的神经网络控制策略。分析下垂控制及其改进方法的控制特性,提出独立直流微网最优电压动态轨迹,并以此为基础,采用神经网络生成参考电压,通过... 为解决独立直流微网功率扰动下电压过渡过程动态偏差大的问题,该文提出一种优化电压动态轨迹的神经网络控制策略。分析下垂控制及其改进方法的控制特性,提出独立直流微网最优电压动态轨迹,并以此为基础,采用神经网络生成参考电压,通过非线性控制实现公共直流母线动态电压偏差最小化。基于向量空间同构原理,提出神经网络降维状态反馈构建方法,并根据系统源荷不平衡功率变化范围提出神经网络控制边界。考虑动态电压偏差及其运动趋势,构建电压扰动分层奖励函数,静态层奖励引导神经网络减小电压偏差,动态层奖励加强神经网络对电压运动趋势的修正,实现电压动态轨迹全过程优化控制。最后,利用MATLAB/Simulink进行算例验证,结果表明所提策略可有效抑制由功率不平衡导致的动态电压偏差,保证公共直流母线电压的快速稳定。 展开更多
关键词 电压动态轨迹 神经网络控制 独立直流微网 功率扰动 奖励函数
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部