期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
一类基于概率优先经验回放机制的分布式多智能体软行动-评论者算法 被引量:8
1
作者 张严心 孔涵 +2 位作者 殷辰堃 王子豪 黄志清 《北京工业大学学报》 CAS CSCD 北大核心 2023年第4期459-466,共8页
针对实际多智能体系统对交互经验的庞大需求,在单智能体领域分布式架构的基础上,提出概率经验优先回放机制与分布式架构并行的多智能体软行动-评论者算法(multi-agent soft Actor-Critic with probabilistic prioritized experience rep... 针对实际多智能体系统对交互经验的庞大需求,在单智能体领域分布式架构的基础上,提出概率经验优先回放机制与分布式架构并行的多智能体软行动-评论者算法(multi-agent soft Actor-Critic with probabilistic prioritized experience replay based on a distributed paradigm, DPER-MASAC).该算法中的行动者以并行与环境交互的方式收集经验数据,为突破单纯最近经验在多智能体高吞吐量情况下被高概率抽取的局限性,提出更为普适的改进的基于优先级的概率方式对经验数据进行抽样利用的模式,并对智能体的网络参数进行更新.为验证算法的效率,设计了难度递增的2类合作和竞争关系共存的捕食者-猎物任务场景,将DPER-MASAC与多智能体软行动-评论者算法(multi-agent soft Actor-Critic, MASAC)和带有优先经验回放机制的多智能体软行动-评论者算法(multi-agent soft Actor-Critic with prioritized experience replay, PER-MASAC)2种基线算法进行对比实验.结果表明,采用DPER-MASAC训练的捕食者团队其决策水平在最终性能和任务成功率2个维度上均有明显提升. 展开更多
关键词 多智能系统(MAS) 多智能深度强化学习(DRL) 优先经验回放机制 分布式结构 抽样概率 行动-评论者算法
在线阅读 下载PDF
基于多智能体柔性演员-评论家学习的服务功能链部署算法 被引量:2
2
作者 唐伦 李师锐 +1 位作者 杜雨聪 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2023年第8期2893-2901,共9页
针对网络功能虚拟化(NFV)架构下业务请求动态变化引起的服务功能链(SFC)部署优化问题,该文提出一种基于多智能体柔性演员-评论家(MASAC)学习的SFC部署优化算法。首先,建立资源负载惩罚、SFC部署成本和时延成本最小化的模型,同时受限于SF... 针对网络功能虚拟化(NFV)架构下业务请求动态变化引起的服务功能链(SFC)部署优化问题,该文提出一种基于多智能体柔性演员-评论家(MASAC)学习的SFC部署优化算法。首先,建立资源负载惩罚、SFC部署成本和时延成本最小化的模型,同时受限于SFC端到端时延和网络资源预留阈值约束。其次,将随机优化问题转化为马尔可夫决策过程(MDP),实现SFC动态部署和资源的均衡调度,还进一步提出基于业务分工的多决策者编排方案。最后,在分布式多智能体系统中采用柔性演员-评论家(SAC)算法以增强探索能力,并引入了中央注意力机制和优势函数,能够动态和有选择性地关注获取更大部署回报的信息。仿真结果表明,所提算法可以实现负载惩罚、时延和部署成本的优化,并随业务请求量的增加能更好地扩展。 展开更多
关键词 网络功能虚拟化 服务功能链 柔性演员-评论家学习 多智能强化学习
在线阅读 下载PDF
基于柔性行动器-评判器的园区综合能源系统运行优化 被引量:11
3
作者 朱振山 陈哲盛 盛明鼎 《高电压技术》 EI CAS CSCD 北大核心 2022年第12期4949-4958,共10页
面向综合能源系统运行优化问题,建立了包含燃气轮机、余热回收、有机朗肯循环、空气源热泵和综合需求响应模型的电-热-气园区综合能源系统模型,并在此基础上提出一种基于柔性行动器-评判器的运行优化方法。首先,搭建综合能源系统框架和... 面向综合能源系统运行优化问题,建立了包含燃气轮机、余热回收、有机朗肯循环、空气源热泵和综合需求响应模型的电-热-气园区综合能源系统模型,并在此基础上提出一种基于柔性行动器-评判器的运行优化方法。首先,搭建综合能源系统框架和设备模型,针对传统综合需求响应建模不精确问题,结合历史数据和门控循环单元建立了反映用户真实响应能力的神经网络模型并应用于能源定价场景。其次,以最小化系统购能成本和弃风弃光成本为目标,建立综合能源系统经济调度模型,并采用深度强化学习框架进行表述,设置了柔性行动器-评判器智能体与环境交互过程的动作空间、状态空间、奖励函数等,训练收敛后的模型可直接用于实时决策,无需再重新训练。仿真结果表明所提方法可以有效进行能量管理和能源定价优化,降低系统的综合运行成本。 展开更多
关键词 综合能源系统 柔性行动-评判 门控循环单元 综合需求响应 运行优化 新能源不确定性
在线阅读 下载PDF
基于柔性行动器–评判器深度强化学习的电–气综合能源系统优化调度 被引量:80
4
作者 乔骥 王新迎 +2 位作者 张擎 张东霞 蒲天骄 《中国电机工程学报》 EI CSCD 北大核心 2021年第3期819-832,共14页
多能流协同优化调度是实现综合能源系统高效经济运行的核心技术之一。面向电–气综合能源系统运行优化问题,提出一种基于柔性行动器-评判器框架的深度强化学习方法,通过智能体与能源系统的交互,自适应学习控制策略。该方法可实现多能流... 多能流协同优化调度是实现综合能源系统高效经济运行的核心技术之一。面向电–气综合能源系统运行优化问题,提出一种基于柔性行动器-评判器框架的深度强化学习方法,通过智能体与能源系统的交互,自适应学习控制策略。该方法可实现多能流系统的连续动作控制,且能够灵活处理风电、光伏、多能负荷等源荷不确定性问题,实现多场景下的电-气综合能源优化调度决策。首先,构建面向电-气综合能源系统调度的强化学习基本框架,介绍柔性行动器-评判器强化学习的基本原理;然后,构建与智能体交互的电-气综合能源系统环境模型,设计深度强化学习的动作与状态空间、奖励机制、神经网络结构、学习流程等关键环节;最后,针对2个电-气综合能源系统算例进行强化学习优化调度结果分析。 展开更多
关键词 -气综合能源系统 优化调度 不确定性源荷 深度强化学习 柔性行动-评判
在线阅读 下载PDF
打开算法黑箱:建构“人-机协同”的新闻伦理机制——基于行动者网络理论的研究 被引量:35
5
作者 林凡 林爱珺 《当代传播》 CSSCI 北大核心 2022年第1期51-55,共5页
本文用控制论详细分析了算法黑箱的产生机理,剖析智能新闻生产、分发、接收过程中技术黑箱的运作逻辑及其带来的伦理风险,用拉图尔行动者网络理论讨论技术道德化的可能性与路径,主张将价值理性嵌入人工智能打造新闻道德智能体,在不同阶... 本文用控制论详细分析了算法黑箱的产生机理,剖析智能新闻生产、分发、接收过程中技术黑箱的运作逻辑及其带来的伦理风险,用拉图尔行动者网络理论讨论技术道德化的可能性与路径,主张将价值理性嵌入人工智能打造新闻道德智能体,在不同阶段对算法主体实施“监控、预警与奖惩”的伦理干预,构建“人-机协同”算法新闻伦理机制。 展开更多
关键词 智能传播 行动者网络理论 算法黑箱 新闻道德智能 -机协同
在线阅读 下载PDF
基于阶段诱导学习的多无人艇协同目标围捕策略
6
作者 曲星儒 江雨泽 +2 位作者 龙飞飞 张汝波 高颖 《中国舰船研究》 北大核心 2025年第1期162-171,共10页
[目的]针对海上目标无人艇智能逃逸问题,提出一种基于阶段诱导学习的多无人艇协同目标围捕策略。[方法]首先构建针对无人艇围捕逃逸的马尔科夫博弈模型,明确基于距离和角度的围捕成功判定条件。为提升智能逃逸下多无人艇的目标围捕性能... [目的]针对海上目标无人艇智能逃逸问题,提出一种基于阶段诱导学习的多无人艇协同目标围捕策略。[方法]首先构建针对无人艇围捕逃逸的马尔科夫博弈模型,明确基于距离和角度的围捕成功判定条件。为提升智能逃逸下多无人艇的目标围捕性能,采用集中式训练-分布式执行框架和长短时记忆网络相结合的方法,基于多智能体柔性行动-评判(MASAC)算法开展协同围捕训练。同时,设计基于阶段诱导的协同围捕奖励机制,依据双方当前状态来优化训练进程,避免“惰性围捕艇”现象,提高围捕成功率,引导无人艇由易到难地完成围捕任务。[结果]仿真结果表明,与仅采用阶段诱导奖励的MASAC、仅采用长短时记忆网络的MASAC和MASAC围捕策略相比,所提策略的围捕成功率分别提高3.3%,6.1%和24.4%,验证了其可行性和有效性。[结论]所提策略为无人艇攻防对抗提供了有价值的技术参考,有助于推动无人艇技术在相关领域的应用与发展。 展开更多
关键词 无人艇 协同目标围捕 多智能体柔性行动-评判 阶段诱导奖励
在线阅读 下载PDF
基于Multi-Agent异步深度强化学习的居民住宅能耗在线优化调度研究 被引量:30
7
作者 张虹 申鑫 +2 位作者 穆昊源 刘艾冬 王鹤 《中国电机工程学报》 EI CSCD 北大核心 2020年第1期117-127,共11页
为促进居民用户柔性负荷高效参与需求响应,帮助用户从被动角色转变为主动角色,实现需求侧最大效益。该文在智能电网环境下,根据用电设备的特性,以概率论的角度对家电设备状态进行描述定义,基于异步深度强化学习(asynchronous deep reinf... 为促进居民用户柔性负荷高效参与需求响应,帮助用户从被动角色转变为主动角色,实现需求侧最大效益。该文在智能电网环境下,根据用电设备的特性,以概率论的角度对家电设备状态进行描述定义,基于异步深度强化学习(asynchronous deep reinforcement learning,ADRL)进行家庭能源管理系统调度的在线优化。学习过程采用异步优势演员–评判家(asynchronous advantage actor-critic,A3C)方法,联合用户历史用电设备运行状态的概率分布,通过多智能体利用CPU多线程功能同时执行多个动作的决策。该方法在包括光伏发电、电动汽车和居民住宅电器设备信息的某高维数据库上进行仿真验证。最后通过不同住宅情境下的优化决策效果对比分析可知,所提在线能耗调度策略可用于向电力用户提供实时反馈,以实现用户用电经济性目标。 展开更多
关键词 异步优势演员-评判 需求响应 概率分布 在线优化 多智能 多动作决策
在线阅读 下载PDF
基于分层agent的战术行动仿真决策机制研究 被引量:3
8
作者 裘杭萍 管留 +1 位作者 潘晓东 袁黎苗 《计算机应用研究》 CSCD 北大核心 2011年第7期2455-2457,2461,共4页
以战术行动为背景,首先提出了一种基于分层agent的战术行动指挥控制结构,并分析了不同层次agent的功能;然后采用基于模糊综合评判的方法,重点讨论了结构中最高层agent的决策机制,阐述了具体的决策步骤;最后通过一个具体的决策案例验证... 以战术行动为背景,首先提出了一种基于分层agent的战术行动指挥控制结构,并分析了不同层次agent的功能;然后采用基于模糊综合评判的方法,重点讨论了结构中最高层agent的决策机制,阐述了具体的决策步骤;最后通过一个具体的决策案例验证了该方法的可行性和合理性。采用模糊综合评判的方法为研究作战仿真中agent自身的智能决策提供了新的思路。 展开更多
关键词 智能 战术行动仿真 决策机制 模糊综合评判
在线阅读 下载PDF
面向任务的云、边、端分布式异构资源优选技术 被引量:2
9
作者 李大伟 李丹 +2 位作者 刘博文 刘赛赛 王栋 《计算机工程与设计》 北大核心 2024年第2期618-625,共8页
聚焦未来复杂、高动态环境下异构无人系统跨域联合、超视距分布式联合等应用需求,构建包含任务要素、多智能体要素的任务空间,提出一种混合知识驱动的“云-边-端”跨层跨域任务分配和资源优选模式,分析智能体任务包构建、冲突消解等关... 聚焦未来复杂、高动态环境下异构无人系统跨域联合、超视距分布式联合等应用需求,构建包含任务要素、多智能体要素的任务空间,提出一种混合知识驱动的“云-边-端”跨层跨域任务分配和资源优选模式,分析智能体任务包构建、冲突消解等关键技术,研究特定时间窗口下的分布式任务分配效果,考虑到复杂动态对抗环境因素影响,分析面向扰动的柔性适变方法。通过结合典型空海场景对任务分配算法进行仿真,验证跨域分布式任务分配、面向扰动的适变调整等设计的可行性和有效性。 展开更多
关键词 异构无人系统 分布式动态任务分配 -- 多智能 任务空间 全局共识 冲突消解 柔性适变
在线阅读 下载PDF
基于SAC算法的多交叉口交通信号控制研究 被引量:3
10
作者 钱立军 宣亮 +1 位作者 陈健 陈晨 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2024年第1期105-111,共7页
针对深度Q网络(deep Q-learning network,DQN)算法在解决多交叉口交通信号配时方案由于外部环境变化和内部参数波动导致效果不佳的问题,提出了基于柔性“行动器-评判器”(soft actor-critic,SAC)的交叉口交通信号控制方法,并设计了相应... 针对深度Q网络(deep Q-learning network,DQN)算法在解决多交叉口交通信号配时方案由于外部环境变化和内部参数波动导致效果不佳的问题,提出了基于柔性“行动器-评判器”(soft actor-critic,SAC)的交叉口交通信号控制方法,并设计了相应的系统采样策略和回报函数.与原采样策略相比,新采样策略将相邻智能体的策略信息加入到系统状态中,使当前智能体能够得到更多的交叉口交通分布和合作策略信息.与原回报函数相比,新回报函数中引入空间折扣因子,缩小了相邻智能体的观察和回报值,使当前智能体更加关注和改善当前交通状况.随后在此基础上分别应用DQN和SAC算法设计交通信号控制方法.Webster配时法是利用相位流量数据开发的一种基于周期的固定相位长度交通信号方法,与DQN和SAC算法相比,其优化目标是降低交叉口延迟时间,不考虑交叉口排队长度.在城市交通模拟软件(simulation of urban mobility,SUMO)中构建一个时变交通流交通网络,并在其中分别对基于DQN、SAC和Webster配时法的信号配时控制方法进行仿真测试.仿真结果表明:基于SAC算法的交通信号控制方法与基于DQN算法和Webster配时法的交通信号控制方法相比,能够显著减少交叉口排队长度和平均延迟时间,具体来说,车辆平均排队长度分别减少了17.8%和28.2%,平均延迟分别减少了26.8%和36.3%,说明所提出的方法具有更好的控制效果. 展开更多
关键词 智能交通 交通信号控制 信号交叉口 深度Q网络 柔性行动-评判器”
在线阅读 下载PDF
改进的A2C算法在交通信号控制中的应用
11
作者 曹桐 黄德启 赵军 《计算机工程与设计》 北大核心 2024年第6期1713-1719,共7页
针对目前以数据为驱动的交通控制算法在处理交通数据时容易忽略道路本身的空间信息的问题,提出一种结合道路拓扑结构信息的A2C(advantage actor-critic,A2C)算法。以A2C算法为基础,提取路网中车流量的信息,经过MLP(multilayer perceptro... 针对目前以数据为驱动的交通控制算法在处理交通数据时容易忽略道路本身的空间信息的问题,提出一种结合道路拓扑结构信息的A2C(advantage actor-critic,A2C)算法。以A2C算法为基础,提取路网中车流量的信息,经过MLP(multilayer perceptron,MLP)对路口观测到的交通状态特征进行编码;结合图卷积神经网络提取道路之间的空间信息,引入多头注意力机制关注智能体之间的影响,在SUMO仿真环境中进行仿真验证。实验结果表明,改进的A2C算法相较于基线算法在等待时间、平均行驶速度上性能分别提升9.84%、7.57%,可以更好提高车辆通行效率。 展开更多
关键词 强化学习 图卷积神经网络 优势行动-评论家 多层感知机 多头注意力机制 交通信号控制 多智能
在线阅读 下载PDF
基于SAC强化学习的车联网频谱资源动态分配 被引量:10
12
作者 黄煜梵 彭诺蘅 +3 位作者 林艳 范建存 张一晋 余妍秋 《计算机工程》 CAS CSCD 北大核心 2021年第9期34-43,共10页
针对车联网频谱资源稀缺问题,提出一种基于柔性致动-评价(SAC)强化学习算法的多智能体频谱资源动态分配方案。以最大化信道总容量与载荷成功交付率为目标,建立车辆-车辆(V2V)链路频谱资源分配模型。将每条V2V链路作为单个智能体,构建多... 针对车联网频谱资源稀缺问题,提出一种基于柔性致动-评价(SAC)强化学习算法的多智能体频谱资源动态分配方案。以最大化信道总容量与载荷成功交付率为目标,建立车辆-车辆(V2V)链路频谱资源分配模型。将每条V2V链路作为单个智能体,构建多智能体马尔科夫决策过程模型。利用SAC强化学习算法设计神经网络,通过最大化熵与累计奖励和以训练智能体,使得V2V链路经过不断学习优化频谱资源分配。仿真结果表明,与基于深度Q网络和深度确定性策略梯度的频谱资源分配方案相比,该方案可以更高效地完成车联网链路之间的频谱共享任务,且信道传输速率和载荷成功交付率更高。 展开更多
关键词 车联网 资源分配 多智能强化学习 柔性致动-评价算法 频谱分配
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部