期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于多代理强化学习的多新型市场主体虚拟电厂博弈竞价及效益分配策略 被引量:8
1
作者 张继行 张一 +2 位作者 王旭 蒋传文 王玲玲 《电网技术》 EI CSCD 北大核心 2024年第5期1980-1991,I0052,I0053,共14页
目前新型市场主体规模较小但数量众多,为提高竞争力可以使其组成联盟以多新型市场主体虚拟电厂的形式参与市场博弈,而公平的效益分配方法是维持联盟稳定的基础。为此,该文提出了一种多新型市场主体虚拟电厂博弈竞价及效益分配策略。首先... 目前新型市场主体规模较小但数量众多,为提高竞争力可以使其组成联盟以多新型市场主体虚拟电厂的形式参与市场博弈,而公平的效益分配方法是维持联盟稳定的基础。为此,该文提出了一种多新型市场主体虚拟电厂博弈竞价及效益分配策略。首先,考虑多新型市场主体虚拟电厂和传统机组均作为价格影响者,构建包含电能量和备用辅助服务的主辅联合市场交易模型,并在不完全信息市场环境下采用多代理强化学习(multi-agentreinforcementlearning,MADDPG)算法求解。其次,采用分布式联盟构造方法得到最优多新型市场主体联盟结构。为解决效益分配方法中的维数灾问题,引入蒙特卡洛近似夏普利值,对虚拟电厂内各新型市场主体的超额收益进行合理分配。最后,算例分析表明所提方法给出了多新型主体虚拟电厂参与主辅联合市场的最优联盟结构和竞价策略,在保证精度的前提下提高了超额收益分配的计算速度,与单独参与市场相比提高了所有新型市场主体的收益。 展开更多
关键词 虚拟电厂 主辅联合市场 多代理强化学习 最优联盟结构 夏普利值
在线阅读 下载PDF
基于多代理深度强化学习的战术无线网络安全路由算法研究
2
作者 谢英辉 刘亮 《传感技术学报》 北大核心 2025年第8期1482-1490,共9页
由于应用场景的特殊性,战术无线网络更易遭受干扰攻击,这破坏了数据通信,阻碍了数据包的传输。为此,提出基于多代理深度强化学习的安全路由(Multi-agent Deep Reinforcement Learning-based Secure Routing,MRSR)。MRSR路由将节点作为代... 由于应用场景的特殊性,战术无线网络更易遭受干扰攻击,这破坏了数据通信,阻碍了数据包的传输。为此,提出基于多代理深度强化学习的安全路由(Multi-agent Deep Reinforcement Learning-based Secure Routing,MRSR)。MRSR路由将节点作为代理,它们通过深度神经网络学习决策路由。将跳数、一跳时延、数据包丢失率和能量消耗信息关联到奖励函数,使得代理能够选择时延低、可靠性高的转发节点,进而克服干扰攻击。仿真结果表明,提出的MRSR路由提高了数据包传递率和能量效率。 展开更多
关键词 战术无线网络 安全路由 干扰攻击 多代理深度强化学习 奖励函数
在线阅读 下载PDF
基于多代理强化学习的结构拆解资源化评估及决策优化
3
作者 刘伯达 杨彬 +1 位作者 肖建庄 李进军 《同济大学学报(自然科学版)》 2025年第9期1372-1381,共10页
针对老旧结构构件拆解施工过程,通过资源流动约束、柔性工作分解和选择性拆解策略建立了拆解工序计划数学模型,并提出了一个以回收效率为目标的多代理强化学习拆解方案优化方法。案例应用结果表明,与遗传算法相比,该方法具有更高的碳排... 针对老旧结构构件拆解施工过程,通过资源流动约束、柔性工作分解和选择性拆解策略建立了拆解工序计划数学模型,并提出了一个以回收效率为目标的多代理强化学习拆解方案优化方法。案例应用结果表明,与遗传算法相比,该方法具有更高的碳排放回报/消耗比,验证了基于智能算法优化的拆解方案对节能减碳的有效性。 展开更多
关键词 结构资源化 多代理强化学习 结构拆解 决策优化
在线阅读 下载PDF
多代理最优响应Q学习及收敛性证明 被引量:1
4
作者 张化祥 黄上腾 《计算机科学》 CSCD 北大核心 2004年第4期96-98,共3页
在分析了多代理强化学习的基础上,提出了一种基于对手策略假设的代理最优响应强化学习规则,并证明了当对手策略满足一定条件时,基于该学习规则的Q值收敛。实验结果与理论证明相一致。
关键词 学习规则 Q学习 强化学习 收敛性证明 多代理强化学习 学习算法 人工智能
在线阅读 下载PDF
基于先验知识图谱的多代理被遮挡目标类别推理模型
5
作者 荣欢 钱敏峰 +1 位作者 马廷淮 孙圣杰 《计算机科学》 CSCD 北大核心 2023年第1期243-252,共10页
目标检测(Object Detection)是计算机视觉中最为热门的方向之一,在军事、医疗等重要领域都有广泛运用。然而,大多数目标检测模型都只能对可见物体进行识别,日常生活中的图片往往存在被遮挡(不可见)的目标物体,现有目标检测模型对图片中... 目标检测(Object Detection)是计算机视觉中最为热门的方向之一,在军事、医疗等重要领域都有广泛运用。然而,大多数目标检测模型都只能对可见物体进行识别,日常生活中的图片往往存在被遮挡(不可见)的目标物体,现有目标检测模型对图片中的被遮挡目标难以表现出较理想的检测性能。为此,文中提出了一种基于图库先验知识图谱的多代理协作式图片被遮挡目标类别推理模型(IMG-KGR-MAC)。具体而言,1)IMG-KGR-MAC根据给定图库中所有图片的可见目标及其之间的位置关系构建全局先验知识图谱;同时,根据图片自身所含目标及其位置关系,为各图片分别建立图片知识图谱;各图片内被遮挡目标的信息均不计入全局先验知识图谱和图片自身知识图谱;2)采用DDPG(Deep Deterministic Policy Gradient)深度强化学习思想,构建两个相互协作的代理;代理1根据当前图片语义信息从全局先验知识图谱挑选出与被遮挡目标最为适配的“类别标签”,将其作为新实体节点加入到给定图片自身的知识图谱中;代理2根据代理1新加入的实体,从全局先验知识图谱中进一步挑选〈实体,关系〉,扩展与新实体节点相关联的图谱结构;3)代理1与代理2通过共享任务环境和在奖励值上建立通信,相互协作地按“图片被遮挡目标(实体)→关联图谱结构”以及“关联图谱结构→图片被遮挡目标(实体)”原理,开展正向与反向推理,从而有效估计出给定图片被遮挡目标最为可能的类别标签。实验结果表明,与现有相关方法相比,所提出的IMG-KGR-MAC模型可以学习到给定图片被遮挡目标与全局先验知识图谱之间的语义关系,有效克服了现有模型对被遮挡目标难以检测的弊端,对于被遮挡目标有良好的推理能力,在MR(Mean Rank)以及mAP(Mean Average Precision)等多项指标上都有超过20%的提升。 展开更多
关键词 知识图谱推理 图片目标检测 多代理强化学习 DDPG
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部