期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
基于异步优势演员-评论家学习的服务功能链资源分配算法 被引量:8
1
作者 唐伦 贺小雨 +3 位作者 王晓 谭颀 胡彦娟 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2021年第6期1733-1741,共9页
考虑网络全局信息难以获悉的实际情况,针对接入网切片场景下用户终端(UE)的移动性和数据包到达的动态性导致的资源分配优化问题,该文提出了一种基于异步优势演员-评论家(A3C)学习的服务功能链(SFC)资源分配算法。首先,该算法建立基于区... 考虑网络全局信息难以获悉的实际情况,针对接入网切片场景下用户终端(UE)的移动性和数据包到达的动态性导致的资源分配优化问题,该文提出了一种基于异步优势演员-评论家(A3C)学习的服务功能链(SFC)资源分配算法。首先,该算法建立基于区块链的资源管理机制,通过区块链技术实现可信地共享并更新网络全局信息,监督并记录SFC资源分配过程。然后,建立UE移动和数据包到达时变情况下的无线资源、计算资源和带宽资源联合分配的时延最小化模型,并进一步将其转化为马尔科夫决策过程(MDP)。最后,在所建立的MDP中采用A3C学习方法,实现资源分配策略的求解。仿真结果表明,该算法能够更加合理高效地利用资源,优化系统时延并保证UE需求。 展开更多
关键词 网络切片 服务功能链资源分配 马尔科夫决策过程 异步优势演员-评论家学习 区块链
在线阅读 下载PDF
基于柔性演员-评论家算法的决策规划协同研究 被引量:3
2
作者 唐斌 刘光耀 +3 位作者 江浩斌 田宁 米伟 王春宏 《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第2期105-113,187,共10页
为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与... 为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与基于规则的决策规划方法相结合设计自动驾驶决策规划协同智能体。结合自注意力机制(Self Attention Mechanism, SAM)和门控循环单元(Gate Recurrent Unit, GRU)构建预处理网络;根据规划模块的具体实现方式设计动作空间;运用信息反馈思想设计奖励函数,给智能体添加车辆行驶条件约束,并将轨迹信息传递给决策模块,实现决策规划的信息协同。在CARLA自动驾驶仿真平台中搭建交通场景对智能体进行训练,并在不同场景中将所提出的决策规划协同方法与常规的基于SAC算法的决策规划方法进行比较,结果表明,本文所设计的自动驾驶决策规划协同智能体学习速度提高了25.10%,由其决策结果生成的平均车速更高,车速变化率更小,更接近道路期望车速,路径长度与曲率变化率更小。 展开更多
关键词 智能交通 自动驾驶 柔性演员-评论家算法 决策规划协同 深度强化学习
在线阅读 下载PDF
基于迁移演员-评论家学习的服务功能链部署算法 被引量:6
3
作者 唐伦 贺小雨 +1 位作者 王晓 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2020年第11期2671-2679,共9页
针对5G网络切片环境下由于业务请求的随机性和未知性导致的资源分配不合理从而引起的系统高时延问题,该文提出了一种基于迁移演员-评论家(A-C)学习的服务功能链(SFC)部署算法(TACA)。首先,该算法建立基于虚拟网络功能放置、计算资源、... 针对5G网络切片环境下由于业务请求的随机性和未知性导致的资源分配不合理从而引起的系统高时延问题,该文提出了一种基于迁移演员-评论家(A-C)学习的服务功能链(SFC)部署算法(TACA)。首先,该算法建立基于虚拟网络功能放置、计算资源、链路带宽资源和前传网络资源联合分配的端到端时延最小化模型,并将其转化为离散时间马尔可夫决策过程(MDP)。而后,在该MDP中采用A-C学习算法与环境进行不断交互动态调整SFC部署策略,优化端到端时延。进一步,为了实现并加速该A-C算法在其他相似目标任务中(如业务请求到达率普遍更高)的收敛过程,采用迁移A-C学习算法实现利用源任务学习的SFC部署知识快速寻找目标任务中的部署策略。仿真结果表明,该文所提算法能够减小且稳定SFC业务数据包的队列积压,优化系统端到端时延,并提高资源利用率。 展开更多
关键词 网络切片 服务功能链部署 马尔可夫决策过程 演员-评论家学习 迁移学习
在线阅读 下载PDF
基于视觉注意力机制的异步优势行动者-评论家算法 被引量:1
4
作者 李杰 凌兴宏 +1 位作者 伏玉琛 刘全 《计算机科学》 CSCD 北大核心 2019年第5期169-174,共6页
异步深度强化学习能够通过多线程技术极大地减少学习模型所需要的训练时间。然而作为异步深度强化学习的一种经典算法,异步优势行动者-评论家算法没有充分利用某些具有重要价值的区域信息,网络模型的学习效率不够理想。针对此问题,文中... 异步深度强化学习能够通过多线程技术极大地减少学习模型所需要的训练时间。然而作为异步深度强化学习的一种经典算法,异步优势行动者-评论家算法没有充分利用某些具有重要价值的区域信息,网络模型的学习效率不够理想。针对此问题,文中提出一种基于视觉注意力机制的异步优势行动者-评论家模型。该模型在传统异步优势行动者-评论家算法的基础上引入了视觉注意力机制,通过计算图像各区域点的视觉重要性值,利用回归、加权等操作得到注意力机制的上下文向量,从而使Agent将注意力集中于面积较小但更具丰富价值的图像区域,加快网络模型解码速度,更高效地学习近似最优策略。实验结果表明,与传统的异步优势行动者-评论家算法相比,该模型在基于视觉感知的决策任务上具有更好的性能表现。 展开更多
关键词 异步深度强化学习 视觉注意力机制 行动者-评论家 异步优势行动者-评论家
在线阅读 下载PDF
基于多智能体柔性演员-评论家学习的服务功能链部署算法 被引量:2
5
作者 唐伦 李师锐 +1 位作者 杜雨聪 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2023年第8期2893-2901,共9页
针对网络功能虚拟化(NFV)架构下业务请求动态变化引起的服务功能链(SFC)部署优化问题,该文提出一种基于多智能体柔性演员-评论家(MASAC)学习的SFC部署优化算法。首先,建立资源负载惩罚、SFC部署成本和时延成本最小化的模型,同时受限于SF... 针对网络功能虚拟化(NFV)架构下业务请求动态变化引起的服务功能链(SFC)部署优化问题,该文提出一种基于多智能体柔性演员-评论家(MASAC)学习的SFC部署优化算法。首先,建立资源负载惩罚、SFC部署成本和时延成本最小化的模型,同时受限于SFC端到端时延和网络资源预留阈值约束。其次,将随机优化问题转化为马尔可夫决策过程(MDP),实现SFC动态部署和资源的均衡调度,还进一步提出基于业务分工的多决策者编排方案。最后,在分布式多智能体系统中采用柔性演员-评论家(SAC)算法以增强探索能力,并引入了中央注意力机制和优势函数,能够动态和有选择性地关注获取更大部署回报的信息。仿真结果表明,所提算法可以实现负载惩罚、时延和部署成本的优化,并随业务请求量的增加能更好地扩展。 展开更多
关键词 网络功能虚拟化 服务功能链 柔性演员-评论家学习 多智能体强化学习
在线阅读 下载PDF
基于优势演员-评论家算法的强化自动摘要模型 被引量:7
6
作者 杜嘻嘻 程华 房一泉 《计算机应用》 CSCD 北大核心 2021年第3期699-705,共7页
针对长文本自动摘要任务中抽取式模型摘要较为冗余,而生成式摘要模型时常有关键信息丢失、摘要不准确和生成内容重复等问题,提出一种面向长文本的基于优势演员-评论家算法的强化自动摘要模型(A2C-RLAS)。首先,用基于卷积神经网络(CNN)... 针对长文本自动摘要任务中抽取式模型摘要较为冗余,而生成式摘要模型时常有关键信息丢失、摘要不准确和生成内容重复等问题,提出一种面向长文本的基于优势演员-评论家算法的强化自动摘要模型(A2C-RLAS)。首先,用基于卷积神经网络(CNN)和循环神经网络(RNN)的混合神经网络的抽取器(extractor)来提取原文关键句;然后,用基于拷贝机制和注意力机制的重写器(rewriter)来精炼关键句;最后,使用强化学习的优势演员-评论家(A2C)算法训练整个网络,把重写摘要和参考摘要的语义相似性(BERTScore值)作为奖励(reward)来指导抽取过程,从而提高抽取器提取句子的质量。在CNN/Daily Mail数据集上的实验结果表明,与基于强化学习的抽取式摘要(Refresh)模型、基于循环神经网络的抽取式摘要序列模型(SummaRuNNer)和分布语义奖励(DSR)模型等模型相比,A2C-RLAS的最终摘要内容更加准确、语言更加流畅,冗余的内容有效减少,且A2C-RLAS的ROUGE和BERTScore指标均有提升。相较于Refresh模型和SummaRuNNer模型,A2C-RLAS模型的ROUGE-L值分别提高了6.3%和10.2%;相较于DSR模型,A2C-RLAS模型的F1值提高了30.5%。 展开更多
关键词 自动摘要模型 抽取式摘要模型 生成式摘要模型 编码器-解码器 强化学习 优势演员-评论家算法
在线阅读 下载PDF
基于优势演员-评论家算法的危险货物集装箱堆场安全堆存空间分配
7
作者 沈阳 黄诚 宓为建 《上海海事大学学报》 北大核心 2022年第3期13-20,61,共9页
针对危险货物集装箱(简称危货箱)堆场堆存空间分配的安全性问题,通过分析危货箱堆存的风险因素及安全堆存规范,提出一种以安全堆存空间利用率和安全指数最大为目标的危货箱堆场安全堆存空间分配多目标优化模型。设计优势演员-评论家(adv... 针对危险货物集装箱(简称危货箱)堆场堆存空间分配的安全性问题,通过分析危货箱堆存的风险因素及安全堆存规范,提出一种以安全堆存空间利用率和安全指数最大为目标的危货箱堆场安全堆存空间分配多目标优化模型。设计优势演员-评论家(advantage actor-critic,A2C)算法对模型进行求解,并通过算例分析和对比验证方法的有效性及优越性。结果表明,该方法能够获得在降低作业风险和提高事故应急处置能力条件下的危货箱堆场最优堆存空间分配策略,从而提高危货箱堆存安全性和堆场利用率。 展开更多
关键词 危险货物集装箱 安全堆存空间分配 多目标优化 优势演员-评论家算法
在线阅读 下载PDF
基于双重注意力机制的异步优势行动者评论家算法 被引量:4
8
作者 凌兴宏 李杰 +2 位作者 朱斐 刘全 伏玉琛 《计算机学报》 EI CSCD 北大核心 2020年第1期93-106,共14页
深度强化学习是目前机器学习领域发展最快的技术之一.传统的深度强化学习方法在处理高维度大状态的空间任务时,庞大的计算量导致其训练时间过长.虽然异步深度强化学习利用异步方法极大缩短了训练时间,但会忽略某些更具价值的图像区域和... 深度强化学习是目前机器学习领域发展最快的技术之一.传统的深度强化学习方法在处理高维度大状态的空间任务时,庞大的计算量导致其训练时间过长.虽然异步深度强化学习利用异步方法极大缩短了训练时间,但会忽略某些更具价值的图像区域和图像特征.针对上述问题,本文提出了一种基于双重注意力机制的异步优势行动者评论家算法.新算法利用特征注意力机制和视觉注意力机制来改进传统的异步深度强化学习模型.其中,特征注意力机制为卷积神经网络卷积后的所有特征图设置不同的权重,使得智能体聚焦于重要的图像特征;同时,视觉注意力机制为图像不同区域设置权重参数,权重高的区域表示该区域信息对智能体后续的策略学习有重要价值,帮助智能体更高效地学习到最优策略.新算法引入双重注意力机制,从表层和深层两个角度对图像进行编码表征,帮助智能体将聚焦点集中在重要的图像区域和图像特征上.最后,通过Atari 2600部分经典实验验证了基于双重注意力机制的异步优势行动者评论家算法的有效性. 展开更多
关键词 注意力机制 双重注意力机制 行动者评论家 异步优势行动者评论家 异步深度强化学习
在线阅读 下载PDF
基于柔性演员-评论家算法的自适应巡航控制研究 被引量:6
9
作者 赵克刚 石翠铎 +2 位作者 梁志豪 李梓棋 王玉龙 《汽车技术》 CSCD 北大核心 2023年第3期26-34,共9页
针对目前自适应巡航控制技术中,深度强化学习的控制算法环境适应能力不足、模型迁移性及泛化能力较差的问题,提出一种基于最大熵原理和随机离线策略的柔性演员-评论家(SAC)控制算法。构建演员和评论家网络拟合动作值函数和动作策略函数... 针对目前自适应巡航控制技术中,深度强化学习的控制算法环境适应能力不足、模型迁移性及泛化能力较差的问题,提出一种基于最大熵原理和随机离线策略的柔性演员-评论家(SAC)控制算法。构建演员和评论家网络拟合动作值函数和动作策略函数,并使用自调节温度系数改善智能体的环境探索能力;针对奖励稀疏问题,运用奖励塑造思想设计奖励函数;此外,提出一种新的经验回放机制以提高样本利用率。将所提出的控制算法在不同场景中进行仿真及实车验证,并与深度确定性策略梯度(DDPG)算法进行比较,结果表明,该算法具有更好的模型泛化能力和实车迁移效果。 展开更多
关键词 自适应巡航控制 柔性演员-评论家 可迁移性 深度强化学习
在线阅读 下载PDF
深度强化学习驱动的风储系统参与能量-调频市场竞价策略
10
作者 李钟平 向月 《电力工程技术》 北大核心 2025年第3期30-42,共13页
在电力市场环境下,风储系统通过参与能量市场和调频市场实现经济性提升和电网调频调峰辅助功能,但竞价策略需要解决风储竞价能量-调频双市场协同优化等关键问题。为此,文中提出一种基于深度强化学习驱动的风储系统参与能量-调频市场竞... 在电力市场环境下,风储系统通过参与能量市场和调频市场实现经济性提升和电网调频调峰辅助功能,但竞价策略需要解决风储竞价能量-调频双市场协同优化等关键问题。为此,文中提出一种基于深度强化学习驱动的风储系统参与能量-调频市场竞价策略,以应对不完全信息市场环境下的风储系统竞价策略。首先,构建风储系统参与能量-调频市场交易框架,阐明各市场主体的竞价与运营策略;然后,针对不同调频资源的响应能力差异,引入实时调频性能得分模型,并建立风储系统竞价模型;最后,为求解不完全信息市场环境下的多主体随机博弈问题,采用具备无模型学习能力的多智能深度强化学习方法,处理多主体竞价博弈关系。仿真结果表明,文中所提方法能够有效为风储系统参与能量-调频市场制定竞价策略,在保证高收敛稳定性的同时显著提升经济性收益,并有效支持电网的调频调峰需求。 展开更多
关键词 风储系统 能量-调频市场 深度强化学习 实时调频性能得分 演员-评论家 多主体竞价博弈
在线阅读 下载PDF
基于Multi-Agent异步深度强化学习的居民住宅能耗在线优化调度研究 被引量:30
11
作者 张虹 申鑫 +2 位作者 穆昊源 刘艾冬 王鹤 《中国电机工程学报》 EI CSCD 北大核心 2020年第1期117-127,共11页
为促进居民用户柔性负荷高效参与需求响应,帮助用户从被动角色转变为主动角色,实现需求侧最大效益。该文在智能电网环境下,根据用电设备的特性,以概率论的角度对家电设备状态进行描述定义,基于异步深度强化学习(asynchronous deep reinf... 为促进居民用户柔性负荷高效参与需求响应,帮助用户从被动角色转变为主动角色,实现需求侧最大效益。该文在智能电网环境下,根据用电设备的特性,以概率论的角度对家电设备状态进行描述定义,基于异步深度强化学习(asynchronous deep reinforcement learning,ADRL)进行家庭能源管理系统调度的在线优化。学习过程采用异步优势演员–评判家(asynchronous advantage actor-critic,A3C)方法,联合用户历史用电设备运行状态的概率分布,通过多智能体利用CPU多线程功能同时执行多个动作的决策。该方法在包括光伏发电、电动汽车和居民住宅电器设备信息的某高维数据库上进行仿真验证。最后通过不同住宅情境下的优化决策效果对比分析可知,所提在线能耗调度策略可用于向电力用户提供实时反馈,以实现用户用电经济性目标。 展开更多
关键词 异步优势演员-评判家 需求响应 概率分布 在线优化 多智能体 多动作决策
在线阅读 下载PDF
融合强化学习的分阶段策略求解旅行背包问题 被引量:1
12
作者 章政 夏小云 +1 位作者 陈泽丰 向毅 《计算机工程与科学》 北大核心 2025年第1期140-149,共10页
旅行背包问题TTP是传统的旅行商问题和背包问题的结合,属于NP难问题。相较于独立的旅行商问题和背包问题,旅行背包问题更加符合现实情况,具有更高的研究价值。先前的TTP求解算法主要为启发式算法,性能有限,其他类型的算法则研究较少。... 旅行背包问题TTP是传统的旅行商问题和背包问题的结合,属于NP难问题。相较于独立的旅行商问题和背包问题,旅行背包问题更加符合现实情况,具有更高的研究价值。先前的TTP求解算法主要为启发式算法,性能有限,其他类型的算法则研究较少。为了提高TTP的求解性能,提出了融合强化学习的算法,采用分阶段策略。第1阶段根据物品的属性生成物品选择计划,第2阶段利用强化学习演员-评论家(Actor-Critic)算法求解旅行路径,第3阶段引入邻域搜索策略优化所得解。实验结果表明,所提算法在大部分算例上都取得了较好的结果,并且在部分算例上,解的质量超越了其他对比算法,表明了所提算法具有较优的性能。 展开更多
关键词 强化学习 旅行背包问题 演员-评论家算法 组合优化
在线阅读 下载PDF
基于状态-响应框架的有源配电网运行优化策略
13
作者 胡柳君 董红 +3 位作者 曾繁宏 张军 张勇军 高毓群 《南方电网技术》 北大核心 2025年第6期62-71,共10页
为提高配电网的运行效率和电压质量,结合深度强化学习和分布式广义快速对偶上升(SAC-GFD)算法,提出了一种基于状态-响应框架的优化策略。首先,利用软演员-评论家(soft actor-critic,SAC)算法将配电网运行优化问题建模为马尔可夫决策过程... 为提高配电网的运行效率和电压质量,结合深度强化学习和分布式广义快速对偶上升(SAC-GFD)算法,提出了一种基于状态-响应框架的优化策略。首先,利用软演员-评论家(soft actor-critic,SAC)算法将配电网运行优化问题建模为马尔可夫决策过程,智能体在含有可再生能源波动和负荷不确定性的环境中进行交互与探索,获得对不确定性环境具有鲁棒性控制策略。将配电网运行优化问题转化为马尔可夫决策过程,从而训练出能够快速输出配电网设备最优有功功率和无功功率的智能体。其次,计算当前配电网的潮流分布、节点电压状态以及有功功率和无功-电压灵敏度矩阵。然后,用户基于当前配电网状态,采用分布式方法计算自身负荷的最优调整值,确保配电网的安全运行。最后,在IEEE 33节点系统上的仿真结果表明,相较于传统的深度强化学习算法,所提算法能更有效地降低网络损耗和节点电压偏差,且具有更快的训练速度和更好的优化结果。 展开更多
关键词 状态-响应 深度强化学习 演员-评论家 广义快速对偶上升法 有源配电网
在线阅读 下载PDF
基于双智能体深度强化学习的交直流配电网经济调度方法 被引量:7
14
作者 赵倩宇 韩照洋 +3 位作者 王守相 尹孜阳 董逸超 钱广超 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2024年第6期624-632,共9页
随着大量直流电源和负荷的接入,交直流混合的配电网技术已成为未来配电网的发展趋势.然而,源荷不确定性及可调度设备的类型多样化给配电网调度带来了巨大的挑战.本文提出了基于分支决斗深度强化网络(branching dueling Q-network,BDQ)... 随着大量直流电源和负荷的接入,交直流混合的配电网技术已成为未来配电网的发展趋势.然而,源荷不确定性及可调度设备的类型多样化给配电网调度带来了巨大的挑战.本文提出了基于分支决斗深度强化网络(branching dueling Q-network,BDQ)和软演员-评论家(soft actor critic,SAC)双智能体深度强化学习的交直流配电网调度方法.该方法首先将经济调度问题与两智能体的动作、奖励、状态相结合,建立经济调度的马尔可夫决策过程,并分别基于BDQ和SAC方法设置两个智能体,其中,BDQ智能体用于控制配电网中离散动作设备,SAC智能体用于控制连续动作设备.然后,通过集中训练分散执行的方式,两智能体与环境进行交互,进行离线训练.最后,固定智能体的参数,进行在线调度.该方法的优势在于采用双智能体能够同时控制离散动作设备电容器组、载调压变压器和连续动作设备变流器、储能,同时通过对双智能体的集中训练,可以自适应源荷的不确定性.改进的IEEE33节点交直流配电网算例测试验证了所提方法的有效性. 展开更多
关键词 交直流配电网 深度强化学习 经济调度 分支决斗深度强化网络 演员-评论家
在线阅读 下载PDF
基于最大熵深度强化学习的双足机器人步态控制方法 被引量:3
15
作者 李源潮 陶重犇 王琛 《计算机应用》 CSCD 北大核心 2024年第2期445-451,共7页
针对双足机器人连续直线行走的步态稳定控制问题,提出一种基于最大熵深度强化学习(DRL)的柔性演员-评论家(SAC)步态控制方法。首先,该方法无需事先建立准确的机器人动力学模型,所有参数均来自关节角而无需额外的传感器;其次,采用余弦相... 针对双足机器人连续直线行走的步态稳定控制问题,提出一种基于最大熵深度强化学习(DRL)的柔性演员-评论家(SAC)步态控制方法。首先,该方法无需事先建立准确的机器人动力学模型,所有参数均来自关节角而无需额外的传感器;其次,采用余弦相似度方法对经验样本分类,优化经验回放机制;最后,根据知识和经验设计奖励函数,使双足机器人在直线行走训练过程中不断进行姿态调整,确保直线行走的鲁棒性。在Roboschool仿真环境中与其他先进深度强化学习算法,如近端策略优化(PPO)方法和信赖域策略优化(TRPO)方法的实验对比结果表明,所提方法不仅实现了双足机器人快速稳定的直线行走,而且鲁棒性更好。 展开更多
关键词 双足机器人 步态控制 深度强化学习 最大熵 柔性演员-评论家算法
在线阅读 下载PDF
考虑进站策略的网联电动公交车节能驾驶优化研究 被引量:1
16
作者 南斯睿 于谦 +2 位作者 李铁柱 尚赞娣 陈海波 《交通运输系统工程与信息》 北大核心 2025年第2期82-94,共13页
针对公交车在进出站和信号交叉口高能耗的问题,本文提出一种考虑进站策略的节能驾驶优化方法。首先,基于利用城市交通能力仿真(Simulation of Urban Mobility, SUMO)平台搭建智能网联场景,构建能够反映能耗、行驶效率和安全性的强化学... 针对公交车在进出站和信号交叉口高能耗的问题,本文提出一种考虑进站策略的节能驾驶优化方法。首先,基于利用城市交通能力仿真(Simulation of Urban Mobility, SUMO)平台搭建智能网联场景,构建能够反映能耗、行驶效率和安全性的强化学习复合奖励函数;其次,将进站策略和预设交通规则作为约束集成于柔性演员-评论家(Soft Actor-Critic, SAC)深度强化学习框架中,优化车辆进出站及接近信号交叉口的轨迹;最后,以实际行驶、基于深度Q网络(Deep Q-Network, DQN)算法常规、基于SAC算法、基于规则约束和DQN算法(DQN-ruled)的优化方法作为基准方案,与本文提出的基于规则约束和SAC算法(SAC-ruled)的优化方法进行对比。结果表明:通过SAC-ruled算法优化后的驾驶轨迹在多种场景下均优于基准方案。在跟驰运动中,与基准方案相比,所设计的节能驾驶优化方法较基准方案的车辆能耗最高减少35.97%,行驶时间提升21.67%;在换道运动中,车辆能耗最多可降低41.40%,行驶时间提升16.94%。此外,通过敏感性分析验证,本文提出的基于SAC-ruled算法的节能驾驶优化方法在应对车流量波动方面表现出更强的适应性。本文建立的节能驾驶优化模型可集成节能辅助驾驶系统,鼓励驾驶员主动节能。 展开更多
关键词 智能交通 节能驾驶优化 深度强化学习 纯电动公交 柔性演员-评论家算法
在线阅读 下载PDF
模块化自重构卫星智能变构规划
17
作者 贾晓冷 叶东 +1 位作者 王博 孙兆伟 《哈尔滨工业大学学报》 北大核心 2025年第4期1-9,共9页
为解决航天任务复杂化与传统定构型卫星设计之间的矛盾,航天机构着眼于研究具有灵活构型变化能力的模块化自重构卫星,其中变构规划是一个具有挑战性的研究领域。针对模块化卫星变构问题,以立方体晶格型卫星作为研究对象,基于图论提出了... 为解决航天任务复杂化与传统定构型卫星设计之间的矛盾,航天机构着眼于研究具有灵活构型变化能力的模块化自重构卫星,其中变构规划是一个具有挑战性的研究领域。针对模块化卫星变构问题,以立方体晶格型卫星作为研究对象,基于图论提出了描述卫星拓扑结构的构型矩阵和拓展矩阵。通过对卫星模块运动特点的研究,给出了求解模块运动可达空间的算法。将卫星的变构问题视为序列决策问题,基于深度强化学习理论,将变构过程建模为马尔可夫决策过程,设计了基于演员-评论家(actor-critic)模型的智能变构规划方法,建立多层神经网络以近似演员与评论家函数,通过训练神经网络,逐步改进卫星变构策略性能。仿真实验结果表明,所提出的变构方法对于给定的卫星算例,可以得到逐步改进的卫星变构策略,针对不同模块数的卫星构型具有通用性,同时相比于传统基于启发式搜索的变构方法,在变构步数、计算时间和变构成功率上具有优势,验证了所提出的智能规划方法在未来模块化卫星设计工作中具有潜在的价值。 展开更多
关键词 模块化自重构卫星 变构规划 深度强化学习 神经网络 演员-评论家模型
在线阅读 下载PDF
移动边缘计算辅助智能驾驶中基于高效联邦学习的碰撞预警算法 被引量:2
18
作者 唐伦 文明艳 +1 位作者 单贞贞 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2023年第7期2406-2414,共9页
智能驾驶中的碰撞避免任务存在对时延要求极高和隐私保护等挑战。首先,该文提出一种基于自适应调整参数的半异步联邦学习(SFLAAP)的门控循环单元联合支持向量机(GRU_SVM)碰撞多级预警算法,SFLAAP可根据训练和资源情况动态调整两个训练参... 智能驾驶中的碰撞避免任务存在对时延要求极高和隐私保护等挑战。首先,该文提出一种基于自适应调整参数的半异步联邦学习(SFLAAP)的门控循环单元联合支持向量机(GRU_SVM)碰撞多级预警算法,SFLAAP可根据训练和资源情况动态调整两个训练参数:本地训练次数和参与聚合的局部模型数量。然后,为解决资源受限的移动边缘计算(MEC)下碰撞预警模型协作训练的效率问题,根据上述参数与SFLAAP训练时延的关系,建立训练总时延最小化模型,并将其转化为马尔可夫决策过程(MDP)。最后,在所建立的MDP中采用异步优势演员-评论家(A3C)学习求解,自适应地确定最优训练参数,从而减少碰撞预警模型的训练完成时间。仿真结果表明,所提算法有效地降低训练总时延并保证预测精度。 展开更多
关键词 碰撞预警 联邦学习 移动边缘计算 异步优势演员-评论家算法
在线阅读 下载PDF
A3C深度强化学习模型压缩及知识抽取 被引量:2
19
作者 张晶 王子铭 任永功 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1373-1384,共12页
异步优势演员评论家(asynchronous advantage actor-critic,A3C)构建一主多从异步并行深度强化学习框架,其在最优策略探索中存在求解高方差问题,使主智能体难以保证全局最优参数更新及最佳策略学习.同时,利用百万计算资源构建的大规模... 异步优势演员评论家(asynchronous advantage actor-critic,A3C)构建一主多从异步并行深度强化学习框架,其在最优策略探索中存在求解高方差问题,使主智能体难以保证全局最优参数更新及最佳策略学习.同时,利用百万计算资源构建的大规模并行网络,难以部署低功耗近端平台.针对上述问题,提出紧凑异步优势演员评论家(Compact_A3C)模型,实现模型压缩及知识抽取.该模型冻结并评价A3C框架中所有子智能体学习效果,将评价结果转化为主智能体更新概率,保证全局最优策略获取,提升大规模网络资源利用率.进一步,模型将优化主智能体作为“教师网络”,监督小规模“学生网络”前期探索与策略引导,并构建线性衰减损失函数鼓励“学生网络”对复杂环境自由探索,强化自主学习能力,实现大规模A3C模型知识抽取及网络压缩.建立不同压缩比“学生网络”,在流行Gym Classic Control与Atari 2600环境中达到了与大规模“教师网络”一致的学习效果.模型代码公布在https://github.com/meadewaking/Compact_A3C. 展开更多
关键词 强化学习 深度强化学习 演员评论家模型 异步优势演员评论家模型 模型压缩
在线阅读 下载PDF
考虑综合需求响应的电-气-热综合能源系统低碳经济调度 被引量:6
20
作者 董健 王海鑫 +2 位作者 周夕然 高柳 杨俊友 《华北电力大学学报(自然科学版)》 CAS 北大核心 2023年第3期81-90,共10页
综合能源系统优化调度对提高能源利用效率与低碳运行起到关键作用。然而,由于综合能源系统存在多种能源耦合及源荷侧不确定性,传统调度方法难以准确适应系统源荷动态变化。针对该问题,采用基于深度强化学习的方法,主要通过数据驱动的方... 综合能源系统优化调度对提高能源利用效率与低碳运行起到关键作用。然而,由于综合能源系统存在多种能源耦合及源荷侧不确定性,传统调度方法难以准确适应系统源荷动态变化。针对该问题,采用基于深度强化学习的方法,主要通过数据驱动的方式解决了综合能源能源系统调度中的不确定性问题,同时可以准确适应系统源荷动态变化,实现快速求解。充分挖崛负荷侧灵活性,首先建立考虑综合需求响应的综合能源系统低碳经济调度模型。将含有多重不确定性的综合能源系统经济调度问题描述为马尔科夫决策过程(markov decision process,MDP),采用异步优势演员-评判家(asynchronous advantage actor-critic,A3C)方法进行求解。最后,实例仿真结果表明,相比于DQN和DDPG方法,综合能源系统的日平均运行成本分别降低了8.7%和5.2%。 展开更多
关键词 综合能源系统 综合需求响应 异步优势演员-评判家 低碳优化调度
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部