期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于异步优势演员-评论家学习的服务功能链资源分配算法 被引量:8
1
作者 唐伦 贺小雨 +3 位作者 王晓 谭颀 胡彦娟 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2021年第6期1733-1741,共9页
考虑网络全局信息难以获悉的实际情况,针对接入网切片场景下用户终端(UE)的移动性和数据包到达的动态性导致的资源分配优化问题,该文提出了一种基于异步优势演员-评论家(A3C)学习的服务功能链(SFC)资源分配算法。首先,该算法建立基于区... 考虑网络全局信息难以获悉的实际情况,针对接入网切片场景下用户终端(UE)的移动性和数据包到达的动态性导致的资源分配优化问题,该文提出了一种基于异步优势演员-评论家(A3C)学习的服务功能链(SFC)资源分配算法。首先,该算法建立基于区块链的资源管理机制,通过区块链技术实现可信地共享并更新网络全局信息,监督并记录SFC资源分配过程。然后,建立UE移动和数据包到达时变情况下的无线资源、计算资源和带宽资源联合分配的时延最小化模型,并进一步将其转化为马尔科夫决策过程(MDP)。最后,在所建立的MDP中采用A3C学习方法,实现资源分配策略的求解。仿真结果表明,该算法能够更加合理高效地利用资源,优化系统时延并保证UE需求。 展开更多
关键词 网络切片 服务功能链资源分配 马尔科夫决策过程 异步优势演员-评论学习 区块链
在线阅读 下载PDF
基于Multi-Agent异步深度强化学习的居民住宅能耗在线优化调度研究 被引量:30
2
作者 张虹 申鑫 +2 位作者 穆昊源 刘艾冬 王鹤 《中国电机工程学报》 EI CSCD 北大核心 2020年第1期117-127,共11页
为促进居民用户柔性负荷高效参与需求响应,帮助用户从被动角色转变为主动角色,实现需求侧最大效益。该文在智能电网环境下,根据用电设备的特性,以概率论的角度对家电设备状态进行描述定义,基于异步深度强化学习(asynchronous deep reinf... 为促进居民用户柔性负荷高效参与需求响应,帮助用户从被动角色转变为主动角色,实现需求侧最大效益。该文在智能电网环境下,根据用电设备的特性,以概率论的角度对家电设备状态进行描述定义,基于异步深度强化学习(asynchronous deep reinforcement learning,ADRL)进行家庭能源管理系统调度的在线优化。学习过程采用异步优势演员–评判家(asynchronous advantage actor-critic,A3C)方法,联合用户历史用电设备运行状态的概率分布,通过多智能体利用CPU多线程功能同时执行多个动作的决策。该方法在包括光伏发电、电动汽车和居民住宅电器设备信息的某高维数据库上进行仿真验证。最后通过不同住宅情境下的优化决策效果对比分析可知,所提在线能耗调度策略可用于向电力用户提供实时反馈,以实现用户用电经济性目标。 展开更多
关键词 异步优势演员-评判家 需求响应 概率分布 在线优化 多智能体 多动作决策
在线阅读 下载PDF
考虑综合需求响应的电-气-热综合能源系统低碳经济调度 被引量:6
3
作者 董健 王海鑫 +2 位作者 周夕然 高柳 杨俊友 《华北电力大学学报(自然科学版)》 CAS 北大核心 2023年第3期81-90,共10页
综合能源系统优化调度对提高能源利用效率与低碳运行起到关键作用。然而,由于综合能源系统存在多种能源耦合及源荷侧不确定性,传统调度方法难以准确适应系统源荷动态变化。针对该问题,采用基于深度强化学习的方法,主要通过数据驱动的方... 综合能源系统优化调度对提高能源利用效率与低碳运行起到关键作用。然而,由于综合能源系统存在多种能源耦合及源荷侧不确定性,传统调度方法难以准确适应系统源荷动态变化。针对该问题,采用基于深度强化学习的方法,主要通过数据驱动的方式解决了综合能源能源系统调度中的不确定性问题,同时可以准确适应系统源荷动态变化,实现快速求解。充分挖崛负荷侧灵活性,首先建立考虑综合需求响应的综合能源系统低碳经济调度模型。将含有多重不确定性的综合能源系统经济调度问题描述为马尔科夫决策过程(markov decision process,MDP),采用异步优势演员-评判家(asynchronous advantage actor-critic,A3C)方法进行求解。最后,实例仿真结果表明,相比于DQN和DDPG方法,综合能源系统的日平均运行成本分别降低了8.7%和5.2%。 展开更多
关键词 综合能源系统 综合需求响应 异步优势演员-评判家 低碳优化调度
在线阅读 下载PDF
移动边缘计算辅助智能驾驶中基于高效联邦学习的碰撞预警算法 被引量:2
4
作者 唐伦 文明艳 +1 位作者 单贞贞 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2023年第7期2406-2414,共9页
智能驾驶中的碰撞避免任务存在对时延要求极高和隐私保护等挑战。首先,该文提出一种基于自适应调整参数的半异步联邦学习(SFLAAP)的门控循环单元联合支持向量机(GRU_SVM)碰撞多级预警算法,SFLAAP可根据训练和资源情况动态调整两个训练参... 智能驾驶中的碰撞避免任务存在对时延要求极高和隐私保护等挑战。首先,该文提出一种基于自适应调整参数的半异步联邦学习(SFLAAP)的门控循环单元联合支持向量机(GRU_SVM)碰撞多级预警算法,SFLAAP可根据训练和资源情况动态调整两个训练参数:本地训练次数和参与聚合的局部模型数量。然后,为解决资源受限的移动边缘计算(MEC)下碰撞预警模型协作训练的效率问题,根据上述参数与SFLAAP训练时延的关系,建立训练总时延最小化模型,并将其转化为马尔可夫决策过程(MDP)。最后,在所建立的MDP中采用异步优势演员-评论家(A3C)学习求解,自适应地确定最优训练参数,从而减少碰撞预警模型的训练完成时间。仿真结果表明,所提算法有效地降低训练总时延并保证预测精度。 展开更多
关键词 碰撞预警 联邦学习 移动边缘计算 异步优势演员-评论算法
在线阅读 下载PDF
基于A3C的特征重构工艺路线规划方法 被引量:1
5
作者 陶鑫钰 王艳 纪志成 《现代制造工程》 CSCD 北大核心 2023年第10期15-26,共12页
针对柔性加工系统中零件发生特征重构的工艺路线规划问题,结合异步优势演员-评论家(A3C)算法的并行、异步、响应速度快以及决策经验可复用性、可扩展性的特点,提出了基于A3C算法的特征重构工艺路线规划方法。在零件发生特征重构的背景下... 针对柔性加工系统中零件发生特征重构的工艺路线规划问题,结合异步优势演员-评论家(A3C)算法的并行、异步、响应速度快以及决策经验可复用性、可扩展性的特点,提出了基于A3C算法的特征重构工艺路线规划方法。在零件发生特征重构的背景下,基于马尔可夫决策过程定义了状态、动作空间和奖励函数。针对A3C智能体在选取机床、刀具和进刀方向时可能会陷入局部最优,提出了随机贪婪策略,以扩大解的空间、提高解的质量,且为了避免A3C智能体在零件发生特征重构时陷入大量的试错中,提出了快失败策略,以加快智能体规避特征约束的能力,提高响应速度。仿真实验证明,所提方法能有效解决零件发生特征重构的工艺路线规划问题,且相比基于遗传、蚁群和模拟退火算法的工艺路线规划方法,所提方法在零件发生特征重构时响应速度更快,解的质量更高。 展开更多
关键词 异步优势演员-评论 特征重构 工艺路线 深度强化学习 马尔可夫决策过程
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部