期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于异步优势演员-评论家学习的服务功能链资源分配算法 被引量:8
1
作者 唐伦 贺小雨 +3 位作者 王晓 谭颀 胡彦娟 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2021年第6期1733-1741,共9页
考虑网络全局信息难以获悉的实际情况,针对接入网切片场景下用户终端(UE)的移动性和数据包到达的动态性导致的资源分配优化问题,该文提出了一种基于异步优势演员-评论家(A3C)学习的服务功能链(SFC)资源分配算法。首先,该算法建立基于区... 考虑网络全局信息难以获悉的实际情况,针对接入网切片场景下用户终端(UE)的移动性和数据包到达的动态性导致的资源分配优化问题,该文提出了一种基于异步优势演员-评论家(A3C)学习的服务功能链(SFC)资源分配算法。首先,该算法建立基于区块链的资源管理机制,通过区块链技术实现可信地共享并更新网络全局信息,监督并记录SFC资源分配过程。然后,建立UE移动和数据包到达时变情况下的无线资源、计算资源和带宽资源联合分配的时延最小化模型,并进一步将其转化为马尔科夫决策过程(MDP)。最后,在所建立的MDP中采用A3C学习方法,实现资源分配策略的求解。仿真结果表明,该算法能够更加合理高效地利用资源,优化系统时延并保证UE需求。 展开更多
关键词 网络切片 服务功能链资源分配 马尔科夫决策过程 异步优势演员-评论家学习 区块链
在线阅读 下载PDF
基于柔性演员-评论家算法的决策规划协同研究 被引量:2
2
作者 唐斌 刘光耀 +3 位作者 江浩斌 田宁 米伟 王春宏 《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第2期105-113,187,共10页
为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与... 为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与基于规则的决策规划方法相结合设计自动驾驶决策规划协同智能体。结合自注意力机制(Self Attention Mechanism, SAM)和门控循环单元(Gate Recurrent Unit, GRU)构建预处理网络;根据规划模块的具体实现方式设计动作空间;运用信息反馈思想设计奖励函数,给智能体添加车辆行驶条件约束,并将轨迹信息传递给决策模块,实现决策规划的信息协同。在CARLA自动驾驶仿真平台中搭建交通场景对智能体进行训练,并在不同场景中将所提出的决策规划协同方法与常规的基于SAC算法的决策规划方法进行比较,结果表明,本文所设计的自动驾驶决策规划协同智能体学习速度提高了25.10%,由其决策结果生成的平均车速更高,车速变化率更小,更接近道路期望车速,路径长度与曲率变化率更小。 展开更多
关键词 智能交通 自动驾驶 柔性演员-评论家算法 决策规划协同 深度强化学习
在线阅读 下载PDF
基于迁移演员-评论家学习的服务功能链部署算法 被引量:6
3
作者 唐伦 贺小雨 +1 位作者 王晓 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2020年第11期2671-2679,共9页
针对5G网络切片环境下由于业务请求的随机性和未知性导致的资源分配不合理从而引起的系统高时延问题,该文提出了一种基于迁移演员-评论家(A-C)学习的服务功能链(SFC)部署算法(TACA)。首先,该算法建立基于虚拟网络功能放置、计算资源、... 针对5G网络切片环境下由于业务请求的随机性和未知性导致的资源分配不合理从而引起的系统高时延问题,该文提出了一种基于迁移演员-评论家(A-C)学习的服务功能链(SFC)部署算法(TACA)。首先,该算法建立基于虚拟网络功能放置、计算资源、链路带宽资源和前传网络资源联合分配的端到端时延最小化模型,并将其转化为离散时间马尔可夫决策过程(MDP)。而后,在该MDP中采用A-C学习算法与环境进行不断交互动态调整SFC部署策略,优化端到端时延。进一步,为了实现并加速该A-C算法在其他相似目标任务中(如业务请求到达率普遍更高)的收敛过程,采用迁移A-C学习算法实现利用源任务学习的SFC部署知识快速寻找目标任务中的部署策略。仿真结果表明,该文所提算法能够减小且稳定SFC业务数据包的队列积压,优化系统端到端时延,并提高资源利用率。 展开更多
关键词 网络切片 服务功能链部署 马尔可夫决策过程 演员-评论家学习 迁移学习
在线阅读 下载PDF
基于多智能体柔性演员-评论家学习的服务功能链部署算法 被引量:2
4
作者 唐伦 李师锐 +1 位作者 杜雨聪 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2023年第8期2893-2901,共9页
针对网络功能虚拟化(NFV)架构下业务请求动态变化引起的服务功能链(SFC)部署优化问题,该文提出一种基于多智能体柔性演员-评论家(MASAC)学习的SFC部署优化算法。首先,建立资源负载惩罚、SFC部署成本和时延成本最小化的模型,同时受限于SF... 针对网络功能虚拟化(NFV)架构下业务请求动态变化引起的服务功能链(SFC)部署优化问题,该文提出一种基于多智能体柔性演员-评论家(MASAC)学习的SFC部署优化算法。首先,建立资源负载惩罚、SFC部署成本和时延成本最小化的模型,同时受限于SFC端到端时延和网络资源预留阈值约束。其次,将随机优化问题转化为马尔可夫决策过程(MDP),实现SFC动态部署和资源的均衡调度,还进一步提出基于业务分工的多决策者编排方案。最后,在分布式多智能体系统中采用柔性演员-评论家(SAC)算法以增强探索能力,并引入了中央注意力机制和优势函数,能够动态和有选择性地关注获取更大部署回报的信息。仿真结果表明,所提算法可以实现负载惩罚、时延和部署成本的优化,并随业务请求量的增加能更好地扩展。 展开更多
关键词 网络功能虚拟化 服务功能链 柔性演员-评论家学习 多智能体强化学习
在线阅读 下载PDF
基于优势演员-评论家算法的危险货物集装箱堆场安全堆存空间分配
5
作者 沈阳 黄诚 宓为建 《上海海事大学学报》 北大核心 2022年第3期13-20,61,共9页
针对危险货物集装箱(简称危货箱)堆场堆存空间分配的安全性问题,通过分析危货箱堆存的风险因素及安全堆存规范,提出一种以安全堆存空间利用率和安全指数最大为目标的危货箱堆场安全堆存空间分配多目标优化模型。设计优势演员-评论家(adv... 针对危险货物集装箱(简称危货箱)堆场堆存空间分配的安全性问题,通过分析危货箱堆存的风险因素及安全堆存规范,提出一种以安全堆存空间利用率和安全指数最大为目标的危货箱堆场安全堆存空间分配多目标优化模型。设计优势演员-评论家(advantage actor-critic,A2C)算法对模型进行求解,并通过算例分析和对比验证方法的有效性及优越性。结果表明,该方法能够获得在降低作业风险和提高事故应急处置能力条件下的危货箱堆场最优堆存空间分配策略,从而提高危货箱堆存安全性和堆场利用率。 展开更多
关键词 危险货物集装箱 安全堆存空间分配 多目标优化 优势演员-评论家算法
在线阅读 下载PDF
基于柔性演员-评论家算法的自适应巡航控制研究 被引量:4
6
作者 赵克刚 石翠铎 +2 位作者 梁志豪 李梓棋 王玉龙 《汽车技术》 CSCD 北大核心 2023年第3期26-34,共9页
针对目前自适应巡航控制技术中,深度强化学习的控制算法环境适应能力不足、模型迁移性及泛化能力较差的问题,提出一种基于最大熵原理和随机离线策略的柔性演员-评论家(SAC)控制算法。构建演员和评论家网络拟合动作值函数和动作策略函数... 针对目前自适应巡航控制技术中,深度强化学习的控制算法环境适应能力不足、模型迁移性及泛化能力较差的问题,提出一种基于最大熵原理和随机离线策略的柔性演员-评论家(SAC)控制算法。构建演员和评论家网络拟合动作值函数和动作策略函数,并使用自调节温度系数改善智能体的环境探索能力;针对奖励稀疏问题,运用奖励塑造思想设计奖励函数;此外,提出一种新的经验回放机制以提高样本利用率。将所提出的控制算法在不同场景中进行仿真及实车验证,并与深度确定性策略梯度(DDPG)算法进行比较,结果表明,该算法具有更好的模型泛化能力和实车迁移效果。 展开更多
关键词 自适应巡航控制 柔性演员-评论家 可迁移性 深度强化学习
在线阅读 下载PDF
深度强化学习驱动下的智能电网通信网业务路由分配方法研究
7
作者 胡楠 张维 《通信电源技术》 2024年第10期43-45,共3页
在现代化背景下,为确保电力系统的稳定运行,相关人员需要结合实际情况逐步推进智能电网的构建。智能电网以各项数据的获取、处理、保护为核心,建立了集成通信系统。文章针对深度强化学习驱动下的智能电网通信网业务路由分配方法展开分析... 在现代化背景下,为确保电力系统的稳定运行,相关人员需要结合实际情况逐步推进智能电网的构建。智能电网以各项数据的获取、处理、保护为核心,建立了集成通信系统。文章针对深度强化学习驱动下的智能电网通信网业务路由分配方法展开分析,以提高通信资源利用率,提升业务路由方法的稳定性和可靠性。 展开更多
关键词 智能电网 通信网 深度Q网络(DQN)算法 异步优势演员-评论家(A3C)算法 深度学习
在线阅读 下载PDF
模块化自重构卫星智能变构规划
8
作者 贾晓冷 叶东 +1 位作者 王博 孙兆伟 《哈尔滨工业大学学报》 北大核心 2025年第4期1-9,共9页
为解决航天任务复杂化与传统定构型卫星设计之间的矛盾,航天机构着眼于研究具有灵活构型变化能力的模块化自重构卫星,其中变构规划是一个具有挑战性的研究领域。针对模块化卫星变构问题,以立方体晶格型卫星作为研究对象,基于图论提出了... 为解决航天任务复杂化与传统定构型卫星设计之间的矛盾,航天机构着眼于研究具有灵活构型变化能力的模块化自重构卫星,其中变构规划是一个具有挑战性的研究领域。针对模块化卫星变构问题,以立方体晶格型卫星作为研究对象,基于图论提出了描述卫星拓扑结构的构型矩阵和拓展矩阵。通过对卫星模块运动特点的研究,给出了求解模块运动可达空间的算法。将卫星的变构问题视为序列决策问题,基于深度强化学习理论,将变构过程建模为马尔可夫决策过程,设计了基于演员-评论家(actor-critic)模型的智能变构规划方法,建立多层神经网络以近似演员与评论家函数,通过训练神经网络,逐步改进卫星变构策略性能。仿真实验结果表明,所提出的变构方法对于给定的卫星算例,可以得到逐步改进的卫星变构策略,针对不同模块数的卫星构型具有通用性,同时相比于传统基于启发式搜索的变构方法,在变构步数、计算时间和变构成功率上具有优势,验证了所提出的智能规划方法在未来模块化卫星设计工作中具有潜在的价值。 展开更多
关键词 模块化自重构卫星 变构规划 深度强化学习 神经网络 演员-评论家模型
在线阅读 下载PDF
移动边缘计算辅助智能驾驶中基于高效联邦学习的碰撞预警算法 被引量:2
9
作者 唐伦 文明艳 +1 位作者 单贞贞 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2023年第7期2406-2414,共9页
智能驾驶中的碰撞避免任务存在对时延要求极高和隐私保护等挑战。首先,该文提出一种基于自适应调整参数的半异步联邦学习(SFLAAP)的门控循环单元联合支持向量机(GRU_SVM)碰撞多级预警算法,SFLAAP可根据训练和资源情况动态调整两个训练参... 智能驾驶中的碰撞避免任务存在对时延要求极高和隐私保护等挑战。首先,该文提出一种基于自适应调整参数的半异步联邦学习(SFLAAP)的门控循环单元联合支持向量机(GRU_SVM)碰撞多级预警算法,SFLAAP可根据训练和资源情况动态调整两个训练参数:本地训练次数和参与聚合的局部模型数量。然后,为解决资源受限的移动边缘计算(MEC)下碰撞预警模型协作训练的效率问题,根据上述参数与SFLAAP训练时延的关系,建立训练总时延最小化模型,并将其转化为马尔可夫决策过程(MDP)。最后,在所建立的MDP中采用异步优势演员-评论家(A3C)学习求解,自适应地确定最优训练参数,从而减少碰撞预警模型的训练完成时间。仿真结果表明,所提算法有效地降低训练总时延并保证预测精度。 展开更多
关键词 碰撞预警 联邦学习 移动边缘计算 异步优势演员-评论家算法
在线阅读 下载PDF
基于强化学习的802.11ax上行链路调度算法 被引量:4
10
作者 黄新林 郑人华 《电子与信息学报》 EI CSCD 北大核心 2022年第5期1800-1808,共9页
随着物联网(IoT)时代的到来,无线网络饱和的问题已经越来越严重。为了克服终端密集接入问题,IEEE标准协会(IEEE-SA)制定了无线局域网的最新标准—IEEE 802.11ax。该标准使用正交频分多址(OFDMA)技术对无线信道资源进行了更细致的划分,... 随着物联网(IoT)时代的到来,无线网络饱和的问题已经越来越严重。为了克服终端密集接入问题,IEEE标准协会(IEEE-SA)制定了无线局域网的最新标准—IEEE 802.11ax。该标准使用正交频分多址(OFDMA)技术对无线信道资源进行了更细致的划分,划分出的子信道被称为资源单元(RU)。为解决密集用户环境下802.11ax上行链路的信道资源调度问题,该文提出一种基于强化学习的RU调度算法。该算法使用演员-评论家(Actor-Critic)算法训练指针网络,解决了自适应RU调度问题,最终合理分配RU资源给各用户,兼具优先级和公平性的保障。仿真结果表明,该调度算法在IEEE 802.11ax上行链路中比传统的调度方式更有效,具有较强的泛化能力,适合应用在密集用户环境下的物联网场景中。 展开更多
关键词 物联网 IEEE 802.11ax 强化学习 上行链路 演员-评论家
在线阅读 下载PDF
雾无线接入网中面向时延的协作缓存策略
11
作者 江帆 韩少江 +1 位作者 刘磊 陈艺洋 《西安邮电大学学报》 2023年第2期1-9,共9页
为了改善雾无线接入网(Fog-Radio Access Networks,F-RANs)中多个边缘节点之间的协作缓存问题,提出基于异步优势演员评论家(Asynchronous Advantage Actor-Critic,A3C)算法的协作缓存策略。该策略根据用户的历史请求信息学习用户偏好模... 为了改善雾无线接入网(Fog-Radio Access Networks,F-RANs)中多个边缘节点之间的协作缓存问题,提出基于异步优势演员评论家(Asynchronous Advantage Actor-Critic,A3C)算法的协作缓存策略。该策略根据用户的历史请求信息学习用户偏好模型,并利用区域用户的偏好模型预测每个雾接入节点(Fog-Access Point,F-AP)服务区域内的局部内容流行度。为了提高边缘节点存储空间的利用率,考虑F-AP以及用户设备(User Equipment,UE)间的协作缓存,以最小化用户获取请求内容的平均下载时延为目标,根据获得的内容流行度分布,优化热门内容的缓存位置。将所提策略与参考策略、贪婪缓存策略和随机缓存策略等3种策略相比,仿真结果表明,所提策略能够实现更低的平均内容下载时延。 展开更多
关键词 雾无线接入网 协作缓存 异步优势演员评论家算法 平均下载时延
在线阅读 下载PDF
考虑进站策略的网联电动公交车节能驾驶优化研究
12
作者 南斯睿 于谦 +2 位作者 李铁柱 尚赞娣 陈海波 《交通运输系统工程与信息》 2025年第2期82-94,共13页
针对公交车在进出站和信号交叉口高能耗的问题,本文提出一种考虑进站策略的节能驾驶优化方法。首先,基于利用城市交通能力仿真(Simulation of Urban Mobility, SUMO)平台搭建智能网联场景,构建能够反映能耗、行驶效率和安全性的强化学... 针对公交车在进出站和信号交叉口高能耗的问题,本文提出一种考虑进站策略的节能驾驶优化方法。首先,基于利用城市交通能力仿真(Simulation of Urban Mobility, SUMO)平台搭建智能网联场景,构建能够反映能耗、行驶效率和安全性的强化学习复合奖励函数;其次,将进站策略和预设交通规则作为约束集成于柔性演员-评论家(Soft Actor-Critic, SAC)深度强化学习框架中,优化车辆进出站及接近信号交叉口的轨迹;最后,以实际行驶、基于深度Q网络(Deep Q-Network, DQN)算法常规、基于SAC算法、基于规则约束和DQN算法(DQN-ruled)的优化方法作为基准方案,与本文提出的基于规则约束和SAC算法(SAC-ruled)的优化方法进行对比。结果表明:通过SAC-ruled算法优化后的驾驶轨迹在多种场景下均优于基准方案。在跟驰运动中,与基准方案相比,所设计的节能驾驶优化方法较基准方案的车辆能耗最高减少35.97%,行驶时间提升21.67%;在换道运动中,车辆能耗最多可降低41.40%,行驶时间提升16.94%。此外,通过敏感性分析验证,本文提出的基于SAC-ruled算法的节能驾驶优化方法在应对车流量波动方面表现出更强的适应性。本文建立的节能驾驶优化模型可集成节能辅助驾驶系统,鼓励驾驶员主动节能。 展开更多
关键词 智能交通 节能驾驶优化 深度强化学习 纯电动公交 柔性演员-评论家算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部