期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
稳定且受限的新强化学习SAC算法
1
作者 海日 张兴亮 +1 位作者 姜源 杨永健 《吉林大学学报(信息科学版)》 CAS 2024年第2期318-325,共8页
为解决由于固定温度SAC(Soft Actor Critic)算法中存在的Q函数高估可能会导致算法陷入局部最优的问题,通过深入分析提出了一个稳定且受限的SAC算法(SCSAC:Stable Constrained Soft Actor Critic)。该算法通过改进最大熵目标函数修复固... 为解决由于固定温度SAC(Soft Actor Critic)算法中存在的Q函数高估可能会导致算法陷入局部最优的问题,通过深入分析提出了一个稳定且受限的SAC算法(SCSAC:Stable Constrained Soft Actor Critic)。该算法通过改进最大熵目标函数修复固定温度SAC算法中的Q函数高估问题,同时增强算法在测试过程中稳定性的效果。最后,在4个OpenAI Gym Mujoco环境下对SCSAC算法进行了验证,实验结果表明,稳定且受限的SAC算法相比固定温度SAC算法可以有效减小Q函数高估出现的次数并能在测试中获得更加稳定的结果。 展开更多
关键词 强化学习 最大熵强化学习 Q值高估 sac算法
在线阅读 下载PDF
基于CQL-SAC的自动驾驶防撞决策方法
2
作者 刘玉辉 于镝 《北京信息科技大学学报(自然科学版)》 2024年第3期16-24,共9页
针对深度强化学习在自动驾驶任务中存在价值函数过估计、学习效率低、安全性差等问题,提出了一种自动驾驶防撞决策方法。首先,将保守Q学习(conservative Q-learning, CQL)算法与软行动评论(soft actor-critic, SAC)算法融合,提出CQL-SA... 针对深度强化学习在自动驾驶任务中存在价值函数过估计、学习效率低、安全性差等问题,提出了一种自动驾驶防撞决策方法。首先,将保守Q学习(conservative Q-learning, CQL)算法与软行动评论(soft actor-critic, SAC)算法融合,提出CQL-SAC算法,以缓解价值过估计问题。然后,在算法训练过程中引入专家经验,实现算法快速收敛,以解决学习效率低的问题。最后,利用防撞模块对CQL-SAC算法输出的动作进行安全检查和矫正,避免车辆碰撞。在基于高速公路的仿真场景下对方法有效性进行验证。仿真结果表明,在训练阶段,CQL-SAC算法相比SAC算法和样本内行动评论(in-sample actor-critic, InAC)算法收敛速度分别提升12.5%、5.4%,引入专家经验后算法收敛速度进一步提升14.3%;在测试阶段,本文算法与SAC和InAC算法相比,成功率分别提升17、12百分点,平均回合奖励分别提升23.1%、10.7%。 展开更多
关键词 智慧交通 自动驾驶决策 保守Q学习算法 软行动评论算法 专家经验 防撞策略
在线阅读 下载PDF
LoRa网络中基于深度强化学习的信息年龄优化
3
作者 程克非 陈彩蝶 +1 位作者 罗佳 陈前斌 《电子与信息学报》 北大核心 2025年第2期541-550,共10页
信息年龄(AoI)是信息新鲜度的衡量指标,针对时间敏感的物联网,最小化AoI显得尤为重要。该文基于LoRa网络的智能交通环境,分析Slot-Aloha协议下的AoI优化策略,建立了Slot-Aloha协议下数据包之间传输碰撞和等待时间的系统模型。通过分析指... 信息年龄(AoI)是信息新鲜度的衡量指标,针对时间敏感的物联网,最小化AoI显得尤为重要。该文基于LoRa网络的智能交通环境,分析Slot-Aloha协议下的AoI优化策略,建立了Slot-Aloha协议下数据包之间传输碰撞和等待时间的系统模型。通过分析指出,在LoRa上行传输过程中,随着数据包数量增多,AoI主要受到数据包碰撞影响。为克服优化问题中动作空间过大导致难以实现有效求解的问题,该文采用连续动作空间映射离散动作空间的方式,使用柔性动作-评价(SAC)算法对LoRa网络下的AoI进行优化。仿真结果显示,SAC算法优于传统算法与传统深度强化学习算法,可有效降低网络的平均AoI。 展开更多
关键词 信息年龄 LoRa 柔性动作-评价算法 深度强化学习 优化策略
在线阅读 下载PDF
基于最近双经验SAC算法的无人分队控制研究 被引量:1
4
作者 李海川 阳周明 +2 位作者 王洋 崔新悦 王娜 《火力与指挥控制》 CSCD 北大核心 2023年第6期70-75,83,共7页
针对无人分队控制,如何进行行为决策以更好地完成任务,是当前无人驾驶的一个研究热点。基于SAC算法,提出最近双经验回放SAC算法模型。该模型主要从两方面入手:1)使用最近经验采样代替随机采样;2)使用双经验池代替单经验池。实验结果表明... 针对无人分队控制,如何进行行为决策以更好地完成任务,是当前无人驾驶的一个研究热点。基于SAC算法,提出最近双经验回放SAC算法模型。该模型主要从两方面入手:1)使用最近经验采样代替随机采样;2)使用双经验池代替单经验池。实验结果表明,改进后的SAC算法相比传统SAC算法,提升了学习效率与稳定性,降低了策略网络误差,使无人分队能有更高的任务成功率。 展开更多
关键词 深度强化学习 sac算法 最近双经验池回放 无人分队行为决策
在线阅读 下载PDF
基于计算重用的无人机辅助边缘计算系统能耗优化 被引量:2
5
作者 李斌 蔡海晨 +1 位作者 赵传信 王俊义 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第7期2740-2747,共8页
针对复杂地形下时延敏感任务对终端用户的计算需求激增问题,该文提出一种无人机(UAV)辅助的移动边缘计算可重用任务的协同计算卸载方案。首先,通过联合优化用户卸载策略、用户传输功率、无人机上服务器分配、用户设备的计算频率和无人... 针对复杂地形下时延敏感任务对终端用户的计算需求激增问题,该文提出一种无人机(UAV)辅助的移动边缘计算可重用任务的协同计算卸载方案。首先,通过联合优化用户卸载策略、用户传输功率、无人机上服务器分配、用户设备的计算频率和无人机服务器的计算频率以及无人机的飞行轨迹,构建满足时延约束下最小化系统平均总能耗的系统模型。其次,通过深度强化学习求解该优化问题,并提出了基于柔性动作-评价(SAC)的优化算法。该算法采用最大熵的策略来鼓励探索,以增强算法的探索能力并加快训练的收敛速度。仿真结果表明,基于SAC的算法能有效降低系统的平均总能耗,并具有较好的收敛性。 展开更多
关键词 无人机 移动边缘计算 计算重用 资源分配 柔性动作-评价算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部