期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
多步积累奖励的双重时序Q网络算法
被引量:
2
1
作者
朱威
谯先锋
+1 位作者
陈艺楷
何德峰
《控制理论与应用》
EI
CAS
CSCD
北大核心
2022年第2期222-230,共9页
车辆行驶控制决策是无人驾驶的核心技术,现有基于深度强化学习的无人驾驶控制决策算法存在处理数据效率低、无法有效提取状态间时序特征等问题.因此本文提出了一种基于多步积累奖励的双重时序Q网络算法.首先,设计了一种多步积累奖励方法...
车辆行驶控制决策是无人驾驶的核心技术,现有基于深度强化学习的无人驾驶控制决策算法存在处理数据效率低、无法有效提取状态间时序特征等问题.因此本文提出了一种基于多步积累奖励的双重时序Q网络算法.首先,设计了一种多步积累奖励方法,该方法对未来多步即时奖励的累加和进行均值化,与当前即时奖励共同作用于智能体的控制策略,并在奖励函数中突出当前即时奖励的主导影响.接着设计了一种长短期记忆网络和卷积神经网络相结合的时序网络结构,增强智能体对数据间时序特征的捕获能力.实验结果验证了时序网络和多步积累奖励方法有助于提升智能体收敛速度,其中DQN, DDQN使用时序网络后,收敛速度分别提升了21.9%, 26.8%;本文算法在Carla仿真平台典型的Town01, Town02场景中的控制得分比DDQN, TD3算法分别高了36.1%, 24.6%,以及在复杂的Town03场景中针对不同线路表现出了更好的泛化性能.这些结果都表明本文算法能够有效的提升数据利用效率,并具备良好的控制能力和泛化能力.
展开更多
关键词
深度强化学习
无人车
多步积累奖励
时序网络
数据利用率
在线阅读
下载PDF
职称材料
题名
多步积累奖励的双重时序Q网络算法
被引量:
2
1
作者
朱威
谯先锋
陈艺楷
何德峰
机构
浙江工业大学信息工程学院
出处
《控制理论与应用》
EI
CAS
CSCD
北大核心
2022年第2期222-230,共9页
基金
浙江省自然科学基金项目(LY21F010009)
国家自然科学基金项目(61773345)
汽车仿真与控制国家重点实验室开放基金项目(20171103)资助。
文摘
车辆行驶控制决策是无人驾驶的核心技术,现有基于深度强化学习的无人驾驶控制决策算法存在处理数据效率低、无法有效提取状态间时序特征等问题.因此本文提出了一种基于多步积累奖励的双重时序Q网络算法.首先,设计了一种多步积累奖励方法,该方法对未来多步即时奖励的累加和进行均值化,与当前即时奖励共同作用于智能体的控制策略,并在奖励函数中突出当前即时奖励的主导影响.接着设计了一种长短期记忆网络和卷积神经网络相结合的时序网络结构,增强智能体对数据间时序特征的捕获能力.实验结果验证了时序网络和多步积累奖励方法有助于提升智能体收敛速度,其中DQN, DDQN使用时序网络后,收敛速度分别提升了21.9%, 26.8%;本文算法在Carla仿真平台典型的Town01, Town02场景中的控制得分比DDQN, TD3算法分别高了36.1%, 24.6%,以及在复杂的Town03场景中针对不同线路表现出了更好的泛化性能.这些结果都表明本文算法能够有效的提升数据利用效率,并具备良好的控制能力和泛化能力.
关键词
深度强化学习
无人车
多步积累奖励
时序网络
数据利用率
Keywords
deep reinforcement learning
unmanned vehicles
multi-step reward
time-series network
data utilization
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
U463.6 [机械工程—车辆工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
多步积累奖励的双重时序Q网络算法
朱威
谯先锋
陈艺楷
何德峰
《控制理论与应用》
EI
CAS
CSCD
北大核心
2022
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部