期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于深度强化学习PPO的车辆智能控制方法
1
作者
叶宝林
王欣
+1 位作者
李灵犀
吴维敏
《计算机工程》
北大核心
2025年第7期385-396,共12页
为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制...
为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制策略,下层PID控制器负责执行控制策略。其次为了提升车辆的行驶效率,通过定义优势距离对观测到的环境状态矩阵进行数据筛选,帮助自主车辆选择具有更长优势距离的车道进行变道。基于定义的优势距离提出一种新的状态采集方法以减少数据处理量,加快深度强化学习模型的收敛速度。另外,为了兼顾车辆的安全性、行驶效率和稳定性,设计一个多目标奖励函数。最后在基于Gym搭建的车辆强化学习任务仿真环境Highway_env中进行测试,对所提方法在不同目标速度下的表现进行分析和讨论。仿真测试结果表明,相比深度Q网络(DQN)方法,所提方法具有更快的收敛速度,且在两种不同目标速度下均能使车辆安全平稳地完成驾驶任务。
展开更多
关键词
近端策略优化
车辆控制
分层控制框架
多目标奖励函数
深度Q网络
在线阅读
下载PDF
职称材料
基于深度强化学习的车辆自主避撞决策控制模型
被引量:
8
2
作者
李文礼
张友松
+2 位作者
韩迪
钱洪
石晓辉
《汽车安全与节能学报》
CAS
CSCD
北大核心
2021年第2期201-209,共9页
为提高车辆对行驶环境的自我学习和决策能力,提出了一种基于深度确定性策略梯度(DDPG)的车辆自主避撞决策控制模型。基于Markov决策过程的强化学习理论和车辆纵向运动学特性,设计了决策所需目标对象及自车信息的状态空间和自车减速度的...
为提高车辆对行驶环境的自我学习和决策能力,提出了一种基于深度确定性策略梯度(DDPG)的车辆自主避撞决策控制模型。基于Markov决策过程的强化学习理论和车辆纵向运动学特性,设计了决策所需目标对象及自车信息的状态空间和自车减速度的动作空间,以安全性、舒适性和效率因素为多目标奖励函数的端到端的车辆自主避撞决策模型。利用Matlab/Simulink构建的DDPG算法与交通环境的交互模型,通过了前车静止(CCRs)和前车制动(CCRb)场景测试。结果表明:本决策算法具有很好的收敛性,引入加速度和冲击度的极限值,在实现车辆有效避撞的同时,兼顾乘坐舒适性,且性能优于模糊控制。
展开更多
关键词
车辆安全
自主避撞
深度确定性策略梯度(DDPG)
控制模型
多目标奖励函数
在线阅读
下载PDF
职称材料
题名
基于深度强化学习PPO的车辆智能控制方法
1
作者
叶宝林
王欣
李灵犀
吴维敏
机构
浙江理工大学信息科学与工程学院
嘉兴大学信息科学与工程学院
印第安纳大学-普渡大学印第安纳波利斯分校电子与计算机工程系
浙江大学智能系统与控制研究所
出处
《计算机工程》
北大核心
2025年第7期385-396,共12页
基金
嘉兴市应用性基础研究项目(2023AY11034)
浙江省自然科学基金(LTGS23F030002)
+2 种基金
浙江省“尖兵”“领雁”研发攻关计划项目(2023C01174)
国家自然科学基金(61603154)
工业控制技术国家重点实验室开放课题(ICT2022B52)。
文摘
为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制策略,下层PID控制器负责执行控制策略。其次为了提升车辆的行驶效率,通过定义优势距离对观测到的环境状态矩阵进行数据筛选,帮助自主车辆选择具有更长优势距离的车道进行变道。基于定义的优势距离提出一种新的状态采集方法以减少数据处理量,加快深度强化学习模型的收敛速度。另外,为了兼顾车辆的安全性、行驶效率和稳定性,设计一个多目标奖励函数。最后在基于Gym搭建的车辆强化学习任务仿真环境Highway_env中进行测试,对所提方法在不同目标速度下的表现进行分析和讨论。仿真测试结果表明,相比深度Q网络(DQN)方法,所提方法具有更快的收敛速度,且在两种不同目标速度下均能使车辆安全平稳地完成驾驶任务。
关键词
近端策略优化
车辆控制
分层控制框架
多目标奖励函数
深度Q网络
Keywords
Proximal Policy Optimization(PPO)
vehicle control
layered control framework
multi-objective reward function
Deep Q-Network(DQN)
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于深度强化学习的车辆自主避撞决策控制模型
被引量:
8
2
作者
李文礼
张友松
韩迪
钱洪
石晓辉
机构
重庆理工大学汽车零部件先进制造技术教育部重点实验室
出处
《汽车安全与节能学报》
CAS
CSCD
北大核心
2021年第2期201-209,共9页
基金
重庆理工大学研究生创新项目资助(clgycx20202021)
重庆市巴南区科技成果转化及产业化专项(2020TJZ022)。
文摘
为提高车辆对行驶环境的自我学习和决策能力,提出了一种基于深度确定性策略梯度(DDPG)的车辆自主避撞决策控制模型。基于Markov决策过程的强化学习理论和车辆纵向运动学特性,设计了决策所需目标对象及自车信息的状态空间和自车减速度的动作空间,以安全性、舒适性和效率因素为多目标奖励函数的端到端的车辆自主避撞决策模型。利用Matlab/Simulink构建的DDPG算法与交通环境的交互模型,通过了前车静止(CCRs)和前车制动(CCRb)场景测试。结果表明:本决策算法具有很好的收敛性,引入加速度和冲击度的极限值,在实现车辆有效避撞的同时,兼顾乘坐舒适性,且性能优于模糊控制。
关键词
车辆安全
自主避撞
深度确定性策略梯度(DDPG)
控制模型
多目标奖励函数
Keywords
vehicle safety
autonomous collision avoidance
deep deterministic policy gradient(DDPG)
control model
multi-objective reward function
分类号
U463.6 [机械工程—车辆工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于深度强化学习PPO的车辆智能控制方法
叶宝林
王欣
李灵犀
吴维敏
《计算机工程》
北大核心
2025
0
在线阅读
下载PDF
职称材料
2
基于深度强化学习的车辆自主避撞决策控制模型
李文礼
张友松
韩迪
钱洪
石晓辉
《汽车安全与节能学报》
CAS
CSCD
北大核心
2021
8
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部