期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于深度强化学习PPO的车辆智能控制方法
1
作者
叶宝林
王欣
+1 位作者
李灵犀
吴维敏
《计算机工程》
北大核心
2025年第7期385-396,共12页
为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制...
为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制策略,下层PID控制器负责执行控制策略。其次为了提升车辆的行驶效率,通过定义优势距离对观测到的环境状态矩阵进行数据筛选,帮助自主车辆选择具有更长优势距离的车道进行变道。基于定义的优势距离提出一种新的状态采集方法以减少数据处理量,加快深度强化学习模型的收敛速度。另外,为了兼顾车辆的安全性、行驶效率和稳定性,设计一个多目标奖励函数。最后在基于Gym搭建的车辆强化学习任务仿真环境Highway_env中进行测试,对所提方法在不同目标速度下的表现进行分析和讨论。仿真测试结果表明,相比深度Q网络(DQN)方法,所提方法具有更快的收敛速度,且在两种不同目标速度下均能使车辆安全平稳地完成驾驶任务。
展开更多
关键词
近端策略优化
车辆控制
分层控制框架
多目标奖励函数
深度Q网络
在线阅读
下载PDF
职称材料
基于深度强化学习的车辆自主避撞决策控制模型
被引量:
8
2
作者
李文礼
张友松
+2 位作者
韩迪
钱洪
石晓辉
《汽车安全与节能学报》
CAS
CSCD
北大核心
2021年第2期201-209,共9页
为提高车辆对行驶环境的自我学习和决策能力,提出了一种基于深度确定性策略梯度(DDPG)的车辆自主避撞决策控制模型。基于Markov决策过程的强化学习理论和车辆纵向运动学特性,设计了决策所需目标对象及自车信息的状态空间和自车减速度的...
为提高车辆对行驶环境的自我学习和决策能力,提出了一种基于深度确定性策略梯度(DDPG)的车辆自主避撞决策控制模型。基于Markov决策过程的强化学习理论和车辆纵向运动学特性,设计了决策所需目标对象及自车信息的状态空间和自车减速度的动作空间,以安全性、舒适性和效率因素为多目标奖励函数的端到端的车辆自主避撞决策模型。利用Matlab/Simulink构建的DDPG算法与交通环境的交互模型,通过了前车静止(CCRs)和前车制动(CCRb)场景测试。结果表明:本决策算法具有很好的收敛性,引入加速度和冲击度的极限值,在实现车辆有效避撞的同时,兼顾乘坐舒适性,且性能优于模糊控制。
展开更多
关键词
车辆安全
自主避撞
深度确定性策略梯度(DDPG)
控制模型
多目标奖励函数
在线阅读
下载PDF
职称材料
融合强化学习和状态机的智能矿卡换道决策研究
3
作者
程宇
谢丽蓉
+3 位作者
卞一帆
杨志勇
胡桂林
闫壮
《金属矿山》
2025年第10期191-200,共10页
为提升露天煤矿智能网联矿卡的换道决策性能,提出了一种融合深度强化学习与有限状态机的换道决策方法。首先,构建了一个双层决策框架,上层利用深度Q网络生成初步换道决策,下层通过有限状态机进行安全性约束。其次,引入双重网络和竞争网...
为提升露天煤矿智能网联矿卡的换道决策性能,提出了一种融合深度强化学习与有限状态机的换道决策方法。首先,构建了一个双层决策框架,上层利用深度Q网络生成初步换道决策,下层通过有限状态机进行安全性约束。其次,引入双重网络和竞争网络结构优化DQN性能,有效缓解了Q值过估计问题。然后,基于Gipps安全模型设计了状态转移规则,动态评估换道间隙的安全性。最后,设计了一个多目标奖励函数,综合评价和引导换道行为。在Highway-env平台上进行试验,结果显示,在高交通密度场景下,融合方法换道成功率达81.36%,相比单一DuDQN换道成功率(50.84%)显著提升,碰撞次数减少,行驶稳定性增强。此框架能有效提升决策安全性和效率,对于露天矿运输换道决策具有一定的参考意义。
展开更多
关键词
智能网联矿卡
深度强化学习
有限状态机
换道决策
多目标奖励函数
在线阅读
下载PDF
职称材料
题名
基于深度强化学习PPO的车辆智能控制方法
1
作者
叶宝林
王欣
李灵犀
吴维敏
机构
浙江理工大学信息科学与工程学院
嘉兴大学信息科学与工程学院
印第安纳大学-普渡大学印第安纳波利斯分校电子与计算机工程系
浙江大学智能系统与控制研究所
出处
《计算机工程》
北大核心
2025年第7期385-396,共12页
基金
嘉兴市应用性基础研究项目(2023AY11034)
浙江省自然科学基金(LTGS23F030002)
+2 种基金
浙江省“尖兵”“领雁”研发攻关计划项目(2023C01174)
国家自然科学基金(61603154)
工业控制技术国家重点实验室开放课题(ICT2022B52)。
文摘
为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制策略,下层PID控制器负责执行控制策略。其次为了提升车辆的行驶效率,通过定义优势距离对观测到的环境状态矩阵进行数据筛选,帮助自主车辆选择具有更长优势距离的车道进行变道。基于定义的优势距离提出一种新的状态采集方法以减少数据处理量,加快深度强化学习模型的收敛速度。另外,为了兼顾车辆的安全性、行驶效率和稳定性,设计一个多目标奖励函数。最后在基于Gym搭建的车辆强化学习任务仿真环境Highway_env中进行测试,对所提方法在不同目标速度下的表现进行分析和讨论。仿真测试结果表明,相比深度Q网络(DQN)方法,所提方法具有更快的收敛速度,且在两种不同目标速度下均能使车辆安全平稳地完成驾驶任务。
关键词
近端策略优化
车辆控制
分层控制框架
多目标奖励函数
深度Q网络
Keywords
Proximal Policy Optimization(PPO)
vehicle control
layered control framework
multi-objective reward function
Deep Q-Network(DQN)
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于深度强化学习的车辆自主避撞决策控制模型
被引量:
8
2
作者
李文礼
张友松
韩迪
钱洪
石晓辉
机构
重庆理工大学汽车零部件先进制造技术教育部重点实验室
出处
《汽车安全与节能学报》
CAS
CSCD
北大核心
2021年第2期201-209,共9页
基金
重庆理工大学研究生创新项目资助(clgycx20202021)
重庆市巴南区科技成果转化及产业化专项(2020TJZ022)。
文摘
为提高车辆对行驶环境的自我学习和决策能力,提出了一种基于深度确定性策略梯度(DDPG)的车辆自主避撞决策控制模型。基于Markov决策过程的强化学习理论和车辆纵向运动学特性,设计了决策所需目标对象及自车信息的状态空间和自车减速度的动作空间,以安全性、舒适性和效率因素为多目标奖励函数的端到端的车辆自主避撞决策模型。利用Matlab/Simulink构建的DDPG算法与交通环境的交互模型,通过了前车静止(CCRs)和前车制动(CCRb)场景测试。结果表明:本决策算法具有很好的收敛性,引入加速度和冲击度的极限值,在实现车辆有效避撞的同时,兼顾乘坐舒适性,且性能优于模糊控制。
关键词
车辆安全
自主避撞
深度确定性策略梯度(DDPG)
控制模型
多目标奖励函数
Keywords
vehicle safety
autonomous collision avoidance
deep deterministic policy gradient(DDPG)
control model
multi-objective reward function
分类号
U463.6 [机械工程—车辆工程]
在线阅读
下载PDF
职称材料
题名
融合强化学习和状态机的智能矿卡换道决策研究
3
作者
程宇
谢丽蓉
卞一帆
杨志勇
胡桂林
闫壮
机构
新疆大学电气工程学院
出处
《金属矿山》
2025年第10期191-200,共10页
基金
新疆维吾尔自治区重点研发计划项目(编号:2023B01006)
新疆维吾尔自治区重点实验室开放课题(编号:2025D04013)。
文摘
为提升露天煤矿智能网联矿卡的换道决策性能,提出了一种融合深度强化学习与有限状态机的换道决策方法。首先,构建了一个双层决策框架,上层利用深度Q网络生成初步换道决策,下层通过有限状态机进行安全性约束。其次,引入双重网络和竞争网络结构优化DQN性能,有效缓解了Q值过估计问题。然后,基于Gipps安全模型设计了状态转移规则,动态评估换道间隙的安全性。最后,设计了一个多目标奖励函数,综合评价和引导换道行为。在Highway-env平台上进行试验,结果显示,在高交通密度场景下,融合方法换道成功率达81.36%,相比单一DuDQN换道成功率(50.84%)显著提升,碰撞次数减少,行驶稳定性增强。此框架能有效提升决策安全性和效率,对于露天矿运输换道决策具有一定的参考意义。
关键词
智能网联矿卡
深度强化学习
有限状态机
换道决策
多目标奖励函数
Keywords
smart grid-connected mining truck
deep reinforcement learning
finite state machine
lane change decision
multi-objective reward function
分类号
TD57 [矿业工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于深度强化学习PPO的车辆智能控制方法
叶宝林
王欣
李灵犀
吴维敏
《计算机工程》
北大核心
2025
0
在线阅读
下载PDF
职称材料
2
基于深度强化学习的车辆自主避撞决策控制模型
李文礼
张友松
韩迪
钱洪
石晓辉
《汽车安全与节能学报》
CAS
CSCD
北大核心
2021
8
在线阅读
下载PDF
职称材料
3
融合强化学习和状态机的智能矿卡换道决策研究
程宇
谢丽蓉
卞一帆
杨志勇
胡桂林
闫壮
《金属矿山》
2025
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部