期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于改进深度强化学习算法的行为决策方法
1
作者 贾瑞豪 《汽车实用技术》 2025年第1期25-30,共6页
针对传统深度强化学习算法因训练时探索策略差导致在自动驾驶决策任务中同时出现行驶效率低、收敛慢和决策成功率低的问题,提出了结合专家评价的深度竞争双Q网络的决策方法。提出离线专家模型和在线模型,在两者间引入自适应平衡因子;引... 针对传统深度强化学习算法因训练时探索策略差导致在自动驾驶决策任务中同时出现行驶效率低、收敛慢和决策成功率低的问题,提出了结合专家评价的深度竞争双Q网络的决策方法。提出离线专家模型和在线模型,在两者间引入自适应平衡因子;引入自适应重要性系数的优先经验回放机制在竞争深度Q网络的基础上搭建在线模型;设计了考虑行驶效率、安全性和舒适性的奖励函数。结果表明,该算法相较于D3QN、PERD3QN在收敛速度上分别提高了25.93%和20.00%,决策成功率分别提高了3.19%和2.77%,平均步数分别降低了6.40%和0.14%,平均车速分别提升了7.46%与0.42%。 展开更多
关键词 自动驾驶 行为决策 深度强化学习 模仿学习 改进DQN算法
在线阅读 下载PDF
考虑驾驶风格的高速行驶工况自动换道决策规划研究 被引量:3
2
作者 张新锋 汪亚君 +2 位作者 张浩杰 赵娟 贾瑞豪 《汽车技术》 CSCD 北大核心 2024年第7期17-28,共12页
为了解决高速行驶工况下自动驾驶车辆决策模型的车间互动性不足、规划控制匹配性差等问题,构建了基于斯塔克尔伯格(Stackelberg)博弈的闭环换道决策模型,将障碍车响应纳入自车换道决策中,同时引入驾驶风格特征优化多目标决策成本函数,... 为了解决高速行驶工况下自动驾驶车辆决策模型的车间互动性不足、规划控制匹配性差等问题,构建了基于斯塔克尔伯格(Stackelberg)博弈的闭环换道决策模型,将障碍车响应纳入自车换道决策中,同时引入驾驶风格特征优化多目标决策成本函数,并使用粒子群优化(PSO)算法求解博弈决策模型,采用考虑质心侧偏角影响下的运动学模型预测车辆状态,设计了基于动态风险势场法的非线性模型预测规划控制器。仿真结果表明,所提出的闭环换道决策模型可有效结合车间互动行为与驾驶风格特征输出正确的决策指令并完成相应的运动规划和控制。 展开更多
关键词 自动驾驶车辆 换道决策规划 驾驶风格 斯塔克尔伯格博弈
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部