期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于深度强化学习的高速列车驾驶策略优化
1
作者 徐凯 张皓桐 +2 位作者 张淼 张洋 吴仕勋 《铁道科学与工程学报》 北大核心 2025年第1期25-37,共13页
深度强化学习(DRL)是提高高速列车能源效率和运行质量最有前途的技术之一,但目前仍然存在着一些问题,限制了其在实际应用中的效果。现有解决方案存在以下两方面问题:首先,在高速列车运行环境下,DRL在处理庞大状态空间时表现不佳;其次,... 深度强化学习(DRL)是提高高速列车能源效率和运行质量最有前途的技术之一,但目前仍然存在着一些问题,限制了其在实际应用中的效果。现有解决方案存在以下两方面问题:首先,在高速列车运行环境下,DRL在处理庞大状态空间时表现不佳;其次,由于固定奖励函数难以适应不同调度运行时刻下的能效差异,智能体将受到不准确信号的干扰,通常采用手动方式调整。鉴于此,本研究在极大值原理基础上,综合考虑影响列车能效的诸多因素,提出一种高速列车智能驾驶策略的分层次优化的深度强化学习算法(HODRL)。该算法从结构上分为分层优化层和强化学习层。分层优化层利用先验知识降低智能体的探索复杂度,并根据能效场景重塑奖励函数,以实现对能效和时间等多个目标探索的有效平衡;而强化学习层则采取双延迟深度确定性策略梯度(TD3)算法,将其用于连续的动作空间,以提高列车操控的精确度。通过实验验证了HODRL算法在提升能效和准时性等方面的有效性,该算法平均减少79.68%的无效状态空间,并让智能体获得正确的奖励信号,预计节能和智能体实际节能相比均值误差为1.99kWh,方差为0.91kWh。所提算法仅需要TD3算法15.26%的训练时间即可收敛,并与其他基线算法相比较,在时间误差为±0.1%并保证乘客舒适度时,相比PPO、DDPG、TD3、PMP算法分别能耗减少了1.29%,5.70%,1.69%,3.27%。研究结果可为进一步优化高速列车驾驶策略和保障高速列车安全运营提供有效参考。 展开更多
关键词 高速列车 分层次优化 深度强化学习 状态空间约束 奖励重塑
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部