-
题名基于强化学习的高铁列车运行图编制模型优化方法研究
- 1
-
-
作者
范文天
曾勇程
郭一唯
杨宁
张海峰
-
机构
南京邮电大学计算机学院
中科南京人工智能创新研究院
中国科学院大学南京学院信息学院
中国科学院自动化研究所
中国科学院大学人工智能学院
中国铁路列车运行图技术中心
中国铁道科学研究院集团有限公司运输及经济研究所
-
出处
《铁道运输与经济》
北大核心
2025年第1期70-81,共12页
-
基金
中国国家铁路集团有限公司科技研究开发计划课题(P2022X012)。
-
文摘
针对高铁列车运行图中可能存在的停站时间超出范围、运行时间超出范围、超车和间隔时间不足这4类冲突,基于强化学习理论,实现一个用于调解列车运行图冲突的智能体。通过建立列车运行图编制环境,研究设计用于调解不同冲突的算子集,利用近端策略优化算法在搭建好的环境中训练智能体。为提升算法性能,采用启发式贪心算法采集样本对网络进行监督学习作为前期预训练,利用熵增加算法的探索力度和多策略决策让最终的调解方案更加有效,并使用模型预热让算法网络在每个测试环境中进行参数微调以适应新环境。结果表明,在相同初始环境下,该方法消解所有冲突所需步骤显著少于启发式贪心算法,且100%消解所有冲突的概率远大于启发式贪心算法,该方法为列车运行图编制模型提供了新的参考。
-
关键词
列车运行图
强化学习
PPO算法
冲突调解
启发式贪心算法
-
Keywords
Train Working Diagram
Reinforcement Learning
PPO Algorithm
Conflict Resolution
Heuristic Greedy Algorithm
-
分类号
U292
[交通运输工程—交通运输规划与管理]
-