期刊文献+

基于时空注意力Transformer的自动驾驶运动规划方法

A Motion Planning Method for Autonomous Driving Based on Spatiotemporal Attention Transformer
在线阅读 下载PDF
导出
摘要 驾驶场景中的静态智能体、动态智能体、道路结构及各元素间的交互通常是复杂且随时空快速变化的.因此,自动驾驶车辆的运动预测是一项十分具有挑战性的任务,其中一个尚未解决的难题就是如何高效表征和融合多模态场景信息,包括路况信息、不同智能体状态及其历史交互信息.现有方法大多依靠独立设计的模块并行处理多个模态的数据,但这种方式会造成系统灵活度较差、调整困难,且独立组件往往会引起较高的计算冗余,系统计算效率较低.此外,由自动驾驶场景的时间信息和空间信息解码获得保障安全驾驶的动作指令本身就是一项十分具有挑战性的任务.本文提出基于时空注意力Transformer的自动驾驶运动规划方法,由分阶段多模态场景编码器和时空融合解码器组成,能够逐过程构建多模态运动场景描述,同时在时空融合下预测自车的未来安全运动.本文在大规模自动驾驶数据集nuScenes上搭建了全新的比较基线,取得了较为领先的结果. The static and dynamic agents,road structures,and interactions among various elements in driving scenarios are typically complex and rapidly change across time and space.Consequently,motion prediction for autonomous vehicles remains a challenging task,especially with the open problem of efficiently representing and integrating multi-modal scene information,including road conditions,various agent states,and historical interaction information.Current approaches often rely on independently designed modules to process each modality in parallel.However,this approach tends to result in limited system flexibility,challenging adjustments,and,frequently,high computational redundancy,which reduces overall system efficiency.Furthermore,decoding the spatiotemporal information from autonomous driving scenarios to generate safe driving commands is inherently challenging.This paper proposes an autonomous driving motion planning method based on a spatiotemporal attention Transformer,comprising a phased multi-modal scene encoder and a spatiotemporal fusion decoder.This model progressively constructs a multi-modal scene representation and predicts the future safe trajectory of the autonomous vehicle under spatiotemporal fusion.The proposed approach establishes a new baseline on the largescale nuScenes autonomous driving dataset,achieving competitive results.
作者 袁丁 李源 孟羽倩 张弘 杨一帆 YUAN Ding;LI Yuan;MENG Yu-qian;ZHANG Hong;YANG Yi-fan(School of Astronautics,Beihang University,Beijing 102206,China)
出处 《电子学报》 2025年第7期2418-2427,共10页 Acta Electronica Sinica
基金 国家自然科学基金(No.62002005,No.61972015)。
关键词 自动驾驶运动预测 分阶段多模态编码器 时空融合解码器 Transformer 全新基线 autonomous driving motion prediction phased multimodal encoder spatiotemporal fusion decoder transformer new baseline
作者简介 袁丁,女,1978年1月出生于河北省承德市.现为北京航空航天大学宇航学院教授、博士生导师.主要研究方向为视觉导航、视觉三维重建.获国家科技进步奖二等奖(2/10)、教育部技术发明一等奖(3/6).在国内外发表学术论文60余篇.E-mail:dyuan@buaa.edu.cn;李源,男,1999年9月出生于甘肃省合作市.现为航天科技集团第五研究院第510研究所初级工程师.主要研究方向为计算机视觉、自动驾驶、深空探测技术.E-mail:gannanly@buaa.edu.cn;孟羽倩,女,2002年4月出生于辽宁省大连市.现为北京航空航天大学宇航学院博士研究生.主要研究方向为计算机视觉、图像分析与理解.E-mail:Myqian@buaa.edu.cn;张弘,女,1966年12月出生于河北省秦皇岛市.现为北京航空航天大学宇航学院教授、博士生导师.主要研究方向为图像理解、目标跟踪.获国家科技进步奖二等奖(1/10)、教育部技术发明一等奖(1/6)等多项省部级奖励.在国内外发表学术论文120余篇.E-mail:dmrzhang@buaa.edu.cn;通讯作者:杨一帆,男,1986年11月出生于湖南省长沙市.现为北京航空航天大学宇航学院副教授.主要研究方向为目标识别与跟踪、高性能嵌入式智能硬件设计.获国家科技进步奖二等奖(3/10)、教育部技术发明一等奖(4/6).在国内外发表学术论文30余篇.E-mail:yifanyang@buaa.edu.cn。

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部