Argoverse运动预测冠军，轻舟智航提出基于路径感知的图注意力模型

2022 年 4 月 22 日 PaperWeekly

轻舟智航（QCraft）是一家世界前沿的 L4 级别无人驾驶通用解决方案公司，以“科技有为、智航无界”为愿景，轻舟智航希望打造自动驾驶超级工厂，与城市交通、出行服务、智能汽车等行业伙伴紧密协作。在车载软件、车载硬件和数据自动化闭环等方面，轻舟智航均拥有全栈自研的多项核心技术。基于此，轻舟智航推出了专注城市复杂交通场景的无人驾驶方案“Driven-by-QCraft”，适用于城市公开道路上的多种复杂路况，致力于实现城市全场景的无人驾驶，真正将无人驾驶带进现实。

1. 背景

本文介绍轻舟智航提出的用于自动驾驶的运动预测新方法：Path-Aware Graph Attention for HD Maps in Motion Prediction。该方法获得了 CVPR 2021 Workshop on Autonomous Driving 的 Argoverse 运动预测挑战赛（Argoverse Motion Forecasting Competition）的冠军。在此次比赛中，轻舟智航 Blue Team 从国内外自动驾驶领域几十支团队（包括 Waymo、华为、阿里巴巴、深动科技、海康威视等）中脱颖而出，在本次比赛的决胜关键指标 brier-minFDE 上取得显著优势，斩获冠军。相关论文刚刚被 ICRA 2022 接收。

论文链接：

https://arxiv.org/abs/2202.13772

比赛结果最新排行榜：

https://eval.ai/web/challenges/challenge-page/454/leaderboard/1279

Argoverse 运动预测挑战赛采用来自 Argo AI 的高清地图和传感器数据 Argoverse 数据集 [1]。Argoverse 是第一个包含高精地图的数据集，它包含了 290 千米的带有丰富几何形状（车道线等）和语义信息（可行驶区域等）的高精地图数据，比赛要求参赛者根据汽车的状态和环境数据，预测各个道路使用者接下来的运动轨迹。

2. PAGA简介

轻舟智航提出的路径感知图注意力网络 (Path-Aware Graph Attention network, PAGA) 从真实世界复杂道路交通中得到启发。该方法能有效建模高精地图中多车道的长程依赖（如，跨车道交互），从而为运动预测模型提供更好的高精地图解析信息，进而提高运动预测的精度。PAGA 模块可以作为独立的插件，替代 LaneGCN [2] 中基于图卷积的高精地图处理模块，在不改变其他模块的情况下显著提升运动预测的精度。

PAGA 的成功在于更好地利用了高精地图信息。在理解 PAGA 的设计动机之前，先简单介绍一下目前运动预测模型中常用的高精地图的表示。运动预测模型为了充分利用地图的空间信息，通常采用栅格和向量两种表示方法。栅格地图通常将地图语义信息渲染成鸟瞰图 (BEV) 图像，从而可以方便地利用卷积神经网络对图像进行特征提取。一些经典的运动预测方法，如 MultiPath [3], CoverNet [4] 等都采用这种方式。而向量化地图将地图用图结构进行表示，关注的是地图的拓扑信息。采用向量地图的比较有名的方法有 VectorNet [5] 和 LaneGCN [2] 等。轻舟智航的运动预测模型采用的是基于向量的地图表示。

3. 动机

PAGA 的动机来源于真实世界的复杂交通交互模型。真实世界的高精地图拓扑结构复杂多样，对于向量表示的高精地图，其主要元素是车道。不同的车道线相互连接，构成一个有向图。由于不同的边可以表示不同的语义信息，如，车道相连，或相邻等，这种图可以视为包含不同边类型的异构图。

下图所示是一个车道合并的场景。A 和 B 表示并线的两个车道，其中 A 是车辆当前所在车道。对于车辆向左并线的情况，不光要考虑 A 和它的一阶近邻 B 的关系，还需要考虑它和二阶近邻 C 的关系，也即邻居的邻居。建模高阶连接对基于图表示的地图编码来说是一个具有挑战的问题。一种简单的处理是采用递归的方法，比如，先考虑 A 和 B 和交互，然后考虑 B 和 C 的交互，进而推导 A 和 C 的交互。然而真实场景中，我们换道到 C 并不是采用这种递归的方式。我们通常会忽略 B 的影响，而将更多的注意力集中在 C 上。

PAGA 正是从这个问题得到的启发，即，一个高效的高精地图编码模型应当能够表示非一阶近邻节点（车道线）的关系，具备从路径（边的序列）来推导图上节点之间的关系。路径感知图注意力 (Path-Aware Graph Attention network, PAGA) 模型的名称也正源于此。

4. 方法

4.1 图神经网络和注意力机制

PAGA 是一个图神经网络。图神经网络中图的定义为：，其中表示顶点，表示边。顶点和边之间的关系可以用邻接矩阵来表示。和神经网络一样，图神经网络也用来做特征提取。其输入为上述的图结构数据，输出为各个节点的特征表示，。

图神经网络对于同一个节点的不同邻居在聚合操作时通常使用的是相同的权重，而图注意力网络则可以通过注意力机制针对不同的邻居学习不同的权重，从而得到更好的特征表示。顶点和顶点之间的注意力用来表示（注意和不一定是相邻的节点）。注意力机制用来表示节点对计算节点的贡献或者说是重要程度：

其中，是节点的特征表示。

4.2 基于路径感知的图注意力网络

对于异构图，不同类型的边表示不同的语义信息，对于顶点，它们之间长度为的路径定义为。PAGA 的注意力定义为：

其中，是顶点之间长度为的路径的集合，是一个特征提取神经网络，从中计算注意力。是一个控制最大长度的超参数。很显然，并不是越大越好，越大，顶点之间的关联性越小，而由于边数增加会带来计算量的显著增大。

对于给定的，顶点之间可能存在多个路径。这些路径共同描述了图上两个顶点之间信息的流动。对于高精地图的编码而言，这样的路径可以描述一个车道的车流是如何汇入另外一个车道，而沿着路径的一系列边的类型的变化可以描述交通的发展变化情况。

PAGA 的注意力机制是传统的图卷积网络 (GCN) 和图注意力网络 (GAT) 所不能实现的，下图对比了不同图神经网络和 PAGA 之间的对比：

GraphSAGE [6] 用 LSTM 来聚合采样的邻居节点特征，GCN [7] 可以视为二值化的注意力机制，GAT [8] 通过可学习的注意力函数来获得相邻顶点之间的注意力，而 PAGA 的注意力函数是通过 LSTM 来聚合一系列的边的特征。PAGA 的注意力机制适合高精地图的异构图结构特点，因此具有更好的表达能力。

5. 实验结果

5.1 数据集

PAGA 在大型运动预测数据集 Argoverse 上进行了评估。 Argoverse 包含了向量表示的高精地图，覆盖了匹兹堡和迈阿密城市环境。该数据集有 20 万个训练样本，每个样本为长度为 5 秒的序列，采集频率为 10Hz，即每秒 10 帧。运动预测的任务为给定交通参与者前两秒的运动信息和高精地图信息，预测其最后 3 秒的运动轨迹。

5.2 评价指标

运动预测结果采用轨迹距离测度进行评估，如 ADE (average displacement error), FDE (final displacement error)。Argoverse 运动预测比赛中可采用多模态预测，每个模型最多可以预测 6 条轨迹，多模态的轨迹预测采用和测度 (即取 K 个预测中最好的 ADE 和 FDE 值)。最新的评测标准考虑了不同预测轨迹的概率的度量结果，引入了 brier- 和 brier- 。brier-minFDE 的计算方法是在 minFDE 上加了，p 为预测轨迹的概率。由以上定义可知，brier-minFDE 是考虑了算法预测距离误差和概率的综合考量。

TABLE I 所示是提出的方法与一些最先进的方法的性能对比。其中下半部分对比的是基于向量表示的高精地图的方法。

TABLE II 所示是 2021 Argoverse 运动预测挑战赛的结果对比。比赛最终排名以 Brier minimum Final Displacement Error (brier-minFDE) 为准。

6. 总结

PAGA 从真实世界复杂路网结构和交通交互中得到启发，提出的路径感知图注意力网络对高精地图的异构图结构充分挖掘，有效利用了异构图上的非局部交互信息。提出的方法在大规模运动预测数据集上进行了验证，并获得了 CVPR 2021 Workshop on Autonomous Driving 的 Argoverse 运动预测挑战赛（Argoverse Motion Forecasting Competition）的冠军。

由于随着路径长度的增加，路径数目和邻域顶点数量呈指数级增长，会造成计算代价的急剧增加，该方法在计算效率上还有进一步提升空间。

参考文献

[ 1] M.-F. Chang, J. Lambert, P. Sangkloy, J. Singh, S. Bak, A. Hartnett, D. Wang, P. Carr, S. Lucey, D. Ramanan, and J. Hays, “Argoverse: 3d tracking and forecasting with rich maps,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2019.

[2] M. Liang, B. Yang, R. Hu, Y. Chen, R. Liao, S. Feng, and R. Urtasun, “Learning lane graph representations for motion forecasting,” in European Conference on Computer Vision, pp. 541–556, Springer, 2020.

[3] Y. Chai, B. Sapp, M. Bansal, and D. Anguelov, “Multipath: Multiple probabilistic anchor trajectory hypotheses for behavior prediction,” arXiv preprint arXiv:1910.05449, 2019.

[4] T. Phan-Minh, E. C. Grigore, F. A. Boulton, O. Beijbom, and E. M. Wolff, “Covernet: Multimodal behavior prediction using trajectory sets,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 14074–14083, 2020.

[5] J. Gao, C. Sun, H. Zhao, Y. Shen, D. Anguelov, C. Li, and C. Schmid, “Vectornet: Encoding hd maps and agent dynamics from vectorized representation,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 11525–11533, 2020.

[6] W. L. Hamilton, R. Ying, and J. Leskovec, “Inductive representation learning on large graphs,” arXiv preprint arXiv:1706.02216, 2017.

[7] T. N. Kipf and M. Welling, “Semi-supervised classification with graph convolutional networks,” arXiv preprint arXiv:1609.02907, 2016.

[8] P. Velickovi ˇ c, G. Cucurull, A. Casanova, A. Romero, P. Lio, and Y. Bengio, “Graph attention networks,” arXiv preprint arXiv:1710.10903, 2017.

轻舟智航 QCraft 火热招聘中

轻舟智航（QCraft）是世界前沿的无人驾驶通用解决方案公司，目前已在美国硅谷、中国北京、深圳、苏州等 10 座城市开展测试及运营，部署的自动驾驶车队规模超过 100 台。

轻舟智航创始团队均拥有丰富的自动驾驶行业经验，核心团队成员来自 Waymo、Tesla、Nvidia、Facebook 等顶级公司。

如果你也想从乘客变为无人驾驶的缔造者，就快来加入 QCraft 吧！

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

图注意力网络

关注 63

图注意力网络（Graph Attention Network，GAT），它通过注意力机制（Attention Mechanism）来对邻居节点做聚合操作，实现了对不同邻居权重的自适应分配，从而大大提高了图神经网络模型的表达能力。

【CVPR2022】基于压缩域的端到端通用事件表示学习

专知会员服务

9+阅读 · 2022年4月24日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

CVPR2022 | 一种适用于密集场景的渐进式端到端目标检测器

专知会员服务

19+阅读 · 2022年3月25日

腾讯&百度等发布《 AIoT智能边缘计算网关技术规范》，21页pdf

专知会员服务

62+阅读 · 2021年11月12日

【CIKM2021】谷歌地图中图神经网络的ETA预测

专知会员服务

22+阅读 · 2021年8月29日

清华大学&百度：面向自动驾驶的车路协同关键技术与展望，70页pdf

专知会员服务

83+阅读 · 2021年8月22日

[ICML2021]. GRAND：图神经扩散

专知会员服务

27+阅读 · 2021年7月11日

【CVPR2021】CVPR2021 | MotionRNN：针对复杂时空运动的通用视频预测模型

专知会员服务

14+阅读 · 2021年4月22日

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

【ECML-PKDD 2019】基于邻域增强LSTM模型的出租车乘客需求预测（A Neighborhood-augmented LSTM Model for Taxi-Passenger Demand Prediction）

专知会员服务

22+阅读 · 2019年12月1日

CVPR 2022｜打破传统的跟踪范式！南大开源MixFormer：端到端目标检测新模型

极市平台

2+阅读 · 2022年3月24日

自动驾驶汽车如何解决复杂交互问题？清华联合MIT提出M2I方案

机器之心

0+阅读 · 2022年3月24日

CVPR 2022 | Transformer再屠榜！南大提出MixFormer：端到端目标跟踪新网络

CVer

1+阅读 · 2022年3月23日

VALSE Webinar 22-04期总第270期让机器看懂视频：视频分割与目标追踪

VALSE

2+阅读 · 2022年3月3日

ICRA2022 | OPV2V: 首个大型自动驾驶协同感知数据集+代码框架已开源

极市平台

0+阅读 · 2022年2月22日

从数据到模型：轻舟智航自动驾驶高效感知技术解读

PaperWeekly

0+阅读 · 2021年12月25日

自动驾驶权威评测世界第一，鉴智机器人推出纯视觉3D感知新范式

机器之心

0+阅读 · 2021年12月23日

NeurIPS 21 Spotlight | PCAN: 高效时序建模, 提升多目标追踪与分割性能

极市平台

0+阅读 · 2021年12月19日

轻舟智航发布Driven-by-QCraft第三代自动驾驶硬件方案

极市平台

0+阅读 · 2021年11月16日

CVPR 2018 | 商汤科技Spotlight论文详解：单目深度估计技术

商汤科技

14+阅读 · 2018年6月2日

事件触发分布式模型预测控制方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

生物认知机制和特性启发的视觉计算模型与方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

球形视觉模型及全动态场景目标跟踪方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

室内场景的三维感知与理解

国家自然科学基金

1+阅读 · 2012年12月31日

道路车辆的信息检测及视觉理解

国家自然科学基金

0+阅读 · 2012年12月31日

基于SAS数据的水下复杂场景中目标识别研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于视频传感网络的群体行为感知与异常个体协同跟踪

国家自然科学基金

0+阅读 · 2011年12月31日

视角无关的动作识别与行为建模方法研究

国家自然科学基金

0+阅读 · 2010年12月31日

场景表意式绘制方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于运动想象的脑-机接口关键技术研究

国家自然科学基金

1+阅读 · 2009年12月31日

Towards Constructing Finer then Homotopy Path Classes

Arxiv

0+阅读 · 2022年6月13日

Imagination-augmented Navigation Based on 2D Laser Sensor Observations

Arxiv

0+阅读 · 2022年6月12日

Global Internet public peering capacity of interconnection: a complex network analysis

Arxiv

1+阅读 · 2022年6月10日

Hinted Dictionaries: Efficient Functional Ordered Sets and Maps

Arxiv

0+阅读 · 2022年6月9日

Interest-aware Message-Passing GCN for Recommendation

Arxiv

12+阅读 · 2021年2月19日

Deep Neural Network Based Relation Extraction: An Overview

Arxiv

14+阅读 · 2021年1月6日

Deep Learning on Image Denoising: An overview

Arxiv

13+阅读 · 2020年8月3日

Rethinking Knowledge Graph Propagation for Zero-Shot Learning

Arxiv

21+阅读 · 2019年3月27日

Event Extraction with Generative Adversarial Imitation Learning

Arxiv

13+阅读 · 2018年4月21日

Towards Understanding and Answering Multi-Sentence Recommendation Questions on Tourism

Arxiv

15+阅读 · 2018年1月5日

VIP会员