【速览】ICCV 2021丨VIL-100: 一种新的视频实例车道线检测数据集和基础模型

2021 年 8 月 31 日 中国图象图形学学会CSIG

学会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播，通过短篇文章让读者用母语快速了解相关学术动态，欢迎关注和投稿~

◆ ◆ ◆ ◆

VIL-100: 一种新的视频实例车道线检测数据集和基础模型

张玉君

^{1*}

、朱磊

^{2*}

、冯伟

^{1+}

、付华柱

^{3}

、王明迁

^{1}

、李清霞

^{4}

、李澄

^{1}

、王松

^{1,5}

^{1}

天津大学、

^{2}

剑桥大学、

^{3}

阿联酋起源人工智能研究院、

^{4}

中国数据（天津）有限公司、

^{5}

南卡罗莱纳大学

ICCV 2021

撰稿人：张玉君

共同一作：张玉君、朱磊

通讯作者：冯伟

推荐理事：林宙辰

原文标题：VIL-100: A New Dataset and A Baseline Model for Video Instance Lane Detection

原文链接：https://arxiv.org/abs/2108.08482

原文代码链接: https://github.com/yujun0-0/MMA-Net

数据集链接：https://pan.baidu.com/s/1NkP_5LMLTn6qsu9pSbyi0g 提取码：iy16

◆ ◆ ◆ ◆

摘要

车道线检测在自动驾驶中起着关键作用。由于车载摄像头获取的是驾驶视频，而目前的车道线检测工作主要基于单张图像，忽略了视频的时域连续性。因此我们收集了一个来自不同的交通场景的视频级实例车道线(VIL-100)数据集，共100个视频，10,000帧。每个视频中的所有帧中均对不同的车道线实例进行标注，涵盖了10种常见的车道线类型，不同的驾驶场景，天气和路面情况。此外，我们还设计了一种基础模型，即多级记忆聚合网络（MMA-Net）。MMA-Net通过聚合历史帧提取的多级局部和全局记忆特征(Memory Feature)，来增强当前帧中各实例特征，从而用于视频实例的车道线检测。最后，我们在VIL-100的测试集上对10种相似任务中使用的模型进行了评估（包括单帧车道线检测方法，视频实例分割方法）。实验表明，我们的模型在视频实例车道线检测问题上优于上述对比方法。

研究背景

近年来，自动驾驶在学术界和工业界都受到了广泛的关注。其中最基本和最具有挑战性的任务是在真实场景中进行车道线检测从而辅助驾驶。但是由于恶劣场景的存在，如遮挡、雾霾、黑暗、强光反射等，如何准确的进行车道线检测变得具有挑战性。

随着深度学习的发展，车道线检测方法取得了重大进展，但是现有的方法大多集中在单帧图像的车道线检测上，而在真实的驾驶中汽车获取的是驾驶视频。因此将车道线检测从图像级别扩展到视频级别是非常重要的，因为后者可以利用时域一致性来解决单帧无法解决的问题，如车道线遮挡、破损等问题。但是进行视频车道线检测的主要障碍是缺乏具有连续车道线实例标注的(视频)数据集。现有的车道线检测数据集(例如，TuSimple、Culane、ApolloScape和BDD100K), 只支持单帧车道线标注（TuSimple、Culane），或者缺乏连续的实例标注（ApolloScape和BDD100K）。

针对以上问题，在这项工作中，我们首先收集和标注了一个新的视频车道线检测（VIL-100）数据集。它包含100个视频，具有10,000帧图像，涵盖拥挤路况、车道线破损、雾霾、夜晚等10类经典场景。我们将所有视频的帧率从最初的30fps下采样到10fps，对每帧中的所有车道线提供了实例级标注。第二，我们为此任务设计开发了一个新的基础模型，即多级记忆聚合网络（MMA-Net）。我们的网络聚合局部和全局记忆信息增强当前帧的CNN特征。具体来说，我们将原始视频中历史帧作为局部记忆，时序打乱视频中的历史帧作为全局记忆。局部和全局记忆（LGMA）模块以注意力机制分别对多尺度的局部和全局记忆信息进行聚合，并结合当前帧的特征得到车道线实例分割结果。最后，我们在VIL-100数据集上对我们的方法和10个相关方法进行了全面评估。结果表明，我们的模型明显优于现有方法，包括单张图像车道线检测方法[1-5]，视频实例分割方法[6-10]。

数据集

图 1：本文提出的视频车道线检测数据集样例

我们收集了VIL‐100(视频实例车道线检测)数据集。共包含100个视频，每个视频有100帧，总计10,000帧。其中97个视频是通过车载前置摄像机拍摄，3个则从网络上获取，所有视频的帧率从最初的30fps下采样到10fps。在数据采集中，我们收集了10个典型场景：正常路况、拥挤路况、弯道、受损道路、阴影、道路标志、强光、雾霾、夜晚和十字路口。我们按照8:2的比例将数据集分割为训练集和测试集，所有场景均会在训练集和测试集中包含。

我们将每帧中的所有车道线的中心点坐标存储在json文件中。其中每条车道线被存储为一组，从而提供了实例级车道线注释。然后我们将每组点用三阶多项式拟合成一条曲线，并将其扩展为具有一定宽度的车道线区域。在1920 × 1080的图片上，将其拓宽为30像素。对于低分辨率的帧，扩展宽度等比例减少。同时我们为每条车道线标注了车道线类型，共10种，即: 单白色实线、单白色虚线、单黄色实线、单黄色虚线、双白实线、双黄实线、双黄虚线、双白实虚线、双白虚实线、白黄实线。在每一帧中，我们标注了车道线与自身车辆的相对位置，即，

2i

表示车辆右侧的第

i

条车道线，

2i-1

表示车辆左侧的第

i

条车道线。图2 (a)(b)分别展示了上述10个典型场景的混合情况和出现次数。图3 (a)(b)分别统计了车道线的线型和每帧存在条数。

图 2：(a)场景混合情况;(b)场景出现次数

图 3：(a)车道线线型统计;(b)车道线每帧条数统计

主要方法

【整体框架】

图 4：多尺度记忆聚合网络(MMA-Net)的整体框架图

如图4所示，MMA-Net网络输入包括作为Memory的历史帧和作为Query的当前帧。在Memory中，首先将原始视频中历史五帧和乱序的视频中的历史五帧分别输入到编码器，得到对应的高级特征和低级特征。之后我们分别将高级特征图和低级特征图输入局部-全局记忆聚合(LGMA)模块，得到低级和高级的记忆聚合特征。在Query中，当前帧通过编码器得到低级特征和高级特征，与Memory中得到的记忆聚合特征共同分别传递给记忆读取(MR)模块。最后采用U-Net解码器来融合不同CNN层的特征，预测当前帧的车道线实例检测结果。

【局部和全局记忆聚合模块】

图 5：局部和全局记忆聚合模块示意图

如图5 (a)为局部和全局记忆聚合(LGMA) 模块示意图。通过结合局部和全局记忆中的历史特征，实现了在考虑时域连续性的同时，综合考虑了全局语义信息。该模块从随机乱序的视频中提取五帧的特征，作为全局记忆特征。并从原始视频中提取最近五帧的特征，作为局部记忆特征。我们根据[8]，对每个输入特征使用两个3×3卷积核提取key map和value map。然后，我们分别将局部记忆和全局记忆的key map和value map各自传递到注意力块上，通过结合局部和全局记忆的key map，得到LGMA模块输出的value map（记作

Z_{att}^{k}

），以相同操作得到value map（记作

Z_{att}^{v}

），

Z_{att}^{k}

和

Z_{att}^{v}

计算如下：

其中，

f_{att}\left ( \cdot \right )

表示注意力块,

\left \{ \mathbf{k}_{1}^{\mathbf{L}},\mathbf{k}_{2}^{\mathbf{L}},...,\mathbf{\mathbf{k}}_{5}^{\mathbf{L}} \right \}

和

\left \{ \mathbf{v}_{1}^{\mathbf{L}},\mathbf{v}_{2}^{\mathbf{L}},...,\mathbf{v}_{5}^{\mathbf{L}} \right \}

分别表示局部记忆五个输入特征的key map和value map。

\left \{ \mathbf{k}_{1}^{\mathbf{G}},\mathbf{k}_{2}^{\mathbf{G}},...,\mathbf{k}_{5}^{\mathbf{G}} \right \}

和

\left \{ \mathbf{v}_{1}^{\mathbf{G}},\mathbf{v}_{2}^{\mathbf{G}},...,\mathbf{v}_{5}^{\mathbf{G}} \right \}

分别表示全局记忆五个输入特征的key map和value map。

【注意力块】

图5(b) 展示了注意力块整合五个输入的记忆特征

\left \{ Z_{1},Z_{2},...,Z_{5} \right \}

，而可以是图5 (a)中的五个key map或五个value map。具体来说，我们首先连接五个输入的map，然后使用1×1卷积核，两个3×3卷积核，一个1×1卷积核和Softmax函数，生成一个具有五个特征通道的注意力图

W

。然后，分别将

W

与五个对应的map相乘，最终相加得到注意力块的输出

Z_{att}

，计算如下：

其中，

\left \{ Z_{1},Z_{2},...,Z_{5} \right \}

表示注意块五个的输入map。

W_{i}

表示注意映射

W

的第

i

个通道,

⊗

表示

W_{i}

和

Z_{i}

的乘积。

实验结果

【对比实验】

我们在VIL-100数据集上对我们的方法和10个相关方法进行了全面评估。其中，前5个是单帧图像车道线检测方法，后5个是视频级实例分割方法。结果表明，我们的模型在表1中所示的6个单帧图像车道线检测的评估指标，和表2中所示的5个视频实例分割指标上均明显优于现有方法。

表 1：和SOTA图像级车道线检测方法的定量对比

表 2：和SOTA视频实例分割方法的定量对比

图6直观地比较了我们的网络和比较方法生成的视频实例车道线检测图、结果，显示了我们的视频实例车道线检测方法的鲁棒性和有效性。

图 6：可视化比较

【消融实验】

表3中第一列(“Basic”)是从MMA-Net中去除局部全局记忆和多尺度聚合机制。第二列(“+LM”)是将局部记忆添加到“Basic”，而第三列(“+GM”)是将全局记忆添加到“Basic”。第四列(“+LGM”)是将局部和全局记忆均添加到“Basic”, 也即从我们的网络中移除多尺度聚合机制。消融实验充分证明了局部和全局记忆模块以及多尺度聚合模式的有效性。

表 3：消融实验定量评估

参考文献

[1] Davy Neven, Bert De Brabandere, Stamatios Georgoulis, Marc Proesmans, and Luc Van Gool. Towards end-to-end lane detection: an instance segmentation approach. In IVS, pages 286–291, 2018.

[2] Xingang Pan, Jianping Shi, Ping Luo, XiaogangWang, and Xiaoou Tang. Spatial as deep: Spatial cnn for traffific sceneunderstanding. In AAAI, pages 7276–7283, 2018.

[3] Yuenan Hou, Zheng Ma, Chunxiao Liu, and ChenChange Loy. Learning lightweight lane detection cnns by self attentiondistillation. In ICCV, pages 1013–1021, 2019.

[4] Zequn Qin, Huanyu Wang, and Xi Li. Ultra fast structureaware deep lane detection. In ECCV, pages 276–291. Springer, 2020.

[5] Ruijin Liu, Zejian Yuan, Tie Liu, and Zhiliang Xiong. End-to-end lane shape prediction with transformers. In WACV, pages 3694–3702, 2021.

[6] Joakim Johnander, Martin Danelljan, Emil Brissman, Fahad Shahbaz Khan, and Michael Felsberg. A generative appearance model for end-to-end video object segmentation. In CVPR, pages 8953–8962, 2019.

[7] Carles Ventura, Miriam Bellver, Andreu Girbau, Amaia Salvador, Ferran Marques, and Xavier Giro i Nieto. RVOS: Endto-end recurrent network for video object segmentation. In CVPR, pages 5277–5286, 2019.

[8] Seoung Wug Oh, Joon-Young Lee, Ning Xu, and Seon Joo Kim. Video object segmentation using space-time memory networks. In ICCV, pages 9226–9235, 2019.

[9] Yongqing Liang, Xin Li, Navid Jafari, and Qin Chen. Video object segmentation with adaptive feature bank and uncertain-region refifinement. In NeurIPS, 2020.

[10] Yizhuo Zhang, Zhirong Wu, Houwen Peng, and Stephen Lin. A transductive approach for video object segmentation. In CVPR, pages 6949–6958, 2020.