【博士论文】深度卷积神经网络架构设计及优化问题研究

来自南京理工大学的李翔博士论文，入选2022年度“CCF优秀博士学位论文奖”初评名单！

https://www.ccf.org.cn/Focus/2022-12-08/781244.shtml

近年来，深度卷积神经网络在计算机视觉领域取得了革命性的进展，并被广泛地应用到图像分类、物体检测、实例分割等经典的计算机视觉问题当中。深度卷积神经网络通过层次化地响应图像局部单元使其能够充分利用输入数据的二维结构，从而针对图像提取鲁棒与鉴别性的特征表示。卷积网络本质上是一种卷积核在空间维度参数共享的前馈神经网络，它的成功主要归功于良好的模块架构设计以及合理地解决优化过程中的问题。本文从上述两个角度，即架构设计和优化相关问题，进行了较为深入的探索和研究，其主要工作内容如下:

(1) 早期的卷积神经网络基础架构 (如卷积、池化) 的诞生受到了初级视觉皮层神经元响应特性的启发，而最新的架构研究进展则更侧重于工程、优化和效率层面，较少关注生物特性方面的指导。本文首先尝试从现代深度网络架构所忽视的一种生物视觉特性：即神经元随环境刺激动态调整视觉感受野出发进行建模，提出了选择性核 (Selective Kernel, SK) 架构，使得网络能够根据输入图像信号自适应地选择不同感受野的信息特征。本文通过对环境刺激的模拟实验验证了该动态选择机制的有效性，且基准网络的识别能力也得到了显著的增强。其次，基于最新流行的两种代表性的拓扑架构设计——跨层连接 (ResNet) 和密集连接 (DenseNet)，本文首次揭示了两者本质上都隶属同一种密集拓扑 (Dense Topology) 的连接结构，而它们的区别仅在于最终连接部分所采用的具体形式。在此基础上，本文提出了一种混合连接架构，该架构统一了 ResNet 和 DenseNet 的拓扑设计，使网络获得了更高的参数效率。同时，本文从现有注意力架构设计中存在的空间注意力掩码过于单一、用于注意力掩码生成的信息源不够丰富等局限性出发，提出了轻量级的空间分组增强 (Spatial Group-wise Enhance, SGE) 架构，从而增加了空间注意力掩码及其信息源的维度，以几乎可以忽略不计的额外代价进一步提升了基准网络在图像分类和检测任务中的性能。最后，为了解决非常特殊的线状物体的检测问题，以及现有的两阶段的方法无法很好地捕捉车道线的全局特征表示，本文对卷积网络的底层设计进行了调整与改进，提出了一种线提议卷积网络架构 (Line Proposal Unit, LPU)，借助射线参考系的数据结构表征让网络能够端到端地捕捉学习整条线在图像中的全局特征，进而得到精准的车道线检测结果。本文的方法在多个数据集上超越了此前的最优方法，其算法原型已应用部署到实际的产品中。

(2) 深度卷积神经网络在优化的过程中会存在一系列问题，例如多个模块之间的优化冲突。本文从该角度出发，研究了具体的 “两个冲突” 问题：在 “第一个冲突” 中，本文从理论和实验两个方面探索了特征批归一化 (Batch Normalization, BN) 与随机丢弃方法 (Dropout) 的冲突。其根源是来自网络从训练状态切换为测试状态时产生的 “方差偏移”，从而造成了网络识别性能的下降。进一步，本文通过调整模块的位置以及引入对方差变化不敏感的随机丢弃方法来消除或减弱方差偏移带来的影响；在 “第二个冲突” 中，本文从理论和实验两个方面研究了权重归一化 (Weight Normalization, WN) 家族与权重衰减 (Weight Decay, WD) 的冲突，它主要体现在权重归一化在优化过程中梯度与权重模长成反比而带来的训练不充分或不稳定等现象。对此本文引入 ϵ 偏移的二范数正则项，从而限制模长的过度衰减，防止梯度浮点溢出，在大幅提升训练稳定性的同时，网络的识别性能也获得了一定的增益。