【博士论文】辨识性特征学习及在细粒度分析中的应用

辨识性特征学习及在细粒度分析中的应用

细粒度分析旨在对粗粒度的大类进行细粒度的子类划分，如把鸟划分为里海燕鸥、北极燕鸥等子类别。其广泛应用于智能农业、智能医疗等智能产业，具有重要的研究和应用价值。其挑战在于类间差异小、类内差异大。以图像为例，不同子类别在形状、颜色上差异细微，难以区分；相同子类别在姿态、视角上差异显著，容易误分。因此，关键科学问题是：如何获取细粒度子类别的辨识性信息并有效表达，突破细粒度分析难题。针对上述问题，本文从减少标注成本、减少人工先验、提高辨识速度、提高语义关联四个方面展开辨识性特征学习研究，并分别应用于细粒度图像分类和细粒度跨媒体检索任务。主要工作总结如下：

在减少标注成本上，提出了基于对象-部件注意力模型的细粒度图像分类方法。在对象级注意力上，提出注意力选择和显著性提取，自动定位对象区域，学习更精细的对象特征。在部件级注意力上，提出空间关联约束和部件语义对齐，实现辨识性部件的有效定位，排除了姿态、视角等差异的干扰。两者结合能够学习到多粒度的辨识性特征，准确率超过了使用对象、部件人工标注的强监督方法。
在减少人工先验上，提出了基于堆叠式深度强化学习的细粒度图像分类方法。首先，层次化地定位图像中的多粒度辨识性区域，并自适应地确定其数目。然后，通过多尺度区域的定位及辨识性特征学习，进一步提升细粒度图像分类准确率。学习过程由语义奖励函数驱动，能够有效捕捉图像中的辨识性、概念性的视觉信息，实现弱监督甚至无监督条件下的辨识性特征学习。
在提高辨识速度上，提出了基于弱监督快速辨识定位的细粒度图像分类方法。首先，提出多级注意力引导的辨识性定位，通过显著图生成伪监督信息，实现了弱监督条件下的辨识性定位。进一步显著图驱动二次定位学习，增强了定位的准确性。然后，提出多路端到端辨识性定位网络，实现多个辨识性区域的同时定位，从而提高了辨识速度。多个辨识性区域之间互补促进，提升细粒度图像分类准确率。
在提高语义关联上，引入文本、视频、音频等跨媒体数据，提出了基于细粒度分类的跨媒体检索方法。建立了首个包含 4 种媒体类型（图像、文本、视频和音频）的细粒度跨媒体检索公开数据集和评测基准 PKU FG-XMedia。提出了能够同时学习 4 种媒体统一表征的深度模型 FGCrossNet，确保统一表征的辨识性、类内紧凑性和类间松散性。实现图像向跨媒体的扩展，分类向检索的扩展。

成为VIP会员查看完整内容

相关内容

博士论文

关注 116

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【博士论文】面向文本生成的深度序列模型研究

专知会员服务

56+阅读 · 2020年12月20日

【博士论文】深度预测学习问题与方法研究

专知会员服务

82+阅读 · 2020年12月18日

【博士论文】复杂场景中的人群行为解析及其应用

专知会员服务

45+阅读 · 2020年12月8日

【博士论文】基于深度学习的图像处理算法研究

专知会员服务

80+阅读 · 2020年12月6日