【导读】计算机视觉顶会CVPR 2020在不久前公布了论文接收列表。本届CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率仅为22%。近期,一些Paper放出来,Domain Adaptation(域自适应)相关研究非常火热,特别是基于Domain Adaptation的视觉应用在今年的CVPR中有不少,专知小编整理了CVPR 2020 域自适应(DA)相关的比较有意思的值得阅读的六篇论文,供大家参考—行为分割、语义分割、目标检测、行为识别、域自适应检索。

  1. Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

作者:Min-Hung Chen, Baopu Li, Yingze Bao, Ghassan AlRegib, Zsolt Kira

摘要:尽管最近在全监督行为分割(action segmentation)技术方面取得了一些进展,但性能仍然不尽如人意。一个主要挑战是时空变化问题(例如,不同的人可能以不同的方式进行相同的活动)。因此,我们利用无标签视频将行为分割任务重新表述为一个具有时空变化引起的域差异的跨域问题来解决上述时空变化问题。为了减少这种域差异,我们提出了自监督时域自适应(SSTDA),它包含两个自监督辅助任务(二进制和序列域预测)来联合对齐嵌入局部和全局时间动态的跨域特征空间,取得了比其他域自适应(DA)方法更好的性能。在三个具有挑战性的基准数据集(GTEA、50Salads和Breakfast)上,SSTDA的表现远远超过当前最先进的方法(在Breakfas上F1@25得分从59.6%到69.1%,在50Salads上F1@25得分从73.4%到81.5%,在GTEA上F1@25得分从83.6%到89.1%),并且只需要65%的标记训练数据来就实现了该性能,这表明了SSTDA在各种变化中适应未标记目标视频的有效性。

网址:https://arxiv.org/abs/2003.02824

代码链接:https://github.com/cmhungsteve/SSTDA

  1. Differential Treatment for Stuff and Things:A Simple Unsupervised Domain Adaptation Method for Semantic Segmentation

作者:Zhonghao Wang, Mo Yu, Yunchao Wei, Rogerior Feris, Jinjun Xiong, Wen-mei Hwu, Thomas S. Huang, Honghui Shi

摘要:本文通过缓解源域(合成数据)和目标域(真实数据)之间的域转换(domain shift),研究语义分割中的无监督域自适应问题。之前的方法证明,执行语义级对齐有助于解决域转换问题。我们观察到事物类别通常在不同域的图像之间具有相似的外观,而事物(即目标实例)具有更大的差异,我们提出使用针对填充(stuff)区域和事物的不同策略来改进语义级别的对齐方式:1)对于填充类别,我们为每一类生成特征表示,并进行从目标域到源域的对齐操作;2)对于事物(thing)类别,我们为每个单独的实例生成特征表示,并鼓励目标域中的实例与源域中最相似的实例对齐。以这种方式,事物类别内的个体差异也将被考虑,以减轻过度校准。除了我们提出的方法之外,我们还进一步揭示了当前对抗损失在最小化分布差异方面经常不稳定的原因,并表明我们的方法可以通过最小化源域和目标域之间最相似的内容和实例特征来帮助缓解这个问题。

网址:https://arxiv.org/abs/2003.08040

  1. Exploring Categorical Regularization for Domain Adaptive Object Detection

作者:Chang-Dong Xu, Xing-Ran Zhao, Xin Jin, Xiu-Shen Wei

摘要:在本文中,我们解决了域自适应目标检测问题,其中的主要挑战在于源域和目标域之间存在明显的域差距。以前的工作试图明确地对齐图像级和实例级的移位,以最小化域差异。然而,它们仍然忽略了去匹配关键图像区域和重要的跨域实例,这将严重影响域偏移缓解。在这项工作中,我们提出了一个简单有效的分类正则化框架来缓解这个问题。它可以作为一个即插即用(plug-and-play)组件应用于一系列域自适应Faster R-CNN方法,这些方法在处理域自适应检测方面表现突出。具体地说,由于分类方式的定位能力较弱,通过在检测主干上集成图像级多标签分类器,可以获得与分类信息相对应的稀疏但关键的图像区域。同时,在实例级,我们利用图像级预测(分类器)和实例级预测(检测头)之间的分类一致性作为正则化因子,自动寻找目标域的硬对齐实例。各种域转移场景的大量实验表明,与原有的域自适应Faster R-CNN检测器相比,我们的方法获得了显着的性能提升。此外,定性的可视化和分析可以证明我们的方法能够关注针对领域适配的关键区域/实例。

网址:https://arxiv.org/abs/2003.09152

代码链接:https://github.com/Megvii-Nanjing/CR-DA-DET

  1. Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

作者:Jonathan Munro, Dima Damen

摘要:细粒度行为识别数据集存在出环境偏差,多个视频序列是从有限数量的环境中捕获的。在一个环境中训练模型并在另一个环境中部署会由于不可避免的域转换而导致性能下降。无监督域适应(UDA)方法经常利用源域和目标域之间进行对抗性训练。然而,这些方法并没有探索视频在每个域中的多模式特性。在这项工作中,除了对抗性校准之外,我们还利用模态之间的对应关系作为UDA的一种自监督校准方法。

我们在大规模数据集EPIC-Kitchens中的三个kitchens上使用行为识别的两种模式:RGB和光学流(Optical Flow)测试了我们的方法。结果显示,仅多模态自监督比仅进行源训练的性能平均提高了2.4%。然后,我们将对抗训练与多模态自监督相结合,表明我们的方法比其他UDA方法要好3%。

网址:https://arxiv.org/abs/2001.09691

  1. Learning Texture Invariant Representation for Domain Adaptation of Semantic Segmentation

作者:Myeongjin Kim, Hyeran Byun

摘要:由于用于语义分割的像素级标签标注很费力,因此利用合成数据是一种更好的解决方案。然而,由于合成域和实域之间存在领域鸿沟,用合成数据训练的模型很难推广到真实数据。本文将这两个领域之间的根本差异作为纹理,提出了一种自适应目标域纹理的方法。首先,我们使用样式转移算法使合成图像的纹理多样化。合成图像的各种纹理防止分割模型过拟合到一个特定(合成)纹理。然后,通过自训练对模型进行微调,得到对目标纹理的直接监督。我们的结果达到了最先进的性能,并通过大量的实验分析了在多样化数据集上训练的模型的性质。

网址:https://arxiv.org/abs/2003.00867

  1. Probability Weighted Compact Feature for Domain Adaptive Retrieval

作者:Fuxiang Huang, Lei Zhang, Yang Yang, Xichuan Zhou

摘要:域自适应图像检索包括单域检索和跨域检索。现有的图像检索方法大多只关注单个域的检索,假设检索数据库和查询的分布是相似的。然而,在实际应用中,通常在理想光照/姿态/背景/摄像机条件下获取的检索数据库与在非受控条件下获得的查询之间的差异很大。本文从实际应用的角度出发,重点研究跨域检索的挑战性问题。针对这一问题,我们提出了一种有效的概率加权紧凑特征学习(PWCF)方法,它提供域间相关性指导以提高跨域检索的精度,并学习一系列紧凑二进制码(compact binary codes)来提高检索速度。首先,我们通过最大后验估计(MAP)推导出我们的损失函数:贝叶斯(BP)诱发的focal-triplet损失、BP诱发的quantization损失和BP诱发的分类损失。其次,我们提出了一个通用的域间复合结构来探索域间的潜在相关性。考虑到原始特征表示因域间差异而存在偏差,复合结构难以构造。因此,我们从样本统计的角度提出了一种新的特征—邻域直方图特征(HFON)。在不同的基准数据库上进行了大量的实验,验证了我们的方法在领域自适应图像检索中的性能优于许多最先进的图像检索方法。

网址:https://arxiv.org/abs/2003.03293

代码链接:https://github.com/fuxianghuang1/PWCF

成为VIP会员查看完整内容
0
73

相关内容

CVPR is the premier annual computer vision event comprising the main conference and several co-located workshops and short courses. With its high quality and low cost, it provides an exceptional value for students, academics and industry researchers. CVPR 2020 will take place at The Washington State Convention Center in Seattle, WA, from June 16 to June 20, 2020. http://cvpr2020.thecvf.com/

【导读】作为计算机视觉领域的三大国际顶会之一,IEEE国际计算机视觉与模式识别会议 CVPR 每年都会吸引全球领域众多专业人士参与。由于受COVID-19疫情影响,原定于6月16日至20日在华盛顿州西雅图举行的CVPR 2020将全部改为线上举行。今年的CVPR有6656篇有效投稿,最终有1470篇论文被接收,接收率为22%左右。之前小编为大家整理过CVPR 2020 GNN 相关论文,这周小编继续为大家整理了五篇CVPR 2020 图神经网络(GNN)相关论文,供大家参考——行为识别、少样本学习、仿射跳跃连接、多层GCN、3D视频目标检测。

CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN

1. Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition

作者:Ziyu Liu, Hongwen Zhang, Zhenghao Chen, Zhiyong Wang, Wanli Ouyang

摘要:基于骨架的动作识别算法广泛使用时空图对人体动作动态进行建模。为了从这些图中捕获鲁棒的运动模式,长范围和多尺度的上下文聚合与时空依赖建模是一个强大的特征提取器的关键方面。然而,现有的方法在实现(1)多尺度算子下的无偏差长范围联合关系建模和(2)用于捕捉复杂时空依赖的通畅的跨时空信息流方面存在局限性。在这项工作中,我们提出了(1)一种简单的分解(disentangle)多尺度图卷积的方法和(2)一种统一的时空图卷积算子G3D。所提出的多尺度聚合方法理清了不同邻域中节点对于有效的远程建模的重要性。所提出的G3D模块利用密集的跨时空边作为跳过连接(skip connections),用于在时空图中直接传播信息。通过耦合上述提议,我们开发了一个名为MS-G3D的强大的特征提取器,在此基础上,我们的模型在三个大规模数据集NTU RGB+D60,NTU RGB+D120和Kinetics Skeleton 400上的性能优于以前的最先进方法。

网址: https://arxiv.org/pdf/2003.14111.pdf

代码链接: github.com/kenziyuliu/ms-g3d

2. DPGN: Distribution Propagation Graph Network for Few-shot Learning

作者:Ling Yang, Liangliang Li, Zilun Zhang, Xinyu Zhou, Erjin Zhou, Yu Liu

摘要:大多数基于图网络的元学习方法都是为实例的instance-level关系进行建模。我们进一步扩展了此思想,以1-vs-N的方式将一个实例与所有其他实例的分布级关系明确建模。我们提出了一种新的少样本学习方法--分布传播图网络(DPGN)。它既表达了每个少样本学习任务中的分布层次关系,又表达了实例层次关系。为了将所有实例的分布层关系和实例层关系结合起来,我们构造了一个由点图和分布图组成的对偶全图网络,其中每个节点代表一个实例。DPGN采用双图结构,在更新时间内将标签信息从带标签的实例传播到未带标签的实例。在少样本学习的大量基准实验中,DPGN在监督设置下以5%∼12%和在半监督设置下以7%∼13%的优势大大超过了最新的结果。

网址: https://arxiv.org/pdf/2003.14247.pdf

代码链接: https://github.com/megvii-research/DPGN

3. Geometrically Principled Connections in Graph Neural Networks

作者:Shunwang Gong, Mehdi Bahri, Michael M. Bronstein, Stefanos Zafeiriou

摘要:图卷积操作为以前认为遥不可及的各种图形和网格处理任务带来了深度学习的优势。随着他们的持续成功,人们希望设计更强大的体系结构,这通常是将现有的深度学习技术应用于非欧几里得数据。在这篇文章中,我们认为几何应该仍然是几何深度学习这一新兴领域创新的主要驱动力。我们将图神经网络与广泛成功的计算机图形和数据近似模型(径向基函数(RBF))相关联。我们推测,与RBF一样,图卷积层将从向功能强大的卷积核中添加简单函数中受益。我们引入了仿射跳跃连接 (affine skip connections),这是一种通过将全连接层与任意图卷积算子相结合而形成的一种新的构建块。通过实验证明了我们的技术的有效性,并表明性能的提高是参数数量增加的结果。采用仿射跳跃连接的算子在形状重建、密集形状对应和图形分类等每一项任务上的表现都明显优于它们的基本性能。我们希望我们简单有效的方法将成为坚实的基准,并有助于简化图神经网络未来的研究。

网址: https://arxiv.org/pdf/2004.02658.pdf

4. L^2-GCN: Layer-Wise and Learned Efficient Training of Graph Convolutional Networks

作者:Yuning You, Tianlong Chen, Zhangyang Wang, Yang Shen

摘要:图卷积网络(GCN)在许多应用中越来越受欢迎,但在大型图形数据集上的训练仍然是出了名的困难。它们需要递归地计算邻居的节点表示。当前的GCN训练算法要么存在随层数呈指数增长的高计算成本,要么存在加载整个图和节点嵌入的高内存使用率问题。本文提出了一种新的高效的GCN分层训练框架(L-GCN),该框架将训练过程中的特征聚合和特征变换分离开来,从而大大降低了时间和存储复杂度。我们在图同构框架下给出了L-GCN的理论分析,在温和的条件下,与代价更高的传统训练算法相比L-GCN可以产生同样强大的GCN。我们进一步提出了L2-GCN,它为每一层学习一个控制器,该控制器可以自动调整L-GCN中每一层的训练周期。实验表明,L-GCN比现有技术快至少一个数量级,内存使用量的一致性不依赖于数据集的大小,同时保持了还不错的预测性能。通过学习控制器,L2-GCN可以将训练时间进一步减少一半。

网址: https://arxiv.org/pdf/2003.13606.pdf

代码链接: https://github.com/Shen-Lab/L2-GCN

补充材料:

https://slack-files.com/TC7R2EBMJ-F012C60T335-281aabd097

5. LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention

作者:Junbo Yin, Jianbing Shen, Chenye Guan, Dingfu Zhou, Ruigang Yang

摘要:现有的基于LiDAR的3D目标检测算法通常侧重于单帧检测,而忽略了连续点云帧中的时空信息。本文提出了一种基于点云序列的端到端在线3D视频对象检测器。该模型包括空间特征编码部分和时空特征聚合部分。在前一个组件中,我们提出了一种新的柱状消息传递网络(Pillar Message Passing Network,PMPNet)来对每个离散点云帧进行编码。它通过迭代信息传递的方式自适应地从相邻节点收集柱节点的信息,有效地扩大了柱节点特征的感受野。在后一组件中,我们提出了一种注意力时空转换GRU(AST-GRU)来聚合时空信息,通过注意力记忆门控机制增强了传统的ConvGRU。AST-GRU包含一个空间Transformer Attention(STA)模块和一个时间Transformer Attention(TTA)模块,分别用于强调前景对象和对齐动态对象。实验结果表明,所提出的3D视频目标检测器在大规模的nuScenes基准测试中达到了最先进的性能。

网址: https://arxiv.org/pdf/2004.01389.pdf

代码链接: https://github.com/yinjunbo/3DVID

成为VIP会员查看完整内容
0
74

【导读】计算机视觉顶会CVPR 2020在不久前公布了论文接收列表。本届CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率仅为22%。几周前专知小编整理了CVPR 2020 图神经网络(GNN)相关的比较有意思的值得阅读的,这期小编继续为大家奉上CVPR 2020五篇GNN相关论文供参考——视频文本检索、人体解析、图像描述生成、人脸重构、Human-Object Interaction。

CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN、ICML2019GNN

  1. Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning

作者:Shizhe Chen, Yida Zhao, Qin Jin and Qi Wu

摘要:随着视频在网络上的迅速涌现,视频和文本之间的跨模态检索越来越受到人们的关注。目前解决这一问题的主流方法是学习联合嵌入空间来度量跨模态相似性。然而,简单的联合嵌入不足以表示复杂的视觉和文本细节,例如场景、对象、动作及他们的组成。为了提高细粒度的视频文本检索,我们提出了一种分层图推理(HGR)模型,将视频文本匹配分解为全局到局部层次。具体地说,该模型将文本分解成层次化的语义图,包括事件、动作、实体这三个层次和这些层次之间的关系。利用基于属性的图推理生成层次化的文本嵌入,以指导多样化、层次化的视频表示学习。HGR模型聚合来自不同视频-文本级别的匹配,以捕捉全局和局部细节。在三个视频文本数据集上的实验结果表明了该模型的优越性。这种分层分解还可以更好地跨数据集进行泛化,并提高区分细粒度语义差异的能力。

网址:https://arxiv.org/abs/2003.00392

  1. Hierarchical Human Parsing with Typed Part-Relation Reasoning

作者:Wenguan Wang, Hailong Zhu, Jifeng Dai, Yanwei Pang, Jianbing Shen and Ling Shao

摘要:人体解析(Human parsing)是为了像素级的人类语义理解。由于人体是具有层次结构的,因此如何对人体结构进行建模是这个任务的中心主题。围绕这一点,我们试图同时探索深度图网络的表示能力和层次化的人类结构。在本文中,我们有以下两个贡献。首先,首次用三个不同的关系网络完整而精确地描述了分解、组合和依赖这三种部件关系。这与以前的解析方式形成了鲜明的对比,之前的解析器只关注关系的一部分,并采用类型不可知(type-agnostic)的关系建模策略。通过在关系网络中显式地施加参数来满足不同关系的具体特性,可以捕捉到更具表现力的关系信息。其次,以前的解析器在很大程度上忽略了循环的人类层次结构上的近似算法的需求,而我们则通过将具有边类型的通用信息传递网络与卷积网络同化来解决迭代推理过程。通过这些努力,我们的解析器为更复杂、更灵活的人际关系推理模式奠定了基础。在五个数据集上的综合实验表明,我们的解析器在每个数据集上都具有最好的表现。

网址:https://arxiv.org/abs/2003.04845

  1. Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

作者:Shizhe Chen, Qin Jin, Peng Wang and Qi Wu

摘要:人类能够随心所欲地用粗略到精细的细节来描述图像内容。然而,大多数图像描述生成模型都是忽略意图(intention-agnostic)的,不能根据不同的用户意图主动生成不同的描述。在这项工作中,我们提出了抽象场景图(ASG)结构来在细粒度层次上表示用户意图,并控制生成的描述应该是什么和有多详细。ASG是一个由三种类型的抽象节点(对象、属性、关系)组成的有向图,这些节点来自于图像,没有任何具体的语义标签。因此,啊他们通过手动或自动生成都很容易获得。在ASG的基础上,我们提出了一种新颖的ASG2图像描述生成模型,该模型能够识别用户在图中的意图和语义,从而根据图的结构生成想要的字幕。与在VisualGenome和MSCOCO数据集上的其它的基线模型相比,我们的模型在ASG上具有更好的可控性条件。它还通过自动采样不同的ASG作为控制信号,显著提高了caption的多样性。

网址:https://arxiv.org/abs/2003.00387

  1. Towards High-Fidelity 3D Face Reconstruction from In-the-Wild Images Using Graph Convolutional Networks

作者:Jiangke Lin, Yi Yuan, Tianjia Shao and Kun Zhou

摘要:基于三维形变模型(3DMM)的方法在从单视图图像中恢复三维人脸形状方面取得了很大的成功。然而,用这种方法恢复的面部纹理缺乏像输入图像中表现出的逼真度。最近的工作采用生成网络来恢复高质量的面部纹理,这些网络是从一个大规模的高分辨率脸部纹理UV图数据库中训练出来的,这些数据库很难准备的,也不能公开使用。本文介绍了一种在无约束条件下捕获(in-the-wild)的单视图像中重建具有高保真纹理的三维人脸形状的方法,该方法不需要获取大规模的人脸纹理数据库。为此,我们提出使用图卷积网络来重建网格顶点的细节颜色来代替重建UV地图。实验表明,我们的方法可以产生高质量的结果,并且在定性和定量比较方面都优于最先进的方法。

网址:https://arxiv.org/abs/2003.05653

  1. VSGNet: Spatial Attention Network for Detecting Human Object Interactions Using Graph Convolutions

作者:Oytun Ulutan, A S M Iftekhar and B. S. Manjunath

摘要:全面的视觉理解要求检测框架能够在单独分析物体的同时有效地学习和利用物体交互。这是人类-物体交互(Human-Object Interaction,HOI)任务的主要目标。特别是,物体之间的相对空间推理和结构联系是分析交互的基本线索,文中提出的视觉-空间-图网络(VSGNet)体系结构可以解决这一问题。VSGNet从人类-物体对中提取视觉特征,利用人类-物体对的空间构型对特征进行细化,并通过图卷积利用人类-物体对之间的结构联系。我们使用COCO(V-COCO)和HICO-Det数据集中的动词对VSGNet的性能进行了全面评估。实验结果表明,VSGNet在V-COCO和HICO-DET中的性能分别比现有解决方案高出8%或4MAP和16%或3MAP。

网址:https://arxiv.org/abs/2003.05541

代码链接:https://github.com/ASMIftekhar/VSGNet

成为VIP会员查看完整内容
0
76

【导读】计算机视觉顶会CVPR 2020在不久前公布了论文接收列表。本届CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率仅为22%。近期,一些Paper放出来,专知小编整理了CVPR 2020 图神经网络(GNN)相关的比较有意思的值得阅读的五篇论文,供大家参考—点云分析、视频描述生成、轨迹预测、场景图生成、视频理解等。

1. Grid-GCN for Fast and Scalable Point Cloud Learning

作者:Qiangeng Xu, Xudong Sun, Cho-Ying Wu, Panqu Wang and Ulrich Neumann

摘要:由于点云数据的稀疏性和不规则性,越来越多的方法直接使用点云数据。在所有基于point的模型中,图卷积网络(GCN)通过完全保留数据粒度和利用点间的相互关系表现出显著的性能。然而,基于点的网络在数据结构化(例如,最远点采样(FPS)和邻接点查询)上花费了大量的时间,限制了其速度和可扩展性。本文提出了一种快速、可扩展的点云学习方法--Grid-GCN。Grid-GCN采用了一种新颖的数据结构策略--Coverage-Aware Grid Query(CAGQ)。通过利用网格空间的效率,CAGQ在降低理论时间复杂度的同时提高了空间覆盖率。与最远的点采样(FPS)和Ball Query等流行的采样方法相比,CAGQ的速度提高了50倍。通过网格上下文聚合(GCA)模块,Grid-GCN在主要点云分类和分割基准上实现了最先进的性能,并且运行时间比以前的方法快得多。值得注意的是,在每个场景81920个点的情况下,Grid-GCN在ScanNet上的推理速度达到了50fps。

网址:https://arxiv.org/abs/1912.02984

2. Object Relational Graph with Teacher-Recommended Learning for Video Captioning

作者:Ziqi Zhang, Yaya Shi, Chunfeng Yuan, Bing Li, Peijin Wang, Weiming Hu and Zhengjun Zha

摘要:充分利用视觉和语言的信息对于视频字幕任务至关重要。现有的模型由于忽视了目标之间的交互而缺乏足够的视觉表示,并且由于长尾(long-tailed)问题而对与内容相关的词缺乏足够的训练。在本文中,我们提出了一个完整的视频字幕系统,包括一种新的模型和一种有效的训练策略。具体地说,我们提出了一种基于目标关系图(ORG)的编码器,该编码器捕获了更详细的交互特征,以丰富视觉表示。同时,我们设计了一种老师推荐学习(Teacher-Recommended Learning, TRL)的方法,充分利用成功的外部语言模型(ELM)将丰富的语言知识整合到字幕模型中。ELM生成了在语义上更相似的单词,这些单词扩展了用于训练的真实单词,以解决长尾问题。 对三个基准MSVD,MSR-VTT和VATEX进行的实验评估表明,所提出的ORG-TRL系统达到了最先进的性能。 广泛的消去研究和可视化说明了我们系统的有效性。

网址:https://arxiv.org/abs/2002.11566

3. Social-STGCNN: A Social Spatio-Temporal Graph Convolutional Neural Network for Human Trajectory Prediction

作者:Abduallah Mohamed and Kun Qian

摘要:有了更好地了解行人行为的机器可以更快地建模智能体(如:自动驾驶汽车)和人类之间的特征交互。行人的运动轨迹不仅受行人自身的影响,还受与周围物体相互作用的影响。以前的方法通过使用各种聚合方法(整合了不同的被学习的行人状态)对这些交互进行建模。我们提出了社交-时空图卷积神经网络(Social-STGCNN),它通过将交互建模为图来代替聚合方法。结果表明,最终位偏误差(FDE)比现有方法提高了20%,平均偏移误差(ADE)提高了8.5倍,推理速度提高了48倍。此外,我们的模型是数据高效的,在只有20%的训练数据上ADE度量超过了以前的技术。我们提出了一个核函数来将行人之间的社会交互嵌入到邻接矩阵中。通过定性分析,我们的模型继承了行人轨迹之间可以预期的社会行为。

网址:https://arxiv.org/abs/2002.11927

代码链接:

https://github.com/abduallahmohamed/Social-STGCNN

4. Unbiased Scene Graph Generation from Biased Training

作者:Kaihua Tang, Yulei Niu, Jianqiang Huang, Jiaxin Shi and Hanwang Zhang

摘要:由于严重的训练偏差,场景图生成(SGG)的任务仍然不够实际,例如,将海滩上的各种步行/坐在/躺下的人简化为海滩上的人。基于这样的SGG,VQA等下游任务很难推断出比一系列对象更好的场景结构。然而,SGG中的debiasing 是非常重要的,因为传统的去偏差方法不能区分好的和不好的偏差,例如,好的上下文先验(例如,人看书而不是吃东西)和坏的长尾偏差(例如,将在后面/前面简化为邻近)。与传统的传统的似然推理不同,在本文中,我们提出了一种新的基于因果推理的SGG框架。我们首先为SGG建立因果关系图,然后用该因果关系图进行传统的有偏差训练。然后,我们提出从训练好的图中提取反事实因果关系(counterfactual causality),以推断应该被去除的不良偏差的影响。我们使用Total Direct Effect作为无偏差SGG的最终分数。我们的框架对任何SGG模型都是不可知的,因此可以在寻求无偏差预测的社区中广泛应用。通过在SGG基准Visual Genome上使用我们提出的场景图诊断工具包和几种流行的模型,与以前的最新方法相比有显著提升。

网址:https://arxiv.org/abs/2002.11949

代码链接:

https://github.com/KaihuaTang/Scene-Graph-Benchmark.pytorch

5. Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences

作者:Zhu Zhang, Zhou Zhao, Yang Zhao, Qi Wang, Huasheng Liu and Lianli Gao

摘要:在本文中,我们考虑了一项用于多形式句子(Multi-Form Sentences)的时空Video Grounding(STVG)的任务。 即在给定未剪辑的视频和描述对象的陈述句/疑问句,STVG旨在定位所查询目标的时空管道(tube)。STVG有两个具有挑战性的设置:(1)我们需要从未剪辑的视频中定位时空对象管道,但是对象可能只存在于视频的一小段中;(2)我们需要处理多种形式的句子,包括带有显式宾语的陈述句和带有未知宾语的疑问句。 由于无效的管道预生成和缺乏对象关系建模,现有方法无法解决STVG任务。为此,我们提出了一种新颖的时空图推理网络(STGRN)。首先,我们构建时空区域图来捕捉具有时间对象动力学的区域关系,包括每帧内的隐式、显式空间子图和跨帧的时间动态子图。然后,我们将文本线索加入到图中,并开发了多步跨模态图推理。接下来,我们引入了一种具有动态选择方法的时空定位器,该定位器可以直接检索时空管道,而不需要预先生成管道。此外,我们在视频关系数据集Vidor的基础上构建了一个大规模的video grounding数据集VidSTG。大量的实验证明了该方法的有效性。

网址:https://arxiv.org/abs/2001.06891

成为VIP会员查看完整内容
0
74

题目: Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

摘要: 细粒度动作识别数据集表现出环境偏差,其中多个视频序列是从有限数量的环境中捕获的。在一个环境中训练一个模型,然后部署到另一个环境中,由于不可避免的领域转换,会导致性能下降。无监督域适应(UDA)方法经常用于源域和目标域之间的对抗训练。然而,这些方法并没有探索视频在每个领域的多模态性质。在这个工作我们利用模式的通信作为UDA self-supervised对齐的方法除了敌对的对齐(图1),我们测试我们的方法在三个厨房从大规模的数据集,EPIC-Kitchens,使用两种方法通常用于行为识别:RGB和光学流。结果表明,多模态的自监督比单纯的训练平均提高了2.4%。然后我们将对抗训练与多模态自我监督相结合,结果表明我们的方法比其他的UDA方法高3%。

成为VIP会员查看完整内容
0
68

人工智能领域的顶会AAAI 2020将在2020年2月7日-12日在美国纽约举行。据官方统计消息,AAAI 2020今年共收到的有效论文投稿超过 8800 篇,其中 7737 篇论文进入评审环节,最终收录数量为 1591 篇,接收率 20.6%。开会在即,专知小编提前整理了AAAI 2020图神经网络(GNN)相关的接收论文,让大家先睹为快——跨模态、部分标签学习、交通流预测、少样本学习、贝叶斯图神经网络。

  1. Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification

作者:Renchun You, Zhiyao Guo, Lei Cui, Xiang Long, Yingze Bao, Shilei Wen

摘要:多标签图像和视频分类是计算机视觉中最基本也是最具挑战性的任务。主要的挑战在于捕获标签之间的空间或时间依赖关系,以及发现每个类的区别性特征的位置。为了克服这些挑战,我们提出将语义图嵌入的跨模态注意力机制用于多标签分类。基于所构造的标签图,我们提出了一种基于邻接关系的相似图嵌入方法来学习语义标签嵌入,该方法显式地利用了标签之间的关系。在学习标签嵌入的指导下,生成我们新颖的跨模态注意力图。在两个多标签图像分类数据集(MS-COCO和NUS-WIDE)上的实验表明,我们的方法优于其他现有的方法。此外,我们在一个大的多标签视频分类数据集(YouTube-8M Segments)上验证了我们的方法,评估结果证明了我们的方法的泛化能力。

网址: https://arxiv.org/abs/1912.07872

  1. General Partial Label Learning via Dual Bipartite Graph Autoencoder

作者:Brian Chen, Bo Wu, Alireza Zareian, Hanwang Zhang, Shih-Fu Chang

摘要:我们提出了一个实际但有挑战性的问题: 通用部分标签学习(General Partial Label Learning,GPLL)。相比传统的部分标签学习(Partial Label Learning,PLL)问题, GPLL将监督假设从从实例级别(标签集部分标记一个实例)放到了组级别: 1)标签集部分标签了一组实例, 其中组内 instance-label link annotations 丢失, 2)组间的link是允许的——组中的实例可以部分链接到另一个组中的标签集。这种模糊的组级监督在实际场景中更实用,因为不再需要实例级的附加标注,例如,在视频中组由一个帧中的人脸组成,并在相应的标题中使用名称集进行标记,因此不再需要对实例级进行命名。本文提出了一种新的图卷积网络(GCN)——Dual Bipartite Graph Autoencoder (DB-GAE)来解决GPLL的标签模糊问题。首先,我们利用组间的相互关系将实例组表示为dual bipartite图:组内图和组间图,它们相互补充以解决链接的歧义。其次,我们设计了一个GCN自动编码器来对它们进行编码和解码,其中的解码被认为是经过改进的结果。值得注意的是DB-GAE是自监督和转导的,因为它只使用组级的监督,而没有单独的offline训练阶段。对两个真实数据集的大量实验表明,DB-GAEG跟最佳baseline相比有着绝对的提升,0.159 的F1 score和24.8%的accuracy。我们还进一步分析了标签歧义的各个层次。

网址:

https://arxiv.org/abs/2001.01290

  1. GMAN: A Graph Multi-Attention Network for Traffic Prediction

作者:Chuanpan Zheng, Xiaoliang Fan, Cheng Wang, Jianzhong Qi

摘要:由于交通系统的复杂性和影响因素的不断变化,长期的交通预测具有很大的挑战性。在本文中,我们以时空因素为研究对象,提出了一种多注意力图网络(graph multi-attention network ,GMAN)来预测道路网络图中不同位置的时间步长的交通状况。GMAN采用了一种encoder-decoder结构,其中编码器和解码器都由多个时空注意力块组成,以模拟时空因素对交通条件的影响。编码器对输入流量特征进行编码,解码器对输出序列进行预测。在编码器和解码器之间,应用转换注意力层来转换已编码的流量特征,以生成未来时间步长的序列表示作为解码器的输入。转换注意力机制模拟了历史时间步长与未来时间步长之间的直接关系,有助于缓解预测时间步长之间的误差传播问题。在两个现实世界中的交通预测任务(即交通量预测和交通速度预测)上的实验结果证明了GMAN的优越性。特别地,在提前1个小时的预测中,GMAN的MAE指标提高了4%,优于最新技术。源代码可在https://github.com/zhengchuanpan/GMAN找到。

网址:

https://arxiv.org/abs/1911.08415

  1. Graph Few-shot Learning via Knowledge Transfer

作者:Huaxiu Yao, Chuxu Zhang, Ying Wei, Meng Jiang, SuhangWang, Junzhou Huang, Nitesh V. Chawla, Zhenhui Li

摘要:对于具有挑战性的半监督节点分类问题,已经进行了广泛的研究。图神经网络(GNNs)作为一个前沿领域,近年来引起了人们极大的兴趣。然而,大多数GNN具有较浅的层,接收域有限,并且可能无法获得令人满意的性能,特别是在标记节点数量很少的情况下。为了解决这一问题,我们创新性地提出了一种基于辅助图的先验知识的graph few-shot learning (GFL)算法,以提高目标图的分类精度。具体来说,辅助图与目标之间共享一个可迁移的度量空间,该空间以节点嵌入和特定于图的原型嵌入函数为特征,便于结构知识的传递。对四个真实世界图数据集的大量实验和消融研究证明了我们提出的模型的有效性以及每个组件的贡献。

网址:

https://arxiv.org/abs/1910.03053

  1. Learning Cross-Modal Context Graph for Visual Grounding

作者:Yongfei Liu, Bo Wan, Xiaodan Zhu, Xuming He

摘要:Visual grounding是许多视觉语言任务中普遍存在的一个基本单元,但由于grounding实体的视觉和语言特征的巨大差异、强大的语境效应以及由此产生的语义歧义,visual grounding仍然具有挑战性。以前的研究主要集中在学习单个短语在有限的语境信息下的表达。针对其局限性,本文提出了一种languageguided graph representation表示方法来捕获grounding实体的全局上下文及其关系,并针对多短语visual grounding任务开发了一种跨模态图匹配策略。特别地,我们引入一个模块化图神经网络,通过消息传播分别计算短语和目标建议的上下文感知表示,然后引入一个基于图的匹配模块来生成全局一致的基础短语定位。我们在两阶段策略中联合训练整个图神经网络,并在Flickr30K Entities基准上对其进行评估。大量的实验表明,我们的方法比之前的技术有相当大的优势,证明了我们的基础框架的有效性。代码可以在https://github.com/youngfly11/LCMCG-PyTorch 找到。

网址:

https://arxiv.org/abs/1911.09042

  1. Learning from the Past: Continual Meta-Learning with Bayesian Graph Neural Networks

作者:Yadan Luo, Zi Huang, Zheng Zhang, Ziwei Wang, Mahsa Baktashmotlagh, Yang Yang

摘要:元学习(Meta-learning)用于few-shot learning,允许机器利用以前获得的知识作为优先级,从而在只有少量数据的情况下提高新任务的性能。然而,大多数主流模型都存在灾难性遗忘和鲁棒性不足的问题,因此不能充分保留或利用长期知识,同时容易导致严重的错误累积。本文提出了一种新的基于贝叶斯图神经网络(CML-BGNN)的连续元学习方法。通过将每个任务形成一个图,可以通过消息传递和历史迁移很好地保存任务内部和任务间的相关性。为了解决图初始化过程中的拓扑不确定性问题,我们使用了Bayes by Backprop算法,该算法利用amortized推理网络逼近任务参数的后验分布,并将其无缝地集成到端到端边缘学习中。在miniImageNet和tieredImageNet数据集上进行的大量实验证明了该方法的有效性和效率,与最先进的miniImageNet 5-way 1-shot分类任务相比,性能提高了42:8%。

网址:

https://arxiv.org/abs/1911.04695

  1. Neural Graph Embedding for Neural Architecture Search

作者:Wei Li, Shaogang Gong, Xiatian Zhu

摘要:现有的神经体系结构搜索((NAS))方法往往直接在离散空间或连续空间中进行搜索,忽略了神经网络的图形拓扑知识。考虑到神经网络本质上是有向无环图(DAG),这会导致搜索性能和效率欠佳。在这项工作中,我们通过引入一种新的神经图嵌入(NGE)思想来解决这个限制。具体来说,我们用神经DAG表示神经网络的构建块(即cell),并利用图卷积网络来传播和建模网络结构的固有拓扑信息。这导致可与现有的不同NAS框架集成的通用神经网络表示。大量实验表明,在图像分类和语义分割方面,NGE优于最新方法。

网址:

https://xiatian-zhu.github.io/papers/LiEtAl_AAAI2020.pdf

  1. RoadTagger: Robust Road Attribute Inference with Graph Neural Networks

作者:Songtao He, Favyen Bastani, Satvat Jagwani, Edward Park, Sofiane Abbar, Mohammad Alizadeh, Hari Balakrishnan, Sanjay Chawla, Samuel Madden, Mohammad Amin Sadeghi

摘要:从卫星图像中推断道路属性(例如车道数和道路类型)是一项挑战。通常,由于卫星图像的遮挡和道路属性的空间相关性,仅当考虑道路的较远路段时,道路上某个位置的道路属性才可能是显而易见的。因此,为了鲁棒地推断道路属性,模型必须整合分散的信息,并捕捉道路沿线特征的空间相关性。现有的解决方案依赖于图像分类器,无法捕获这种相关性,导致准确性较差。我们发现这种失败是由于一个基本的限制–图像分类器的有效接受范围有限。

为了克服这一局限性,我们提出了一种结合卷积神经网络(CNNs)和图神经网络(GNNs)来推断道路属性的端到端体系结构RoadTagger。使用GNN允许信息在路网图上传播,消除了图像分类器的接收域限制。我们在一个覆盖美国20个城市688平方公里面积的大型真实数据集和一个综合数据集上对RoadTagger进行了评估。在评估中,与基于CNN图像分类器的方法相比,RoadTagger提高了推理的准确性。此外,RoadTagger对卫星图像的中断具有较强的鲁棒性,能够学习复杂的inductive rule来聚合道路网络上分散的信息。

网址:

https://arxiv.org/abs/1912.12408

成为VIP会员查看完整内容
0
71

【导读】最近小编推出CVPR2019图卷积网络、CVPR2019生成对抗网络、【可解释性】,CVPR视觉目标跟踪,CVPR视觉问答,医学图像分割,图神经网络的推荐相关论文,反响热烈。最近,Domain Adaptation(域自适应)相关研究非常火热,一部分也是由于GAN、GNN以及其他一些的网络结构的启发,基于Domain Adaptation的工作在今年CVPR 2019上出现了大量的论文。今天小编专门整理最新九篇Domain Adaptation(域自适应)—类别级对抗、域对称网络、可迁移原型网络、可迁移原型网络、通用域自适应等。

DANN-梯度反转层

1、Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation(域迁移: 类别级对抗用于语义一致的域自适应)

CVPR ’19 Oral

作者:Yawei Luo, Liang Zheng, Tao Guan, Junqing Yu, Yi Yang

摘要:我们考虑了语义分割中的无监督域自适应问题。该任务的关键在于减少域迁移,即,强制两个域的数据分布相似。一种流行的策略是通过对抗学习来对齐特征空间的边缘分布。但是,这种全局对齐策略不考虑局部类别的特征分布。全局迁移的一个可能结果是,一些原本在源域和目标域之间很好地对齐的类别可能被错误地映射。为了解决这一问题,本文引入了一种类别级的对抗网络,旨在在全局对齐的趋势下增强局部语义一致性。我们的想法是仔细研究类级别的数据分布,并将每个类与自适应的对抗损失对齐。具体地说,我们减少了类级别对齐特征的对抗性损失的权重,同时增加了对齐较差的特征的对抗性。在这个过程中,我们通过一种联合训练方法来决定一个特征在源域和目标域之间的类别级对齐程度。在两个领域适应任务中,即GTA5 - > Cityscapes和SYNTHIA - > Cityscapes,我们验证所提出的方法在分割准确性方面与现有技术相匹配。

网址:

https://arxiv.org/abs/1809.09478

代码链接:

https://github.com/RoyalVane/CLAN

2、AdaGraph: Unifying Predictive and Continuous Domain Adaptation through Graphs(AdaGraph: 通过图形统一预测和连续域自适应)

CVPR ’19 Oral

作者:Massimiliano Mancini, Samuel Rota Bulò, Barbara Caputo, Elisa Riccici

摘要:分类能力是视觉智能的基石,也是人工自主视觉机器的关键功能。 如果没有能够适应和概括跨视域的算法,这个问题将永远无法解决。在域自适应和泛化的背景下,本文重点研究预测域自适应场景,即没有目标数据可用的情况下,系统必须学习从带注释的源图像和来自辅助域的带关联元数据的未标记样本进行泛化。我们的贡献是第一个解决预测域适应的深层架构,能够通过图利用辅助域带来的信息。此外,我们提出了一种简单而有效的策略,允许我们在测试时在连续的域适应场景中利用传入的目标数据。在三个基准数据库上的实验支持验证了我们的方法的价值。

网址:

https://arxiv.org/abs/1903.07062

3、Sliced Wasserstein Discrepancy for Unsupervised Domain Adaptation(基于Sliced Wasserstein Discrepancy的无监督域自适应)

CVPR ’19

作者:Chen-Yu Lee, Tanmay Batra, Mohammad Haris Baig, Daniel Ulbricht

摘要:在这项工作中,我们将两个不同的无监督域自适应概念连接起来:利用特定于任务的决策边界和Wasserstein度量在域之间进行特征分布对齐。我们提出的Sliced Wasserstein Discrepancy (SWD)旨在捕捉任务特定分类器输出之间的自然差异概念。它提供了一个几何上有意义的指导来检测远离源支持的目标样本,并以端到端可训练的方式实现有效的分布对齐。在实验中,我们验证了该方法在数字和符号识别、图像分类、语义分割和目标检测等方面的有效性和通用性。

网址:

https://arxiv.org/abs/1903.04064

4、Domain-Symmetric Networks for Adversarial Domain Adaptation(用于对抗域自适应的域对称网络)

CVPR ’19

作者:Yabin Zhang, Hui Tng, Kui Jia, Mingkui Tan

摘要:无监督域自适应是在给定源域上有标记样本训练数据的情况下,学习目标域上未标记样本的分类器模型。最近,通过对深度网络的域对抗训练来学习不变特征,取得了令人瞩目的进展。尽管近年来的研究取得了一定的进展,但域自适应在较细类别水平上实现特征分布的不变性方面仍然存在一定的局限性。为此,本文提出了一种新的域自适应方法——域对称网络(SymNets)。SymNet是基于源域和目标域任务分类器的对称设计,在此基础上,我们还构造了一个额外的分类器,与它们共享其层神经元。为了训练SymNet, 我们提出了一种新颖的对抗学习目标函数,其关键设计是基于一个two-level域混淆方案, 通过推动中间网络特征的学习,类级别的混淆损失在域级别上得到改善。在构造的附加分类器的基础上,实现了域识别和域混淆。由于目标域样本是无标记的,我们还提出了一种跨域训练的方法来帮助学习目标分类器。仔细的消融研究表明我们提出的方法是有效的。特别是,基于常用的基本网络,我们的symnet在三个基准域自适应数据集上实现了最新的技术水平。

网址:

https://arxiv.org/abs/1904.04663

5、Transferrable Prototypical Networks for Unsupervised Domain Adaptation(基于可迁移原型网络的无监督域自适应)

CVPR'19 Oral

作者:Yingwei Pan, Ting Yao, Yehao Li, Yu Wang, Chong-Wah Ngo, Tao Mei

摘要:本文提出了一种通过重构原型网络实现无监督域自适应的新方法,该方法通过学习嵌入空间,通过重构每个类到原型的距离进行分类。具体地说,我们提出了可迁移原型网络(TPN)的自适应算法,使源域和目标域的每个类的原型在嵌入空间上接近,并且原型在源域和目标域数据上分别预测的得分分布是相似的。从技术上讲,TPN最初将每个目标域示例与源域中最近的原型匹配,并为一个示例分配一个“伪”标签。每个类的原型可以分别在纯源域、纯目标域和纯源目标域数据上计算。TPN的优化是通过在三种数据上联合最小化原型之间的距离和由每对原型输出的得分分布的KL -散度来进行端到端训练的。对MNIST、USPS和SVHN数据集之间的迁移进行了广泛的实验,与最先进的方法相比,报告了更好的结果。更值得注意的是,我们在VisDA 2017数据集上获得了80.4%的单模型准确度。

网址:

https://arxiv.org/abs/1904.11227

6、Contrastive Adaptation Network for Unsupervised Domain Adaptation(基于对比自适应网络的无监督域自适应)

CVPR'19

作者:Guoliang Kang, Lu Jiang, Yi Yang, Alexander G Hauptmann

摘要:无监督域自适应(UDA)对目标域数据进行预测,而手工标注只在源域中可用。以往的方法在忽略类信息的情况下,最大限度地减小了域间的差异,从而导致了不一致和泛化性能差。为了解决这一问题,本文提出了一种新的比较自适应网络(CAN)优化度量,它明确地对类内域和类间域的差异进行了建模。我们设计了一种交替的更新策略,以端到端方式训练CAN。在office31和VisDA-2017这两个真实世界基准测试上的实验表明,相对于最先进的方法,该方法可以获得更好的性能,并产生更多的区别性特征。

网址:

https://arxiv.org/abs/1901.00976

7、Universal Domain Adaptation(通用域自适应)

CVPR ’19

作者:Kaichao You, Mingsheng Long, Zhangjie Cao, Jianmin Wang, and Michael I. Jordan

摘要:域适应的目的是在存在域差距的情况下迁移知识。现有的域自适应方法依赖于对源域和目标域的标签集之间关系的丰富先验知识,这极大地限制了它们在实际中的应用。本文介绍了一种不需要标签集先验知识的通用域自适应算法(UDA)。对于给定的源域标签集和目标域标签集,它们可能分别包含一个公共标签集和一个私有标签集,从而带来额外的类别差异。UDA要求一个模型 (1)正确地分类目标样本,如果它与公共标签集中的标签相关联,或者 (2) 将其标记为“未知”。更重要的是,UDA模型应该能够稳定地应对广泛的共性(通用标签集在整个标签集上的比例),以便它可以处理未知目标域标签集的实际问题。为了解决通用域适应问题,提出了通用域适应网络(UAN)。它量化了发现通用标签集和对每个域私有的标签集的样本级可迁移性,从而促进了自动发现的通用标签集的适应性,并成功地识别了“未知”样本。全面的评价表明,在新颖的UDA设置中,UAN优于现有技术的闭集、部分域和开放域自适应方法。

网址:

https://youkaichao.github.io/files/cvpr2019/1628.pdf

代码链接:

https://github.com/thuml/Universal-Domain-Adaptation

8、Learning to Transfer Examples for Partial Domain Adaptation(基于样例转移网络的部分域自适应)

CVPR ’19

作者:Zhangjie Cao, Kaichao You, Mingsheng Long, Jianmin Wang, Qiang Yang

摘要:域自适应对于在新的未知环境中学习至关重要。通过领域对抗训练,深度网络可以学习可迁移的特征,从而有效地减少用于知识迁移的源域和目标域之间的数据集转移。在大数据时代,大规模标记数据集的可用性引起了人们对局部域适应(PDA)的广泛兴趣,PDA将识别器从标记的大域迁移到未标记的小域。它将标准域适应扩展到目标域标签只是源域标签子集的场景。在目标域标签未知的情况下,PDA的关键挑战是如何在共享类中传递相关的例子来促进正迁移,而忽略特定类中不相关的例子来减少负迁移。在这项工作中,我们提出一个统一的PDA方法—Example Transfer Network (ETN), 共同学习源域和目标域的域不变表示和加权方案, 量化的可迁移源域示例同时控制他们对目标领域中的学习任务的重要性。对几个基准数据集的全面评估表明,我们的方法可以为部分域自适应任务实现最先进的结果。

网址:

https://arxiv.org/abs/1903.12230

9、Geometry-Aware Symmetric Domain Adaptation for Monocular Depth Estimation(基于几何感知对称域自适应的单眼深度估计)

作者:Shanshan Zhao, Huan Fu, Mingming Gong, Dacheng Tao

摘要:先进的深度网络体系结构使得监督深度估计具有较高的精度。由于groundtruth深度标签难以获取,近年来的方法试图通过非监督线索来学习深度估计网络,这种方法虽然有效,但不如真实标签可靠。解决这一难题的一种新方法是通过域自适应技术从具有groundtruth深度的合成图像中迁移知识。然而,这些方法忽略了目标域内自然图像的特定几何结构(即,真实数据),这对于高性能的深度预测非常重要。在此基础上,我们提出了一种基于几何感知的对称域自适应框架(GASDA),用于研究合成数据和真实数据中的超极几何标记。此外,通过在端到端网络中对称地训练两个图像样式转换器和深度估计器,我们的模型实现了更好的图像样式转换,生成了高质量的深度图。实验结果证明了该方法的有效性,并与现有方法进行了比较。我们的代码在:https://github.com/sshan-zhao/GASDA。

网址:

https://arxiv.org/abs/1904.01870

代码链接:

https://github.com/sshan-zhao/GASDA

下载链接:https://pan.baidu.com/s/1_zUi7BUvfonhLNaw1tsg0g 提取码:crqk

成为VIP会员查看完整内容
0
47

计算机视觉顶会 CVPR 2019 的论文接前几天公布了接受论文:在超过 5100 篇投稿中,共有 1300 篇被接收,达到了接近 25.2% 的接收率。近期结合图卷积网络相关的应用论文非常多,CVPR最新发布的论文也有很多篇,专知小编专门整理了最新五篇图卷积网络相关视觉应用论文—零样本学习、姿态估计、人脸聚类、交互式目标标注和视频异常检测。

1、Rethinking Knowledge Graph Propagation for Zero-Shot Learning(零样本学习中知识图传播的再思考)

作者:Michael Kampffmeyer, Yinbo Chen, Xiaodan Liang, Hao Wang, Yujia Zhang, Eric P. Xing

摘要:最近,图卷积神经网络在零样本学习任务中显示出了巨大的潜力。这些模型具有高度的采样效率,因为图结构中的相关概念共享statistical strength,允许在缺少数据时对新类进行泛化。然而,由于多层架构需要将知识传播到图中较远的节点,因此在每一层都进行了广泛的拉普拉斯平滑来稀释知识,从而降低了性能。为了仍然享受图结构带来的好处,同时防止远距离节点的知识被稀释,我们提出了一种密集图传播(DGP)模块,该模块在远端节点之间精心设计了直接链接。DGP允许我们通过附加连接利用知识图的层次图结构。这些连接是根据节点与其祖先和后代的关系添加的。为了提高图中信息的传播速度,进一步采用加权方案,根据到节点的距离对它们的贡献进行加权。结合两阶段训练方法中的表示的微调,我们的方法优于目前最先进的零样本学习方法。

网址: http://www.zhuanzhi.ai/paper/dd4945166583a26685faaad5322162f0

代码链接: https://github.com/cyvius96/adgpm

2、3D Hand Shape and Pose Estimation from a Single RGB Image(单一RGB图像的3D手形和姿态估计)

CVPR 2019 Oral

作者:Liuhao Ge, Zhou Ren, Yuncheng Li, Zehao Xue, Yingying Wang, Jianfei Cai, Junsong Yuan

摘要:这项工作解决了一个新颖且具有挑战性的问题,从单一RGB图像估计完整3D手形和姿势。目前对单目RGB图像进行三维手部分析的方法大多只注重对手部关键点的三维位置进行估计,无法完全表达手部的三维形态。相比之下,我们提出了一种基于图卷积神经网络(Graph CNN)的方法来重建一个完整的手部三维网格,其中包含了更丰富的手部三维形状和姿态信息。为了训练具有完全监督的网络,我们创建了一个包含ground truth三维网格和三维姿态的大规模合成数据集。当在真实世界数据集上微调网络时(没有三维ground truth),我们提出了一种利用深度图作为训练弱监督的方法。通过对所提出的新数据集和两个公共数据集的广泛评估,表明我们所提出的方法能够生成准确合理的三维手部网格,与现有方法相比,能够获得更高的三维手部姿态估计精度。

网址: http://www.zhuanzhi.ai/paper/d167eade544143625933886e5cb34cf6

代码链接: https://github.com/geliuhao/3DHandShapePosefromRGB

3、Linkage Based Face Clustering via Graph Convolution Network(通过图卷积网络实现基于链接的人脸聚类)

作者:Zhongdao Wang,Liang Zheng,Yali Li,Shengjin Wang

摘要:本文提出了一种精确、可扩展的人脸聚类方法。我们的目标是根据一组人脸的潜在身份对它们进行分组。我们将这个任务描述为一个链接预测问题:如果两个面孔具有相同的身份,那么它们之间就存在一个链接。关键思想是,我们在实例(face)周围的特征空间中找到本地上下文,其中包含关于该实例及其邻居之间链接关系的丰富信息。通过将每个实例周围的子图构造为描述局部上下文的输入数据,利用图卷积网络(GCN)进行推理,并推断出子图中对之间链接的可能性。实验表明,与传统方法相比,我们的方法对复杂的人脸分布具有更强的鲁棒性,在标准人脸聚类基准测试上与最先进的方法具有良好的可比性,并且可扩展到大型数据集。此外,我们证明了该方法不像以前那样需要事先知道簇的数量,能够识别噪声和异常值,并且可以扩展到多视图版本,以获得更精确的聚类精度。

网址: http://www.zhuanzhi.ai/paper/e7ace43c7aafec56171283988e34aa8b

4、Fast Interactive Object Annotation with Curve-GCN(使用Curve-GCN进行快速交互式目标标注)

作者:Huan Ling, Jun Gao, Amlan Kar, Wenzheng Chen, Sanja Fidler

摘要:通过跟踪边界来手动标记对象是一个繁重的过程。 在Polygon-RNN ++中,作者提出了Polygon-RNN,它使用CNN-RNN体系结构以一种循环的方式生成多边形注释,允许通过人在环中进行交互式校正。我们提出了一个新的框架,通过使用图卷积网络(GCN)同时预测所有顶点,减轻了Polygon-RNN的时序性。我们的模型是端到端训练的。 它支持多边形或样条线的对象标注,从而提高了基于线和曲线对象的标注效率。 结果表明,在自动模式下,curv- gcn的性能优于现有的所有方法,包括功能强大的PSP-DeepLab,并且在交互模式下,curv - gcn的效率明显高于Polygon-RNN++。我们的模型在自动模式下运行29.3ms,在交互模式下运行2.6ms,比polyicon - rnn ++分别快10倍和100倍。

网址: http://www.zhuanzhi.ai/paper/c1839ee852a4b9b402da2547508980d3

代码链接: https://github.com/fidler-lab/curve-gcn

5、Graph Convolutional Label Noise Cleaner: Train a Plug-and-play Action Classifier for Anomaly Detection(图卷积标签噪声清除器: 训练用于异常检测的Plug-and-play行为分类器)

作者:Jia-Xing Zhong, Nannan Li, Weijie Kong, Shan Liu, Thomas H. Li, Ge Li

摘要:在以往的工作中,弱标签下的视频异常检测被描述为一个典型的多实例学习问题。在本文中,我们提供了一个新的视角,即在嘈杂标签下的监督学习任务。在这样的观点中,只要去除标签噪声,就可以直接将全监督的动作分类器应用到弱监督异常检测中,并最大限度地利用这些完善的分类器。为此,我们设计了一个图卷积网络来校正噪声标签。基于特征相似性和时间一致性,我们的网络将监控信号从高置信度的片段传播到低置信度的片段。以这种方式,网络能够为动作分类器提供清洁的监督。在测试阶段,我们只需要从动作分类器获得片段预测,而无需任何额外的后处理。使用2种类型的动作分类器对3个不同尺度的数据集进行了大量实验,证明了我们的方法的有效性。值得注意的是,我们在UCF-Crime上获得了82.12%的帧级AUC分数。

网址: http://www.zhuanzhi.ai/paper/12c28bd5fcdb4fa91e63b11055bdcc4d

代码链接: https://github.com/jx-zhong-for-academic-purpose/GCN-Anomaly-Detection

下载链接:https://pan.baidu.com/s/1bK1UMRspsNcx6FxrtzNr3A 提取码:34p8

成为VIP会员查看完整内容
0
27
小贴士
相关论文
Multi-Modal Domain Adaptation for Fine-Grained Action Recognition
Jonathan Munro,Dima Damen
7+阅读 · 2020年3月19日
Min-Hung Chen,Baopu Li,Yingze Bao,Ghassan AlRegib,Zsolt Kira
6+阅读 · 2020年3月18日
Differential Treatment for Stuff and Things: A Simple Unsupervised Domain Adaptation Method for Semantic Segmentation
Zhonghao Wang,Mo Yu,Yunchao Wei,Rogerior Feris,Jinjun Xiong,Wen-mei Hwu,Thomas S. Huang,Honghui Shi
5+阅读 · 2020年3月18日
A Sketch-Based System for Semantic Parsing
Zechang Li,Yuxuan Lai,Yuxi Xie,Yansong Feng,Dongyan Zhao
3+阅读 · 2019年9月12日
Qiuchi Li,Benyou Wang,Massimo Melucci
3+阅读 · 2019年4月10日
Avisek Lahiri,Charan Reddy,Prabir Kumar Biswas
3+阅读 · 2018年10月4日
Assia Benbihi,Matthieu Geist,Cédric Pradalier
10+阅读 · 2018年5月10日
Riccardo Volpi,Pietro Morerio,Silvio Savarese,Vittorio Murino
3+阅读 · 2018年5月4日
Naoto Inoue,Ryosuke Furuta,Toshihiko Yamasaki,Kiyoharu Aizawa
6+阅读 · 2018年3月30日
Weijian Deng,Liang Zheng,Guoliang Kang,Yi Yang,Qixiang Ye,Jianbin Jiao
7+阅读 · 2018年1月10日
Top
微信扫码咨询专知VIP会员