【导读】作为计算机视觉领域的三大国际顶会之一,IEEE国际计算机视觉与模式识别会议 CVPR 每年都会吸引全球领域众多专业人士参与。由于受COVID-19疫情影响,原定于6月16日至20日在华盛顿州西雅图举行的CVPR 2020将全部改为线上举行。今年的CVPR有6656篇有效投稿,最终有1470篇论文被接收,接收率为22%左右。之前小编为大家整理过CVPR 2020 GNN 相关论文,这周小编继续为大家整理了五篇CVPR 2020 图神经网络(GNN)相关论文,供大家参考——行为识别、少样本学习、仿射跳跃连接、多层GCN、3D视频目标检测。

CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN

1. Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition

作者:Ziyu Liu, Hongwen Zhang, Zhenghao Chen, Zhiyong Wang, Wanli Ouyang

摘要:基于骨架的动作识别算法广泛使用时空图对人体动作动态进行建模。为了从这些图中捕获鲁棒的运动模式,长范围和多尺度的上下文聚合与时空依赖建模是一个强大的特征提取器的关键方面。然而,现有的方法在实现(1)多尺度算子下的无偏差长范围联合关系建模和(2)用于捕捉复杂时空依赖的通畅的跨时空信息流方面存在局限性。在这项工作中,我们提出了(1)一种简单的分解(disentangle)多尺度图卷积的方法和(2)一种统一的时空图卷积算子G3D。所提出的多尺度聚合方法理清了不同邻域中节点对于有效的远程建模的重要性。所提出的G3D模块利用密集的跨时空边作为跳过连接(skip connections),用于在时空图中直接传播信息。通过耦合上述提议,我们开发了一个名为MS-G3D的强大的特征提取器,在此基础上,我们的模型在三个大规模数据集NTU RGB+D60,NTU RGB+D120和Kinetics Skeleton 400上的性能优于以前的最先进方法。

网址: https://arxiv.org/pdf/2003.14111.pdf

代码链接: github.com/kenziyuliu/ms-g3d

2. DPGN: Distribution Propagation Graph Network for Few-shot Learning

作者:Ling Yang, Liangliang Li, Zilun Zhang, Xinyu Zhou, Erjin Zhou, Yu Liu

摘要:大多数基于图网络的元学习方法都是为实例的instance-level关系进行建模。我们进一步扩展了此思想,以1-vs-N的方式将一个实例与所有其他实例的分布级关系明确建模。我们提出了一种新的少样本学习方法--分布传播图网络(DPGN)。它既表达了每个少样本学习任务中的分布层次关系,又表达了实例层次关系。为了将所有实例的分布层关系和实例层关系结合起来,我们构造了一个由点图和分布图组成的对偶全图网络,其中每个节点代表一个实例。DPGN采用双图结构,在更新时间内将标签信息从带标签的实例传播到未带标签的实例。在少样本学习的大量基准实验中,DPGN在监督设置下以5%∼12%和在半监督设置下以7%∼13%的优势大大超过了最新的结果。

网址: https://arxiv.org/pdf/2003.14247.pdf

代码链接: https://github.com/megvii-research/DPGN

3. Geometrically Principled Connections in Graph Neural Networks

作者:Shunwang Gong, Mehdi Bahri, Michael M. Bronstein, Stefanos Zafeiriou

摘要:图卷积操作为以前认为遥不可及的各种图形和网格处理任务带来了深度学习的优势。随着他们的持续成功,人们希望设计更强大的体系结构,这通常是将现有的深度学习技术应用于非欧几里得数据。在这篇文章中,我们认为几何应该仍然是几何深度学习这一新兴领域创新的主要驱动力。我们将图神经网络与广泛成功的计算机图形和数据近似模型(径向基函数(RBF))相关联。我们推测,与RBF一样,图卷积层将从向功能强大的卷积核中添加简单函数中受益。我们引入了仿射跳跃连接 (affine skip connections),这是一种通过将全连接层与任意图卷积算子相结合而形成的一种新的构建块。通过实验证明了我们的技术的有效性,并表明性能的提高是参数数量增加的结果。采用仿射跳跃连接的算子在形状重建、密集形状对应和图形分类等每一项任务上的表现都明显优于它们的基本性能。我们希望我们简单有效的方法将成为坚实的基准,并有助于简化图神经网络未来的研究。

网址: https://arxiv.org/pdf/2004.02658.pdf

4. L^2-GCN: Layer-Wise and Learned Efficient Training of Graph Convolutional Networks

作者:Yuning You, Tianlong Chen, Zhangyang Wang, Yang Shen

摘要:图卷积网络(GCN)在许多应用中越来越受欢迎,但在大型图形数据集上的训练仍然是出了名的困难。它们需要递归地计算邻居的节点表示。当前的GCN训练算法要么存在随层数呈指数增长的高计算成本,要么存在加载整个图和节点嵌入的高内存使用率问题。本文提出了一种新的高效的GCN分层训练框架(L-GCN),该框架将训练过程中的特征聚合和特征变换分离开来,从而大大降低了时间和存储复杂度。我们在图同构框架下给出了L-GCN的理论分析,在温和的条件下,与代价更高的传统训练算法相比L-GCN可以产生同样强大的GCN。我们进一步提出了L2-GCN,它为每一层学习一个控制器,该控制器可以自动调整L-GCN中每一层的训练周期。实验表明,L-GCN比现有技术快至少一个数量级,内存使用量的一致性不依赖于数据集的大小,同时保持了还不错的预测性能。通过学习控制器,L2-GCN可以将训练时间进一步减少一半。

网址: https://arxiv.org/pdf/2003.13606.pdf

代码链接: https://github.com/Shen-Lab/L2-GCN

补充材料:

https://slack-files.com/TC7R2EBMJ-F012C60T335-281aabd097

5. LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention

作者:Junbo Yin, Jianbing Shen, Chenye Guan, Dingfu Zhou, Ruigang Yang

摘要:现有的基于LiDAR的3D目标检测算法通常侧重于单帧检测,而忽略了连续点云帧中的时空信息。本文提出了一种基于点云序列的端到端在线3D视频对象检测器。该模型包括空间特征编码部分和时空特征聚合部分。在前一个组件中,我们提出了一种新的柱状消息传递网络(Pillar Message Passing Network,PMPNet)来对每个离散点云帧进行编码。它通过迭代信息传递的方式自适应地从相邻节点收集柱节点的信息,有效地扩大了柱节点特征的感受野。在后一组件中,我们提出了一种注意力时空转换GRU(AST-GRU)来聚合时空信息,通过注意力记忆门控机制增强了传统的ConvGRU。AST-GRU包含一个空间Transformer Attention(STA)模块和一个时间Transformer Attention(TTA)模块,分别用于强调前景对象和对齐动态对象。实验结果表明,所提出的3D视频目标检测器在大规模的nuScenes基准测试中达到了最先进的性能。

网址: https://arxiv.org/pdf/2004.01389.pdf

代码链接: https://github.com/yinjunbo/3DVID

成为VIP会员查看完整内容
0
62

相关内容

CVPR is the premier annual computer vision event comprising the main conference and several co-located workshops and short courses. With its high quality and low cost, it provides an exceptional value for students, academics and industry researchers. CVPR 2020 will take place at The Washington State Convention Center in Seattle, WA, from June 16 to June 20, 2020. http://cvpr2020.thecvf.com/

【导读】作为世界数据挖掘领域的最高级别的学术会议,ACM SIGKDD(国际数据挖掘与知识发现大会,简称 KDD)每年都会吸引全球领域众多专业人士参与。今年的 KDD大会计划将于 2020 年 8 月 23 日 ~27 日在美国美国加利福尼亚州圣地亚哥举行。上周,KDD 2020官方发布接收论文,共有1279篇论文提交到Research Track,共216篇被接收,接收率16.8%。近期KDD官网公布了接受论文列表,为此,上个月专知小编为大家整理了图神经网络相关的论文,这期小编继续为大家奉上KDD 2020必读的五篇图神经网络(GNN)相关论文-Part 2——多层次GCN、无监督预训练GCN、图Hash、GCN主题模型、采样

KDD 2020 Accepted Paper: https://www.kdd.org/kdd2020/accepted-papers

KDD2020GNN_Part1、CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、

1. Multi-level Graph Convolutional Networks for Cross-platform Anchor Link Prediction

作者:Hongxu Chen, Hongzhi Yin, Xiangguo Sun, Tong Chen, Bogdan Gabrys, Katarzyna Musial

摘要:跨平台的账号匹配在社交网络分析中发挥着重要作用,并且有利于广泛的应用。然而,现有的方法要么严重依赖于高质量的用户生成内容(包括用户兴趣模型),要么只关注网络拓扑结构,存在数据不足的问题,这使得研究这个方向变得很困难。为了解决这一问题,我们提出了一种新的框架,该框架统一考虑了局部网络结构和超图结构上的多级图卷积。该方法克服了现有工作中数据不足的问题,并且不一定依赖于用户的人口统计信息。此外,为了使所提出的方法能够处理大规模社交网络,我们提出了一种两阶段的空间协调机制,在基于网络分区的并行训练和跨不同社交网络的帐户匹配中对齐嵌入空间。我们在两个大规模的真实社交网络上进行了广泛的实验。实验结果表明,该方法的性能比现有的模型有较大幅度的提高。

网址:

https://arxiv.org/abs/2006.01963

2. GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training

作者:Jiezhong Qiu, Qibin Chen, Yuxiao Dong, Jing Zhang, Hongxia Yang, Ming Ding, Kuansan Wang, Jie Tang

摘要:图表示学习已经成为解决现实问题的一种强有力的技术。包括节点分类、相似性搜索、图分类和链接预测在内的各种下游图学习任务都受益于它的最新发展。然而,关于图表示学习的现有技术集中于领域特定的问题,并为每个图训练专用模型,这通常不可转移到领域之外的数据。受自然语言处理和计算机视觉在预训练方面的最新进展的启发,我们设计了图对比编码(Graph Contrastive Coding,GCC)一个无监督的图表示学习框架来捕捉跨多个网络的通用网络拓扑属性。我们将GCC的预训练任务设计为网络内部和网络之间的子图级别的实例判断,并利用对比学习来增强模型学习内在的和可迁移的结构表征能力。我们在三个图学习任务和十个图数据集上进行了广泛的实验。结果表明,GCC在一组不同的数据集上进行预训练,可以获得与从头开始的特定任务训练的方法相媲美或更好的性能。这表明,预训练和微调范式对图表示学习具有巨大的潜力。

网址:

https://arxiv.org/abs/2006.09963

代码链接:

https://github.com/THUDM/GCC

3. GHashing: Semantic Graph Hashing for Approximate Similarity Search in Graph Databases

作者:Zongyue Qin, Yunsheng Bai, Yizhou Sun

摘要:图相似搜索的目的是根据给定的邻近度,即图编辑距离(GED),在图形数据库中找到与查询最相似的图。这是一个被广泛研究但仍具有挑战性的问题。大多数研究都是基于剪枝验证框架,该框架首先对非看好的图进行剪枝,然后在较小的候选集上进行验证。现有的方法能够管理具有数千或数万个图的数据库,但由于其精确的剪枝策略,无法扩展到更大的数据库。受到最近基于深度学习的语义哈希(semantic hashing)在图像和文档检索中的成功应用的启发,我们提出了一种新的基于图神经网络(GNN)的语义哈希,即GHash,用于近似剪枝。我们首先用真实的GED结果训练GNN,以便它学习生成嵌入和哈希码,以保持图之间的GED。然后建立哈希索引以实现恒定时间内的图查找。在回答一个查询时,我们使用哈希码和连续嵌入作为两级剪枝来检索最有希望的候选对象,并将这些候选对象发送到精确的求解器进行最终验证。由于我们的图哈希技术利用了近似剪枝策略,与现有方法相比,我们的方法在保持高召回率的同时,实现了显著更快的查询时间。实验表明,该方法的平均速度是目前唯一适用于百万级数据库的基线算法的20倍,这表明GHash算法成功地为解决大规模图形数据库的图搜索问题提供了新的方向。

网址:

http://web.cs.ucla.edu/~yzsun/papers/2020_KDD_GHashing.pdf

4. Graph Structural-topic Neural Network

作者:Qingqing Long, Yilun Jin, Guojie Song, Yi Li, Wei Lin

摘要:图卷积网络(GCNS)通过有效地收集节点的局部特征,取得了巨大的成功。然而,GCNS通常更多地关注节点特征,而较少关注邻域内的图结构,特别是高阶结构模式。然而,这种局部结构模式被显示为许多领域中的节点属性。此外,由于网络很复杂,每个节点的邻域由各种节点和结构模式的混合组成,不只是单个模式,所有这些模式上的分布都很重要。相应地,在本文中,我们提出了图结构主题神经网络,简称GraphSTONE,这是一种利用图的主题模型的GCN模型,使得结构主题广泛地从概率的角度捕捉指示性的图结构,而不仅仅是几个结构。具体地说,我们使用 anonymous walks和Graph Anchor LDA(一种LDA的变体,首先选择重要的结构模式)在图上建立主题模型,以降低复杂性并高效地生成结构主题。此外,我们设计了多视图GCNS来统一节点特征和结构主题特征,并利用结构主题来指导聚合。我们通过定量和定性实验对我们的模型进行了评估,我们的模型表现出良好的性能、高效率和清晰的可解释性。

网址:

https://arxiv.org/abs/2006.14278

代码链接:

https://github.com/YimiAChack/GraphSTONE/

5. Minimal Variance Sampling with Provable Guarantees for Fast Training of Graph Neural Networks

作者:Weilin Cong, Rana Forsati, Mahmut Kandemir, Mehrdad Mahdavi

摘要:抽样方法(如节点抽样、分层抽样或子图抽样)已成为加速大规模图神经网络(GNNs)训练不可缺少的策略。然而,现有的抽样方法大多基于图的结构信息,忽略了最优化的动态性,导致随机梯度估计的方差较大。高方差问题在非常大的图中可能非常明显,它会导致收敛速度慢和泛化能力差。本文从理论上分析了抽样方法的方差,指出由于经验风险的复合结构,任何抽样方法的方差都可以分解为前向阶段的嵌入近似方差和后向阶段的随机梯度方差,这两种方差都必须减小,才能获得较快的收敛速度。我们提出了一种解耦的方差减小策略,利用(近似)梯度信息自适应地对方差最小的节点进行采样,并显式地减小了嵌入近似引入的方差。理论和实验表明,与现有方法相比,该方法即使在小批量情况下也具有更快的收敛速度和更好的泛化能力。

网址:

https://arxiv.org/abs/2006.13866

成为VIP会员查看完整内容
0
111

【导读】作为CCF推荐的A类国际学术会议,International ACM SIGIR Conference on Research and Development in Information Retrieval(国际计算机学会信息检索大会,简称 SIGIR)在信息检索领域享有很高的学术声誉,每年都会吸引全球众多专业人士参与。今年的 SIGIR 2020计划将于 2020年7月25日~30日在中国西安举行。本次大会共有555篇长文投稿,仅有147篇长文被录用,录用率约26%。专知小编提前为大家整理了六篇SIGIR 2020 基于图神经网络的推荐(GNN+RS)相关论文,这六篇论文分别出自中科大何向南老师和和昆士兰大学阴红志老师团队,供大家参考——捆绑推荐、Disentangled GCF、服装推荐、多行为推荐、全局属性GNN

CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN

1. Bundle Recommendation with Graph Convolutional Networks

作者:Jianxin Chang, Chen Gao, Xiangnan He, Yong Li, Depeng Jin

摘要:捆绑推荐(Bundle recommendation )旨在推荐一组商品供用户整体消费。现有的解决方案通过共享模型参数或多任务学习的方式将用户项目交互建模集成到捆绑推荐中,然而,这些方法不能显式建模项目与捆绑包(bundles)之间的隶属关系,不能探索用户选择捆绑包时的决策。在这项工作中,我们提出了一个用于捆绑推荐的图神经网络模型BGCN(Bundle Graph Convolutional Network)。BGCN将用户-项目交互、用户-捆绑包交互和捆绑包-项目从属关系统一到一个异构图中。以项目节点为桥梁,在用户节点和捆绑包节点之间进行图卷积传播,使学习到的表示能够捕捉到项目级的语义。通过基于hard-negative采样器的训练,可以进一步区分用户对相似捆绑包的细粒度偏好。在两个真实数据集上的实验结果表明,BGCN的性能有很高的提升,其性能比最新的基线高出10.77%到23.18%。

网址: https://arxiv.org/abs/2005.03475

2. Disentangled Graph Collaborative Filtering

作者:Xiang Wang, Hongye Jin, An Zhang, Xiangnan He, Tong Xu, Tat-Seng Chua

摘要:从交互数据中学习用户和项目的信息表示对于协同过滤(CF)至关重要。当前的嵌入函数利用用户-项目关系来丰富表示,从单个用户-项目实例演变为整体交互图。然而,这些方法在很大程度上以统一的方式对关系进行建模,而忽略了用户采用这些项目的意图的多样性,这可能是为了打发时间,为了兴趣,或者为其他人(如家庭)购物。这种统一的对用户兴趣建模的方法很容易导致次优表示,不能对不同的关系建模并在表示中分清用户意图。在这项工作中,我们特别关注用户意图细粒度上的用户-项目关系。因此,我们设计了一种新的模型- Disentangled图协同过滤(Disentangled Graph Collaborative Filtering ,DGCF),来理清这些因素并产生disentangled的表示。具体地说,通过在每个用户-项目交互意图上的分布建模,我们迭代地细化意图感知的交互图和表示。同时,我们鼓励不同的意图独立。这将生成disentangled的表示,有效地提取与每个意图相关的信息。我们在三个基准数据集上进行了广泛的实验,DGCF与NGCF、DisenGCN和MacridV AE这几个最先进的模型相比取得了显著的改进。进一步的分析揭示了DGCF在分解用户意图和表示的可解释性方面的优势。

网址:

http://staff.ustc.edu.cn/~hexn/

代码链接:

https://github.com/xiangwang1223/disentangled_graph_collaborative_filtering.

3. GCN-Based User Representation Learning for Unifying Robust Recommendation and Fraudster Detection

作者:Shijie Zhang, Hongzhi Yin, Tong Chen, Quoc Viet Nguyen Hung, Zi Huang, Lizhen Cui

摘要:近年来,推荐系统已经成为所有电子商务平台中不可缺少的功能。推荐系统的审查评级数据通常来自开放平台,这可能会吸引一群恶意用户故意插入虚假反馈,试图使推荐系统偏向于他们。此类攻击的存在可能会违反高质量数据始终可用的建模假设,而这些数据确实会影响用户的兴趣和偏好。因此,构建一个即使在攻击下也能产生稳定推荐的健壮推荐系统具有重要的现实意义。本文提出了一种基于GCN的用户表示学习框架GraphRf,该框架能够统一地进行稳健的推荐和欺诈者检测。在其端到端学习过程中,用户在欺诈者检测模块中被识别为欺诈者的概率自动确定该用户的评级数据在推荐模块中的贡献;而在推荐模块中输出的预测误差作为欺诈者检测模块中的重要特征。因此,这两个组成部分可以相互促进。经过大量的实验,实验结果表明我们的GraphRf在鲁棒评级预测和欺诈者检测这两个任务中具有优势。此外,所提出的GraphRf被验证为对现有推荐系统上的各种攻击具有更强的鲁棒性。

网址:

https://arxiv.org/abs/2005.10150

4. Hierarchical Fashion Graph Network for Personalized Outfit Recommendation

作者:Xingchen Li, Xiang Wang, Xiangnan He, Long Chen, Jun Xiao, Tat-Seng Chua

摘要:服装推荐越来越受到网购服务商和时尚界的关注。与向用户推荐单个单品(例如,朋友或图片)的其他场景(例如,社交网络或内容共享)不同,服装推荐预测用户对一组匹配良好的时尚单品的偏好。因此,进行高质量的个性化服装推荐应满足两个要求:1)时尚单品的良好兼容性;2)与用户偏好的一致性。然而,目前的研究主要集中在其中一个需求上,只考虑了用户-全套服装(outfit)或全套服装-项目的关系,从而容易导致次优表示,限制了性能。在这项工作中,我们统一了两个任务,服装兼容性建模和个性化服装推荐。为此,我们开发了一个新的框架,层次时尚图网络(HFGN),用于同时建模用户、商品和成套服装之间的关系。特别地,我们构建了一个基于用户-全套服装交互和全套服装-项目映射的层次结构。然后,我们从最近的图神经网络中得到启发,在这种层次图上使用嵌入传播,从而将项目信息聚合到一个服装表示中,然后通过他/她的历史服装来提炼用户的表示。此外,我们还对这两个任务进行了联合训练,以优化这些表示。为了证明HFGN的有效性,我们在一个基准数据集上进行了广泛的实验,HFGN在NGNN和FHN等最先进的兼容性匹配模型基础上取得了显著的改进。

网址:

https://arxiv.org/abs/2005.12566

代码链接:

https://github.com/xcppy/hierarchical_fashion_graph_network

5. Multi-behavior Recommendation with Graph Convolutional Networks

作者:Bowen Jin, Chen Gao, Xiangnan He, Depeng Jin, Yong Li

摘要:传统的推荐模型通常只使用一种类型的用户-项目交互,面临着严重的数据稀疏或冷启动问题。利用多种类型的用户-项目交互(例如:点击和收藏)的多行为推荐可以作为一种有效的解决方案。早期的多行为推荐研究未能捕捉到行为对目标行为的不同程度的影响。它们也忽略了多行为数据中隐含的行为语义。这两个限制都使得数据不能被充分利用来提高对目标行为的推荐性能。在这项工作中,我们创新性地构造了一个统一的图来表示多行为数据,并提出了一种新的模型--多行为图卷积网络(Multi-Behavior Graph Convolutional Network,MBGCN)。MBGCN通过用户-项目传播层学习行为强度,通过项目-项目传播层捕获行为语义,较好地解决了现有工作的局限性。在两个真实数据集上的实验结果验证了该模型在挖掘多行为数据方面的有效性。我们的模型在两个数据集上的性能分别比最优基线高25.02%和6.51%。对冷启动用户的进一步研究证实了该模型的实用性。

网址:

http://staff.ustc.edu.cn/~hexn/

6. GAG: Global Atributed Graph Neural Network for Streaming Session-based Recommendation

作者:Ruihong Qiu, Hongzhi Yin, Zi Huang, Tong Chen

摘要:基于流会话的推荐(Streaming session-based recommendation,SSR)是一项具有挑战性的任务,它要求推荐器系统在流媒体场景(streaming scenario)中进行基于会话的推荐(SR)。在电子商务和社交媒体的现实应用中,在一定时间内产生的一系列用户-项目交互被分组为一个会话,这些会话以流的形式连续到达。最近的SR研究大多集中在静态集合上,即首先获取训练数据,然后使用该集合来训练基于会话的推荐器模型。他们需要对整个数据集进行几个epoch的训练,这在流式设置下是不可行的。此外,由于对用户信息的忽视或简单使用,它们很难很好地捕捉到用户的长期兴趣。虽然最近已经提出了一些流推荐策略,但它们是针对个人交互流而不是会话流而设计的。本文提出了一种求解SSR问题的带有Wasserstein 库的全局属性图(GAG)神经网络模型。一方面,当新的会话到达时,基于当前会话及其关联用户构造具有全局属性的会话图。因此,GAG可以同时考虑全局属性和当前会话,以了解会话和用户的更全面的表示,从而在推荐中产生更好的性能。另一方面,为了适应流会话场景,提出了Wasserstein库来帮助保存历史数据的代表性草图。在两个真实数据集上进行了扩展实验,验证了GAG模型与最新方法相比的优越性。

网址: https://sites.google.com/site/dbhongzhi/

成为VIP会员查看完整内容
0
116

【导读】作为计算机视觉领域的三大国际顶会之一,IEEE国际计算机视觉与模式识别会议CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都会吸引全球领域众多专业人士参与。由于受COVID-19疫情影响,原定于6月16日至20日在华盛顿州西雅图举行的CVPR 2020将全部改为线上举行。今年的CVPR有6656篇有效投稿,最终有1470篇论文被接收,接收率为22%左右。为此,专知小编提前为大家整理了五篇CVPR 2020场景图神经网络(SGNN)相关论文,让大家先睹为快——3D语义分割、指代表达式推理、图像描述生成、图像处理、时空图。

WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN、ICML2019GNN

1. Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions

作者:Johanna Wald, Helisa Dhamo, Nassir Navab, Federico Tombari

摘要:场景理解(scene understanding)一直是计算机视觉领域的研究热点。它不仅包括识别场景中的对象,还包括识别它们在给定上下文中的关系。基于这一目标,最近的一系列工作解决了3D语义分割和场景布局预测问题。在我们的工作中,我们关注场景图,这是一种在图中组织场景实体的数据结构,其中对象是节点,它们的关系建模为边。我们利用场景图上的推理作为实现3D场景理解、映射对象及其关系的一种方式。特别地,我们提出了一种从场景的点云回归场景图的学习方法。我们的新体系结构是基于PointNet和图卷积网络(GCN)的。此外,我们还介绍了一个半自动生成的数据集3DSSG,它包含了语义丰富的三维场景图。我们展示了我们的方法在一个领域无关的检索任务中的应用,其中图作为3D-3D和2D-3D匹配的中间表示。

网址:

https://arxiv.org/pdf/2004.03967.pdf

2. Graph-Structured Referring Expression Reasoning in The Wild

作者:Sibei Yang, Guanbin Li, Yizhou Yu

摘要:Grounding referring expressions的目标是参照自然语言表达式在图像中定位一个目标。指代表达式(referring expression)的语言结构为视觉内容提供了推理的布局,并且该结构对于校准和共同理解图像与指代表达式是十分重要的。本文提出了一种场景图引导的模块化网络(SGMN),它在表达式的语言结构指导下,用神经模块对语义图和场景图进行推理。特别地,我们将图像(image)建模为结构化语义图,并将表达式解析为语言场景图。语言场景图不仅对表达式的语言结构进行解码,而且与图像语义图具有一致的表示。除了探索指代表达式基础的结构化解决方案外,我们还提出了Ref-Reasning,一个用于结构化指代表达式推理的大规模真实数据集。我们使用不同的表达式模板和函数式程序自动生成图像场景图上的指代表达式。该数据集配备了真实世界的可视化内容以及具有不同推理布局的语义丰富的表达式。实验结果表明,SGMN不仅在新的Ref-Reasning数据集上的性能明显优于现有的算法,而且在常用的基准数据集上也超过了最先进的结构化方法。它还可以为推理提供可解释的可视化证据。

网址:

https://arxiv.org/pdf/2004.08814.pdf

代码链接:

https://github.com/sibeiyang/sgmn

3. Say As Y ou Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

作者:Shizhe Chen, Qin Jin, Peng Wang, Qi Wu

摘要:人类能够随心所欲地用粗到细的细节来描述图像内容。然而,大多数图像字幕模型是意图不可知的(intention-agnostic),不能主动根据不同的用户意图生成各种描述。在这项工作中,我们提出了抽象场景图(ASG)结构来在细粒度层次上表示用户意图,并控制生成的描述应该是什么和有多详细。ASG是一个由三种类型的抽象节点(对象、属性、关系)组成的有向图,它们以图像为基础,没有任何具体的语义标签。因此,这些节点可以很容易通过手动或自动获得。与在VisualGenome和MSCOCO数据集上精心设计的基线相比,我们的模型在ASG上实现了更好的可控性条件。它还通过自动采样不同的ASG作为控制信号,显著提高了字幕多样性。

网址:

https://arxiv.org/pdf/2003.00387.pdf

4. Semantic Image Manipulation Using Scene Graphs

作者:Helisa Dhamo, Azade Farshad, Iro Laina, Nassir Navab, Gregory D. Hager, Federico Tombari, Christian Rupprecht

摘要:图像处理可以被认为是图像生成的特例,其中要生成的图像是对现有图像的修改。在很大程度上,图像生成和处理都是对原始像素进行操作的任务。然而,在学习丰富的图像和对象表示方面的显著进展已经为主要由语义驱动的诸如文本到图像或布局到图像生成之类的任务开辟了道路。在我们的工作中,我们解决了从场景图进行图像处理的新问题,在该问题中,用户可以仅通过对从图像生成的语义图的节点或边进行修改来编辑图像。我们的目标是对给定constellation中的图像信息进行编码,然后在此基础上生成新的constellation,例如替换对象,甚至改变对象之间的关系,同时尊重原始图像的语义和样式。我们引入了空间语义场景图网络,该网络不需要直接监督constellation变化或图像编辑。这使得从现有的现实世界数据集中训练系统成为可能,而无需额外的注释工作。

网址:

https://www.researchgate.net/publication/340523427_Semantic_Image_Manipulation_Using_Scene_Graphs

代码链接:

https://he-dhamo.github.io/SIMSG/

5. Spatio-Temporal Graph for Video Captioning with Knowledge Distillation

作者:Boxiao Pan, Haoye Cai, De-An Huang, Kuan-Hui Lee, Adrien Gaidon, Ehsan Adeli, Juan Carlos Niebles

摘要:视频描述生成是一项具有挑战性的任务,需要对视觉场景有深刻的理解。最先进的方法使用场景级或对象级信息生成字幕,但没有显式建模对象交互。因此,它们通常无法做出基于视觉的预测,并且对虚假相关性敏感。在本文中,我们为视频字幕提出了一种新颖的时空图模型,该模型利用了时空中的对象交互作用。我们的模型建立了可解释的连接,并且能够提供明确的视觉基础。为了避免对象数量变化带来的性能不稳定,我们进一步提出了一种对象感知的知识提炼机制,该机制利用局部对象信息对全局场景特征进行正则化。通过在两个基准上的广泛实验证明了我们的方法的有效性,表明我们的方法在可解释的预测上产生了具有竞争力的性能。

网址:

https://arxiv.org/pdf/2003.13942.pdf

成为VIP会员查看完整内容
0
42

【导读】计算语言学协会(the Association for Computational Linguistics, ACL)年度会议作为顶级的国际会议,在计算语言学和自然语言处理领域一直备受关注。其接收的论文覆盖了语义分析、文本挖掘、信息抽取、问答系统、机器翻译、情感分析和意见挖掘等众多自然语言处理领域的研究方向。今年,第58届计算语言学协会(the Association for Computational Linguistics, ACL)年度会议将于2020年7月5日至10日在美国华盛顿西雅图举行。受COVID-19疫情影响,ACL 2020将全部改为线上举行。为此,专知小编提前为大家整理了ACL 2020图神经网络(GNN)相关论文,让大家先睹为快——事实验证、法律文书、谣言检测、自动摘要、情感分析。

WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN、ICML2019GNN

1. Fine-grained Fact Verification with Kernel Graph Attention Network

作者:Zhenghao Liu, Chenyan Xiong, Maosong Sun, Zhiyuan Liu

摘要:事实验证(Fact V erification)需要细粒度的自然语言推理能力来找到微妙的线索去识别句法和语义上正确但没有强有力支持的声明(well-supported claims)。本文提出了基于核方法的图注意力网络(KGAT),该网络使用基于核的注意力进行更细粒度的事实验证。给定一个声明和一组形成证据图潜在证据的句子,KGAT在图注意力网络中引入了可以更好地衡量证据节点重要性的节点核,以及可以在图中进行细粒度证据传播的边缘核,以实现更准确的事实验证。KGAT达到了70.38%的FEVER得分,在FEVER上大大超过了现有的事实验证模型(FEVER是事实验证的大规模基准)。我们的分析表明,与点积注意力相比,基于核的注意力更多地集中在证据图中的相关证据句子和有意义的线索上,这是KGAT有效性的主要来源。

网址:https://arxiv.org/pdf/1910.09796.pdf

2. Distinguish Confusing Law Articles for Legal Judgment Prediction

作者:Nuo Xu, Pinghui Wang, Long Chen, Li Pan, Xiaoyan Wang, Junzhou Zhao

摘要:法律审判预测(LJP)是在给出案件事实描述文本的情况下,自动预测案件判决结果的任务,其在司法协助系统中具有良好的应用前景,为公众提供方便的服务。实际上,由于适用于类似法律条款的法律案件很容易被误判,经常会产生混淆的指控。在本文中,我们提出了一个端到端的模型--LADAN来解决LJP的任务。为了解决这一问题,现有的方法严重依赖领域专家,这阻碍了它在不同法律制度中的应用。为了区分混淆的指控,我们提出了一种新的图神经网络来自动学习混淆法律文章之间的细微差别,并设计了一种新的注意力机制,该机制充分利用学习到的差别从事实描述中提取令人信服的鉴别特征。在真实数据集上进行的实验证明了我们的LADAN算法的优越性。

网址:

https://arxiv.org/pdf/2004.02557.pdf

3. GCAN: Graph-aware Co-Attention Networks for Explainable Fake News Detection on Social Media

作者:Yi-Ju Lu, Cheng-Te Li

摘要:本文解决了在更现实的社交媒体场景下的假新闻检测问题。给定源短文本推文和相应的没有文本评论的转发用户序列,我们的目的是预测源推文是否是假的,并通过突出可疑转发者的证据和他们关注的词语来产生解释。为了实现这一目标,我们提出了一种新的基于神经网络的模型--图感知协同注意网络(GCAN)。在真实推文数据集上进行的广泛实验表明,GCAN的平均准确率比最先进的方法高出16%。此外,案例研究还表明,GCAN可以给出合理的解释。

网址:

https://arxiv.org/pdf/2004.11648.pdf

4. Heterogeneous Graph Neural Networks for Extractive Document Summarization

作者:Danqing Wang, Pengfei Liu, Yining Zheng, Xipeng Qiu, Xuanjing Huang

摘要:作为提取文档摘要的关键步骤,跨句关系学习已经有了大量的研究方法。一种直观的方法是将它们放入基于图的神经网络中,该网络具有更复杂的结构来捕获句间关系。本文提出了一种基于图的异构神经网络抽取摘要算法(HeterSUMGraph),该算法除句子外,还包含不同粒度的语义节点。这些额外的结点起到句子之间的中介作用,丰富了句子之间的关系。此外,通过引入文档节点,我们的图结构可以灵活地从单文档设置自然扩展到多文档设置。据我们所知,我们是第一个将不同类型的节点引入到基于图的神经网络中进行提取文档摘要的,我们还进行了全面的定性分析,以考察它们的好处。

网址:

https://arxiv.org/pdf/2004.12393.pdf

代码链接:

https://github.com/brxx122/HeterSUMGraph

5. Relational Graph Attention Network for Aspect-based Sentiment Analysis

作者:Kai Wang, Weizhou Shen, Yunyi Yang, Xiaojun Quan, Rui Wang

摘要:Aspect级的情感分析旨在确定在线评论中对某一特定方面的情感极性。最近的大多数努力采用了基于注意力的神经网络模型来隐式地将aspect与观点词联系起来。然而,由于语言的复杂性和单句中多个aspect的存在,这些模型往往混淆了它们之间的联系。在本文中,我们通过对语法信息进行有效的编码来解决这个问题。首先,我们通过重塑和修剪常规依赖关系树,定义了一个以目标方面为根的统一的面向aspect的依赖树结构。然后,我们提出了一种关系图注意力网络(R-GAT)来编码新的树结构用于情感预测。我们在SemEval 2014和Twitter数据集上进行了广泛的实验,实验结果证实,该方法可以更好地建立aspect和观点词之间的联系,从而显著提高了图注意网络(GAT)的性能。

网址:

https://arxiv.org/pdf/2004.12362.pdf

成为VIP会员查看完整内容
0
64

【导读】计算机视觉顶会CVPR 2020在不久前公布了论文接收列表。本届CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率仅为22%。几周前专知小编整理了CVPR 2020 图神经网络(GNN)相关的比较有意思的值得阅读的,这期小编继续为大家奉上CVPR 2020五篇GNN相关论文供参考——视频文本检索、人体解析、图像描述生成、人脸重构、Human-Object Interaction。

CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN、ICML2019GNN

  1. Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning

作者:Shizhe Chen, Yida Zhao, Qin Jin and Qi Wu

摘要:随着视频在网络上的迅速涌现,视频和文本之间的跨模态检索越来越受到人们的关注。目前解决这一问题的主流方法是学习联合嵌入空间来度量跨模态相似性。然而,简单的联合嵌入不足以表示复杂的视觉和文本细节,例如场景、对象、动作及他们的组成。为了提高细粒度的视频文本检索,我们提出了一种分层图推理(HGR)模型,将视频文本匹配分解为全局到局部层次。具体地说,该模型将文本分解成层次化的语义图,包括事件、动作、实体这三个层次和这些层次之间的关系。利用基于属性的图推理生成层次化的文本嵌入,以指导多样化、层次化的视频表示学习。HGR模型聚合来自不同视频-文本级别的匹配,以捕捉全局和局部细节。在三个视频文本数据集上的实验结果表明了该模型的优越性。这种分层分解还可以更好地跨数据集进行泛化,并提高区分细粒度语义差异的能力。

网址:https://arxiv.org/abs/2003.00392

  1. Hierarchical Human Parsing with Typed Part-Relation Reasoning

作者:Wenguan Wang, Hailong Zhu, Jifeng Dai, Yanwei Pang, Jianbing Shen and Ling Shao

摘要:人体解析(Human parsing)是为了像素级的人类语义理解。由于人体是具有层次结构的,因此如何对人体结构进行建模是这个任务的中心主题。围绕这一点,我们试图同时探索深度图网络的表示能力和层次化的人类结构。在本文中,我们有以下两个贡献。首先,首次用三个不同的关系网络完整而精确地描述了分解、组合和依赖这三种部件关系。这与以前的解析方式形成了鲜明的对比,之前的解析器只关注关系的一部分,并采用类型不可知(type-agnostic)的关系建模策略。通过在关系网络中显式地施加参数来满足不同关系的具体特性,可以捕捉到更具表现力的关系信息。其次,以前的解析器在很大程度上忽略了循环的人类层次结构上的近似算法的需求,而我们则通过将具有边类型的通用信息传递网络与卷积网络同化来解决迭代推理过程。通过这些努力,我们的解析器为更复杂、更灵活的人际关系推理模式奠定了基础。在五个数据集上的综合实验表明,我们的解析器在每个数据集上都具有最好的表现。

网址:https://arxiv.org/abs/2003.04845

  1. Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

作者:Shizhe Chen, Qin Jin, Peng Wang and Qi Wu

摘要:人类能够随心所欲地用粗略到精细的细节来描述图像内容。然而,大多数图像描述生成模型都是忽略意图(intention-agnostic)的,不能根据不同的用户意图主动生成不同的描述。在这项工作中,我们提出了抽象场景图(ASG)结构来在细粒度层次上表示用户意图,并控制生成的描述应该是什么和有多详细。ASG是一个由三种类型的抽象节点(对象、属性、关系)组成的有向图,这些节点来自于图像,没有任何具体的语义标签。因此,啊他们通过手动或自动生成都很容易获得。在ASG的基础上,我们提出了一种新颖的ASG2图像描述生成模型,该模型能够识别用户在图中的意图和语义,从而根据图的结构生成想要的字幕。与在VisualGenome和MSCOCO数据集上的其它的基线模型相比,我们的模型在ASG上具有更好的可控性条件。它还通过自动采样不同的ASG作为控制信号,显著提高了caption的多样性。

网址:https://arxiv.org/abs/2003.00387

  1. Towards High-Fidelity 3D Face Reconstruction from In-the-Wild Images Using Graph Convolutional Networks

作者:Jiangke Lin, Yi Yuan, Tianjia Shao and Kun Zhou

摘要:基于三维形变模型(3DMM)的方法在从单视图图像中恢复三维人脸形状方面取得了很大的成功。然而,用这种方法恢复的面部纹理缺乏像输入图像中表现出的逼真度。最近的工作采用生成网络来恢复高质量的面部纹理,这些网络是从一个大规模的高分辨率脸部纹理UV图数据库中训练出来的,这些数据库很难准备的,也不能公开使用。本文介绍了一种在无约束条件下捕获(in-the-wild)的单视图像中重建具有高保真纹理的三维人脸形状的方法,该方法不需要获取大规模的人脸纹理数据库。为此,我们提出使用图卷积网络来重建网格顶点的细节颜色来代替重建UV地图。实验表明,我们的方法可以产生高质量的结果,并且在定性和定量比较方面都优于最先进的方法。

网址:https://arxiv.org/abs/2003.05653

  1. VSGNet: Spatial Attention Network for Detecting Human Object Interactions Using Graph Convolutions

作者:Oytun Ulutan, A S M Iftekhar and B. S. Manjunath

摘要:全面的视觉理解要求检测框架能够在单独分析物体的同时有效地学习和利用物体交互。这是人类-物体交互(Human-Object Interaction,HOI)任务的主要目标。特别是,物体之间的相对空间推理和结构联系是分析交互的基本线索,文中提出的视觉-空间-图网络(VSGNet)体系结构可以解决这一问题。VSGNet从人类-物体对中提取视觉特征,利用人类-物体对的空间构型对特征进行细化,并通过图卷积利用人类-物体对之间的结构联系。我们使用COCO(V-COCO)和HICO-Det数据集中的动词对VSGNet的性能进行了全面评估。实验结果表明,VSGNet在V-COCO和HICO-DET中的性能分别比现有解决方案高出8%或4MAP和16%或3MAP。

网址:https://arxiv.org/abs/2003.05541

代码链接:https://github.com/ASMIftekhar/VSGNet

成为VIP会员查看完整内容
0
72

【导读】计算机视觉顶会CVPR 2020在不久前公布了论文接收列表。本届CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率仅为22%。近期,一些Paper放出来,专知小编整理了CVPR 2020 图神经网络(GNN)相关的比较有意思的值得阅读的五篇论文,供大家参考—点云分析、视频描述生成、轨迹预测、场景图生成、视频理解等。

1. Grid-GCN for Fast and Scalable Point Cloud Learning

作者:Qiangeng Xu, Xudong Sun, Cho-Ying Wu, Panqu Wang and Ulrich Neumann

摘要:由于点云数据的稀疏性和不规则性,越来越多的方法直接使用点云数据。在所有基于point的模型中,图卷积网络(GCN)通过完全保留数据粒度和利用点间的相互关系表现出显著的性能。然而,基于点的网络在数据结构化(例如,最远点采样(FPS)和邻接点查询)上花费了大量的时间,限制了其速度和可扩展性。本文提出了一种快速、可扩展的点云学习方法--Grid-GCN。Grid-GCN采用了一种新颖的数据结构策略--Coverage-Aware Grid Query(CAGQ)。通过利用网格空间的效率,CAGQ在降低理论时间复杂度的同时提高了空间覆盖率。与最远的点采样(FPS)和Ball Query等流行的采样方法相比,CAGQ的速度提高了50倍。通过网格上下文聚合(GCA)模块,Grid-GCN在主要点云分类和分割基准上实现了最先进的性能,并且运行时间比以前的方法快得多。值得注意的是,在每个场景81920个点的情况下,Grid-GCN在ScanNet上的推理速度达到了50fps。

网址:https://arxiv.org/abs/1912.02984

2. Object Relational Graph with Teacher-Recommended Learning for Video Captioning

作者:Ziqi Zhang, Yaya Shi, Chunfeng Yuan, Bing Li, Peijin Wang, Weiming Hu and Zhengjun Zha

摘要:充分利用视觉和语言的信息对于视频字幕任务至关重要。现有的模型由于忽视了目标之间的交互而缺乏足够的视觉表示,并且由于长尾(long-tailed)问题而对与内容相关的词缺乏足够的训练。在本文中,我们提出了一个完整的视频字幕系统,包括一种新的模型和一种有效的训练策略。具体地说,我们提出了一种基于目标关系图(ORG)的编码器,该编码器捕获了更详细的交互特征,以丰富视觉表示。同时,我们设计了一种老师推荐学习(Teacher-Recommended Learning, TRL)的方法,充分利用成功的外部语言模型(ELM)将丰富的语言知识整合到字幕模型中。ELM生成了在语义上更相似的单词,这些单词扩展了用于训练的真实单词,以解决长尾问题。 对三个基准MSVD,MSR-VTT和VATEX进行的实验评估表明,所提出的ORG-TRL系统达到了最先进的性能。 广泛的消去研究和可视化说明了我们系统的有效性。

网址:https://arxiv.org/abs/2002.11566

3. Social-STGCNN: A Social Spatio-Temporal Graph Convolutional Neural Network for Human Trajectory Prediction

作者:Abduallah Mohamed and Kun Qian

摘要:有了更好地了解行人行为的机器可以更快地建模智能体(如:自动驾驶汽车)和人类之间的特征交互。行人的运动轨迹不仅受行人自身的影响,还受与周围物体相互作用的影响。以前的方法通过使用各种聚合方法(整合了不同的被学习的行人状态)对这些交互进行建模。我们提出了社交-时空图卷积神经网络(Social-STGCNN),它通过将交互建模为图来代替聚合方法。结果表明,最终位偏误差(FDE)比现有方法提高了20%,平均偏移误差(ADE)提高了8.5倍,推理速度提高了48倍。此外,我们的模型是数据高效的,在只有20%的训练数据上ADE度量超过了以前的技术。我们提出了一个核函数来将行人之间的社会交互嵌入到邻接矩阵中。通过定性分析,我们的模型继承了行人轨迹之间可以预期的社会行为。

网址:https://arxiv.org/abs/2002.11927

代码链接:

https://github.com/abduallahmohamed/Social-STGCNN

4. Unbiased Scene Graph Generation from Biased Training

作者:Kaihua Tang, Yulei Niu, Jianqiang Huang, Jiaxin Shi and Hanwang Zhang

摘要:由于严重的训练偏差,场景图生成(SGG)的任务仍然不够实际,例如,将海滩上的各种步行/坐在/躺下的人简化为海滩上的人。基于这样的SGG,VQA等下游任务很难推断出比一系列对象更好的场景结构。然而,SGG中的debiasing 是非常重要的,因为传统的去偏差方法不能区分好的和不好的偏差,例如,好的上下文先验(例如,人看书而不是吃东西)和坏的长尾偏差(例如,将在后面/前面简化为邻近)。与传统的传统的似然推理不同,在本文中,我们提出了一种新的基于因果推理的SGG框架。我们首先为SGG建立因果关系图,然后用该因果关系图进行传统的有偏差训练。然后,我们提出从训练好的图中提取反事实因果关系(counterfactual causality),以推断应该被去除的不良偏差的影响。我们使用Total Direct Effect作为无偏差SGG的最终分数。我们的框架对任何SGG模型都是不可知的,因此可以在寻求无偏差预测的社区中广泛应用。通过在SGG基准Visual Genome上使用我们提出的场景图诊断工具包和几种流行的模型,与以前的最新方法相比有显著提升。

网址:https://arxiv.org/abs/2002.11949

代码链接:

https://github.com/KaihuaTang/Scene-Graph-Benchmark.pytorch

5. Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences

作者:Zhu Zhang, Zhou Zhao, Yang Zhao, Qi Wang, Huasheng Liu and Lianli Gao

摘要:在本文中,我们考虑了一项用于多形式句子(Multi-Form Sentences)的时空Video Grounding(STVG)的任务。 即在给定未剪辑的视频和描述对象的陈述句/疑问句,STVG旨在定位所查询目标的时空管道(tube)。STVG有两个具有挑战性的设置:(1)我们需要从未剪辑的视频中定位时空对象管道,但是对象可能只存在于视频的一小段中;(2)我们需要处理多种形式的句子,包括带有显式宾语的陈述句和带有未知宾语的疑问句。 由于无效的管道预生成和缺乏对象关系建模,现有方法无法解决STVG任务。为此,我们提出了一种新颖的时空图推理网络(STGRN)。首先,我们构建时空区域图来捕捉具有时间对象动力学的区域关系,包括每帧内的隐式、显式空间子图和跨帧的时间动态子图。然后,我们将文本线索加入到图中,并开发了多步跨模态图推理。接下来,我们引入了一种具有动态选择方法的时空定位器,该定位器可以直接检索时空管道,而不需要预先生成管道。此外,我们在视频关系数据集Vidor的基础上构建了一个大规模的video grounding数据集VidSTG。大量的实验证明了该方法的有效性。

网址:https://arxiv.org/abs/2001.06891

成为VIP会员查看完整内容
0
67

计算机视觉顶会 CVPR 2019 的论文接前几天公布了接受论文:在超过 5100 篇投稿中,共有 1300 篇被接收,达到了接近 25.2% 的接收率。近期结合图卷积网络相关的应用论文非常多,CVPR最新发布的论文也有很多篇,专知小编专门整理了最新五篇图卷积网络相关视觉应用论文—零样本学习、姿态估计、人脸聚类、交互式目标标注和视频异常检测。

1、Rethinking Knowledge Graph Propagation for Zero-Shot Learning(零样本学习中知识图传播的再思考)

作者:Michael Kampffmeyer, Yinbo Chen, Xiaodan Liang, Hao Wang, Yujia Zhang, Eric P. Xing

摘要:最近,图卷积神经网络在零样本学习任务中显示出了巨大的潜力。这些模型具有高度的采样效率,因为图结构中的相关概念共享statistical strength,允许在缺少数据时对新类进行泛化。然而,由于多层架构需要将知识传播到图中较远的节点,因此在每一层都进行了广泛的拉普拉斯平滑来稀释知识,从而降低了性能。为了仍然享受图结构带来的好处,同时防止远距离节点的知识被稀释,我们提出了一种密集图传播(DGP)模块,该模块在远端节点之间精心设计了直接链接。DGP允许我们通过附加连接利用知识图的层次图结构。这些连接是根据节点与其祖先和后代的关系添加的。为了提高图中信息的传播速度,进一步采用加权方案,根据到节点的距离对它们的贡献进行加权。结合两阶段训练方法中的表示的微调,我们的方法优于目前最先进的零样本学习方法。

网址: http://www.zhuanzhi.ai/paper/dd4945166583a26685faaad5322162f0

代码链接: https://github.com/cyvius96/adgpm

2、3D Hand Shape and Pose Estimation from a Single RGB Image(单一RGB图像的3D手形和姿态估计)

CVPR 2019 Oral

作者:Liuhao Ge, Zhou Ren, Yuncheng Li, Zehao Xue, Yingying Wang, Jianfei Cai, Junsong Yuan

摘要:这项工作解决了一个新颖且具有挑战性的问题,从单一RGB图像估计完整3D手形和姿势。目前对单目RGB图像进行三维手部分析的方法大多只注重对手部关键点的三维位置进行估计,无法完全表达手部的三维形态。相比之下,我们提出了一种基于图卷积神经网络(Graph CNN)的方法来重建一个完整的手部三维网格,其中包含了更丰富的手部三维形状和姿态信息。为了训练具有完全监督的网络,我们创建了一个包含ground truth三维网格和三维姿态的大规模合成数据集。当在真实世界数据集上微调网络时(没有三维ground truth),我们提出了一种利用深度图作为训练弱监督的方法。通过对所提出的新数据集和两个公共数据集的广泛评估,表明我们所提出的方法能够生成准确合理的三维手部网格,与现有方法相比,能够获得更高的三维手部姿态估计精度。

网址: http://www.zhuanzhi.ai/paper/d167eade544143625933886e5cb34cf6

代码链接: https://github.com/geliuhao/3DHandShapePosefromRGB

3、Linkage Based Face Clustering via Graph Convolution Network(通过图卷积网络实现基于链接的人脸聚类)

作者:Zhongdao Wang,Liang Zheng,Yali Li,Shengjin Wang

摘要:本文提出了一种精确、可扩展的人脸聚类方法。我们的目标是根据一组人脸的潜在身份对它们进行分组。我们将这个任务描述为一个链接预测问题:如果两个面孔具有相同的身份,那么它们之间就存在一个链接。关键思想是,我们在实例(face)周围的特征空间中找到本地上下文,其中包含关于该实例及其邻居之间链接关系的丰富信息。通过将每个实例周围的子图构造为描述局部上下文的输入数据,利用图卷积网络(GCN)进行推理,并推断出子图中对之间链接的可能性。实验表明,与传统方法相比,我们的方法对复杂的人脸分布具有更强的鲁棒性,在标准人脸聚类基准测试上与最先进的方法具有良好的可比性,并且可扩展到大型数据集。此外,我们证明了该方法不像以前那样需要事先知道簇的数量,能够识别噪声和异常值,并且可以扩展到多视图版本,以获得更精确的聚类精度。

网址: http://www.zhuanzhi.ai/paper/e7ace43c7aafec56171283988e34aa8b

4、Fast Interactive Object Annotation with Curve-GCN(使用Curve-GCN进行快速交互式目标标注)

作者:Huan Ling, Jun Gao, Amlan Kar, Wenzheng Chen, Sanja Fidler

摘要:通过跟踪边界来手动标记对象是一个繁重的过程。 在Polygon-RNN ++中,作者提出了Polygon-RNN,它使用CNN-RNN体系结构以一种循环的方式生成多边形注释,允许通过人在环中进行交互式校正。我们提出了一个新的框架,通过使用图卷积网络(GCN)同时预测所有顶点,减轻了Polygon-RNN的时序性。我们的模型是端到端训练的。 它支持多边形或样条线的对象标注,从而提高了基于线和曲线对象的标注效率。 结果表明,在自动模式下,curv- gcn的性能优于现有的所有方法,包括功能强大的PSP-DeepLab,并且在交互模式下,curv - gcn的效率明显高于Polygon-RNN++。我们的模型在自动模式下运行29.3ms,在交互模式下运行2.6ms,比polyicon - rnn ++分别快10倍和100倍。

网址: http://www.zhuanzhi.ai/paper/c1839ee852a4b9b402da2547508980d3

代码链接: https://github.com/fidler-lab/curve-gcn

5、Graph Convolutional Label Noise Cleaner: Train a Plug-and-play Action Classifier for Anomaly Detection(图卷积标签噪声清除器: 训练用于异常检测的Plug-and-play行为分类器)

作者:Jia-Xing Zhong, Nannan Li, Weijie Kong, Shan Liu, Thomas H. Li, Ge Li

摘要:在以往的工作中,弱标签下的视频异常检测被描述为一个典型的多实例学习问题。在本文中,我们提供了一个新的视角,即在嘈杂标签下的监督学习任务。在这样的观点中,只要去除标签噪声,就可以直接将全监督的动作分类器应用到弱监督异常检测中,并最大限度地利用这些完善的分类器。为此,我们设计了一个图卷积网络来校正噪声标签。基于特征相似性和时间一致性,我们的网络将监控信号从高置信度的片段传播到低置信度的片段。以这种方式,网络能够为动作分类器提供清洁的监督。在测试阶段,我们只需要从动作分类器获得片段预测,而无需任何额外的后处理。使用2种类型的动作分类器对3个不同尺度的数据集进行了大量实验,证明了我们的方法的有效性。值得注意的是,我们在UCF-Crime上获得了82.12%的帧级AUC分数。

网址: http://www.zhuanzhi.ai/paper/12c28bd5fcdb4fa91e63b11055bdcc4d

代码链接: https://github.com/jx-zhong-for-academic-purpose/GCN-Anomaly-Detection

下载链接:https://pan.baidu.com/s/1bK1UMRspsNcx6FxrtzNr3A 提取码:34p8

成为VIP会员查看完整内容
0
26
小贴士
相关VIP内容
相关论文
A Collective Learning Framework to Boost GNN Expressiveness
Mengyue Hang,Jennifer Neville,Bruno Ribeiro
18+阅读 · 2020年3月26日
Memory Augmented Graph Neural Networks for Sequential Recommendation
Chen Ma,Liheng Ma,Yingxue Zhang,Jianing Sun,Xue Liu,Mark Coates
11+阅读 · 2019年12月26日
Hyper-SAGNN: a self-attention based graph neural network for hypergraphs
Ruochi Zhang,Yuesong Zou,Jian Ma
12+阅读 · 2019年11月6日
Runhao Zeng,Wenbing Huang,Mingkui Tan,Yu Rong,Peilin Zhao,Junzhou Huang,Chuang Gan
5+阅读 · 2019年9月7日
NEAR: Neighborhood Edge AggregatoR for Graph Classification
Cheolhyeong Kim,Haeseong Moon,Hyung Ju Hwang
5+阅读 · 2019年9月6日
Xiang Wang,Xiangnan He,Yixin Cao,Meng Liu,Tat-Seng Chua
35+阅读 · 2019年5月20日
Vinicius Zambaldi,David Raposo,Adam Santoro,Victor Bapst,Yujia Li,Igor Babuschkin,Karl Tuyls,David Reichert,Timothy Lillicrap,Edward Lockhart,Murray Shanahan,Victoria Langston,Razvan Pascanu,Matthew Botvinick,Oriol Vinyals,Peter Battaglia
4+阅读 · 2018年6月5日
Petar Veličković,Guillem Cucurull,Arantxa Casanova,Adriana Romero,Pietro Liò,Yoshua Bengio
6+阅读 · 2018年2月4日
Ryan A. Rossi,Nesreen K. Ahmed,Eunyee Koh
10+阅读 · 2018年1月28日
Jiezhong Qiu,Yuxiao Dong,Hao Ma,Jian Li,Kuansan Wang,Jie Tang
15+阅读 · 2017年12月12日
Top