【导读】最近小编推出CVPR2019图卷积网络相关论文和CVPR2019生成对抗网络相关视觉论文,反响热烈。最近,模型的可解释性是现在正火热的科研和工程问题,也在各个顶级会议上都有相关文章发表,今天小编专门整理最新十篇可解释性相关应用论文—推荐系统、知识图谱、迁移学习以及视觉推理等。

1、Recurrent Knowledge Graph Embedding for Effective Recommendation(基于循环知识图嵌入的推荐)

RecSys ’18

作者:Zhu Sun, Jie Yang, Jie Zhang, Alessandro Bozzon, Long-Kai Huang, Chi Xu

摘要:知识图(KGs)已被证明是改进推荐的有效方法。现有的方法主要依赖于KG手工设计的特性(例如,元路径meta paths),这需要领域知识(domain knowledge)。本文介绍了一种KG嵌入方法RKGE,它可以自动学习实体和实体之间的路径的语义表示,从而描述用户对商品的偏好。具体地说,RKGE采用了一种新的循环网络架构,其中包含了一批循环网络,用于对链接相同实体对的路径进行语义建模,这些路径无缝地融合到推荐中。它还使用pooling操作符来区分不同路径在描述用户对商品的偏好时的显著性。对真实数据集的广泛验证显示出RKGE相对于最先进方法的优越性。此外,我们证明了RKGE为推荐结果提供了有意义的解释。

网址:

https://yangjiera.github.io/works/recsys2018.pdf

2、Explainable Recommendation via Multi-Task Learning in Opinionated Text Data( 在观点文本数据中基于多任务学习的可解释性推荐)

SIGIR ’18

作者:Nan Wang, Hongning Wang, Yiling Jia, Yue Yin

摘要:通过解释自动生成的推荐,可以让用户更明智、更准确地决定使用哪些结果,从而提高他们的满意度。在这项工作中,我们开发了一个可解释推荐的多任务学习解决方案。通过联合张量因子分解,将推荐用户偏好建模和解释用户意见内容建模这两项学习任务结合起来。因此,该算法不仅预测了用户对一组商品的偏好,即推荐,而且预测用户如何在特征级别上喜欢某一特定商品,即观点文本解释。通过对Amazon和Yelp两个大型评论数据集的大量实验,与现有的几种推荐算法相比,验证了我们的解决方案在推荐和解释任务方面的有效性。我们广泛的实验研究清楚地证明了我们的算法生成的可解释建议有着不错的实用价值。

网址:

https://arxiv.org/abs/1806.03568

代码链接:

https://github.com/MyTHWN/MTER

3、TEM:Tree-enhanced Embedding Model for Explainable Recommendation(基于Tree增强嵌入方法的可解释性推荐)

WWW ’18

作者:Xiang Wang, Xiangnan He, Fuli Feng, Liqiang Nie, Tat-Seng Chua

摘要:虽然协同过滤是个性化推荐的主导技术,但它只对用户-商品交互进行建模,不能为推荐提供具体的理由。与此同时,与用户-商品交互相关的丰富的侧面信息(例如,用户统计数据和商品属性)提供了有价值的证据,可以说明为什么该推荐适合于用户,但在提供解释方面还没有得到充分的探索。在技术方面,基于嵌入的方法,如广度&深度和神经因子分解机,提供了最先进的推荐性能。然而,它们的工作原理就像一个黑匣子,无法明确地呈现出预测背后的原因。另一方面,决策树等基于树的方法通过从数据中推断决策规则来进行预测。虽然可以解释,但它们不能推广到不可见的特性交互,因此在协作过滤应用程序中会失败。在这项工作中,我们提出了一种新的解决方案,称为树增强嵌入方法,它结合了基于嵌入和基于树的模型的优点。我们首先使用一个基于树的模型从丰富的侧面信息来学习明确的决策规则(又称交叉特征)。接下来,我们设计了一个嵌入模型,该模型可以包含显式交叉特征,并推广到用户ID和商品ID上不可见的交叉特征。嵌入方法的核心是一个易于解释的注意力网络,使得推荐过程完全透明和可解释。我们对旅游景点和餐厅推荐的两个数据集进行了实验,证明了我们的解决方案的优越性能和可解释性。

网址:

https://dl.acm.org/citation.cfm?id=3178876.3186066

代码链接:

https://github.com/xiangwang1223/TEM

4、Explainable Reasoning over Knowledge Graphs for Recommendation(基于知识图谱可解释推理的推荐)

AAAI ’19

作者:Xiang Wang, Dingxian Wang, Canran Xu, Xiangnan He, Yixin Cao, Tat-Seng Chua

摘要:近年来,将知识图谱与推荐系统相结合引起越来越多的关注。通过研究知识图谱中的相互关系,可以发现用户与商品之间的连接路径,这为用户与商品之间的交互提供了丰富且互补的信息。这种连通性不仅揭示了实体和关系的语义,而且有助于理解用户的兴趣。然而,现有的工作尚未充分探索用来推断用户偏好的这种连接性,特别是在建模路径内部的顺序依赖关系和整体语义方面。本文提出了一种新的知识感知路径递归网络(Knowledgeaware Path Recurrent Network,KPRN)模型,利用知识图进行推荐。KPRN可以通过组合实体和关系的语义来生成路径表示。通过利用路径中的顺序依赖关系,我们允许对路径进行有效的推理,从而推断用户-商品交互的基本原理。此外,我们设计了一个新的加权pooling操作来区分连接用户和商品的不同路径的优势,使我们的模型具有一定的可解释性。我们对电影和音乐的两个数据集进行了大量的实验,证明了,与最好的方法相比,CKE(Collaborative Knowledge Base Embedding)和神经因子分解(Neural Factorization Machine),都有了显著的改进。

网址:

https://arxiv.org/abs/1811.04540

代码链接:

https://github.com/eBay/KPRN

5、Explainable Recommendation Through Attentive Multi-View Learning(基于注意力机制多视角学习的可解释推荐)

AAAI ’19

作者:Jingyue Gao, Xiting Wang, Yasha Wang, Xing Xie

摘要:由于信息的爆炸式增长,推荐系统在我们的日常生活中发挥着越来越重要的作用。当我们评估一个推荐模型时,准确性和可解释性是两个核心方面,并且已经成为机器学习的基本权衡指标之一。在本文中,我们提出通过开发一个结合了基于深度学习的模型和现有可解释方法的优点的可解释的深度模型,来减轻准确性和可解释性之间的权衡。其基本思想是基于可解释的深度层次结构(如Microsoft概念图)构建初始网络,通过优化层次结构中的关键变量(如节点重要性和相关性)来提高模型精度。为了保证准确的评分预测,我们提出了一个周到的多视图学习框架。该框架通过在不同的特征层之间进行协同正则化,并专注地结合预测,使我们能够处理稀疏和噪声数据。为了从层次结构中挖掘可读的解释,我们将个性化解释生成问题定义为一个约束树节点选择问题,并提出了一种动态规划算法来解决该问题。实验结果表明,该模型在准确性和可解释性方面均优于现有的最好的方法。

网址:

https://www.microsoft.com/en-us/research/publication/explainable-recommendation-through-attentive-multi-view-learning/

6、ExFaKT- A Framework for Explaining Facts over Knowledge Graphs and Text(ExFaKT:一个基于知识图谱和文本来解释事实的框架)

WSDM ’19

作者:Mohamed H. Gad-Elrab, Daria Stepanova, Jacopo Urbani, Gerhard Weikum

摘要:事实检验是准确填充、更新和整理知识图谱的关键。手工验证候选事实非常耗时。先前关于自动完成这一任务的工作侧重于使用非人类可解释的数值分数来估计真实性。另一些则提取文本中对候选事实的显式提及作为候选事实的证据,这很难直接发现。在我们的工作中,我们引入了ExFaKT,这是一个专注于为候选事实生成人类可理解的解释的框架。ExFaKT使用以Horn子句形式编码的背景知识将相关事实重写为一组其他更容易找到的事实。我们框架的最终输出是文本和知识图谱中候选事实的一组语义跟踪。实验表明,我们的重写在保持较高精确度的同时,显著提高了事实发现的召回率。此外,我们还表明,这些解释有效地帮助人类执行事实检查,并且在用于自动事实检查时也可以执行得很好。

网址:

https://dl.acm.org/citation.cfm?id=3290996

代码链接:

https://www.dropbox.com/sh/wpyyiyy5lusph40/AAC72xbQoGhCu4Qpa-mwUvDua?dl=0

7、Interaction Embeddings for Prediction and Explanation in Knowledge Graphs(知识图谱中的预测和解释的交互嵌入学习)

WSDM ’19

作者:Wen Zhang, Bibek Paudel, Wei Zhang, Abraham Bernstein, Huajun Chen

摘要:知识图嵌入旨在学习实体和关系的分布式表示,并在许多应用中被证明是有效的。交叉交互(Crossover interactions)——实体和关系之间的双向影响——有助于在预测新的三元组时选择相关信息,但之前从未正式讨论过。在本文中,我们提出了一种新的知识图嵌入算法CrossE,它可以显式地模拟交叉交互。它不仅像以前的大多数方法一样,为每个实体和关系学习一个通用嵌入,而且还为这两个实体和关系生成多个三重特定嵌入,称为交互嵌入。我们评估了典型链接预测任务的嵌入,发现CrossE在复杂和更具挑战性的数据集上实现了最先进的结果。此外,我们从一个新的角度来评估嵌入——为预测的三元组提供解释,这对实际应用非常重要。在本工作中,对三元组的解释被认为是头尾实体之间可靠的闭合路径。与其他baseline相比,我们通过实验证明,CrossE更有能力生成可靠的解释来支持其预测,这得益于交互嵌入。

网址:

https://arxiv.org/abs/1903.04750

8、SimGNN- A Neural Network Approach to Fast Graph Similarity Computation(SimGNN:一种快速计算图相似度的神经网络方法)

WSDM ’19

作者:Yunsheng Bai, Hao Ding, Song Bian, Ting Chen, Yizhou Sun, Wei Wang

摘要:图相似度搜索是基于图的最重要的应用之一,例如查找与已知化合物最相似的化合物。图的相似度/距离计算,如图的编辑距离(GED)和最大公共子图(MCS),是图的相似度搜索和许多其他应用的核心操作,但在实践中计算成本很高。受最近神经网络方法在一些图应用(如节点或图分类)中的成功的启发,我们提出了一种新的基于神经网络的方法来解决这个经典但具有挑战性的图问题,目的是在保持良好性能的同时减轻计算负担。这个被称为SimGNN的方法结合了两种策略。首先,我们设计了一个可学习的嵌入函数,它将每个图映射到一个嵌入向量,该向量提供了一个图的全局摘要。提出了一种新的注意机制,针对特定的相似度度量强调重要节点。其次,设计了一种节点对比较法,用细粒度节点信息来补充图级嵌入。我们的模型对不可见图有较好的泛化效果,并且在最坏的情况下,对两个图中的节点数运行二次方的时间。以GED计算为例,在三个实际图形数据集上的实验结果表明了该方法的有效性和效率性。具体来说,我们的模型与一系列baseline相比,包括一些基于GED计算的近似算法和许多现有的基于图神经网络的模型,实现了更小的错误率和更大的时间缩短。我们的工作表明,SimGNN为图相似度计算和图相似度搜索提供了一个新的研究方向。

网址:

https://dl.acm.org/citation.cfm?id=3290967

代码链接:

https://github.com/benedekrozemberczki/SimGNN

9、Human-centric Transfer Learning Explanation via Knowledge Graph(通过知识图谱以人为中心的迁移学习可解释)

AAAI-19 Workshop on Network Interpretability for Deep Learning

作者:Gao Yuxia Geng, Jiaoyan Chen, Ernesto Jim´enez-Ruiz, Huajun Chen

摘要:迁移学习(Transfer Learning)是利用从一个问题(源域)中学习到的知识来解决另一个不同但相关的问题(目标域),已经引起了广泛的研究关注。然而,目前的迁移学习方法大多是无法解释的,尤其是对没有机器学习专业知识的人来说。在这篇摘要中,我们简要介绍了两种基于知识图谱(KG)的人类可理解迁移学习解释框架。第一个解释了卷积神经网络(CNN)学习特征通过预训练和微调从一个域到另一个域的可移植性,第二个证明了零样本学习(zero-shot learning ,ZSL)中多个源域模型预测的目标域模型的合理性。这两种方法都利用了KG及其推理能力,为迁移过程提供了丰富的、人类可以理解的解释。

网址:

https://arxiv.org/abs/1901.08547

10、Explainable and Explicit Visual Reasoning over Scene Graphs(对场景图进行的可解释和显式的视觉推理)

CVPR-19

作者:Jiaxin Shi, Hanwang Zhang, Juanzi Li

摘要:我们的目标是将复杂视觉推理任务中使用的流行黑盒神经架构拆分为可解释的,明确的神经模块(XNMs), 它能够超越现有的神经模块网络,使用场景图—对象作为节点,成对关系作为边—用于结构化知识的可解释和明确推理。XNMs让我们更加关注教机器如何“思考”,无论它们“看起来”是什么。正如我们将在本文中展示的那样,通过使用场景图作为一个归纳偏差,1)我们可以用简洁灵活的方式设计XNMs,即, XNMs仅由4种元类型组成,大大减少了10 ~ 100倍的参数数量,2)我们可以根据图的注意力程度显式地跟踪推理流程。XNMs是如此的通用,以至于它们支持具有不同质量的各种场景图实现。例如,当图形被完美地检测到时,XNMs在CLEVR和CLEVR CoGenT上的准确率都达到了100%,为视觉推理建立了一个经验性能上限; 当从真实世界的图像中噪声检测出这些图时,XNMs仍然很健壮,在VQAv2.0上达到了67.5%的有竞争力的精度,超越了流行的没有图结构的(bag-of-objects)注意力模型。

网址:

https://arxiv.org/abs/1812.01855

代码链接:

https://github.com/shijx12/XNM-Net

链接:https://pan.baidu.com/s/1ETMl1B0LvIND0kj4NqrUuQ 提取码:9e9x

成为VIP会员查看完整内容
0
45

相关内容

广义上的可解释性指在我们需要了解或解决一件事情的时候,我们可以获得我们所需要的足够的可以理解的信息,也就是说一个人能够持续预测模型结果的程度。按照可解释性方法进行的过程进行划分的话,大概可以划分为三个大类: 在建模之前的可解释性方法,建立本身具备可解释性的模型,在建模之后使用可解释性方法对模型作出解释。

【导读】国际万维网大会(The Web Conference,简称WWW会议)是由国际万维网会议委员会发起主办的国际顶级学术会议,创办于1994年,每年举办一届,是CCF-A类会议。WWW 2020将于2020年4月20日至4月24日在中国台湾台北举行。本届会议共收到了1129篇长文投稿,录用217篇长文,录用率为19.2%。近期,推荐相关也比较热门,专知小编提前整理了WWW 2020 推荐系统比较有意思的的论文,供参考——序列推荐、可解释Serendipity 推荐、推荐效率、 bandit推荐、Off-policy学习。 WWW2020RS_Part1

  1. A Contextualized Temporal Attention Mechanism for Sequential Recommendation

作者:Jibang Wu, Renqin Cai, Hongning Wang

摘要:根据用户的历史连续行为预测用户的偏好对于现代推荐系统来说是具有挑战性的,也是至关重要的。现有的序列推荐算法在建模历史事件对当前预测的影响时,大多侧重于序列行为之间的过渡结构,而很大程度上忽略了时间和上下文信息。在这篇文章中,我们认为过去的事件对用户当前行为的影响应该随着时间的推移和不同的背景而变化。因此,我们提出了一种情境时间注意力机制(Contextualized Temporal Attention),该机制可以学习权衡历史行为在行为以及行为发生的时间和方式上的影响。更具体地说,为了动态地校准来自自注意力机制的相对输入的依赖关系,我们提出了多个参数化的核函数以学习各种时间动态,然后使用上下文信息来确定每个输入要跟随哪一个kernel( reweighing kernels )。在对两个大型公开推荐数据集进行的实证评估中,我们的模型始终优于一系列最先进的序列推荐方法。

网址:

https://arxiv.org/pdf/2002.00741.pdf

  1. Directional and Explainable Serendipity Recommendation

作者:Xueqi Li, Wenjun Jiang, Weiguang Chen, Jie Wu, Guojun Wang, Kenli Li

摘要:近几年来,Serendipity推荐越来越受到人们的关注,它致力于提供既能迎合用户需求,又能开阔他们眼界的建议。然而,现有的方法通常使用标量而不是向量来度量用户与项目的相关性,忽略了用户的偏好方向,这增加了不相关推荐的风险。此外,合理的解释增加了用户的信任度和接受度,但目前没有为Serendipity推荐提供解释的工作。为了解决这些局限性,我们提出了一种有向的、可解释的Serendipity推荐方法,称为DESR。具体而言,首先采用基于高斯混合模型(GMM)的无监督方法提取用户的长期偏好,然后利用胶囊(capsule )网络捕捉用户的短期需求。然后,我们提出了将长期偏好与短期需求相结合的意外(serendipity)向量,并利用它生成有向的Serendipity推荐。最后,利用反向路径选择方案进行了解释。在真实数据集上的大量实验表明,与现有的基于意外(serendipity)发现的方法相比,DESR能够有效地提高意外性和可解释性,促进多样性。

网址 https://cis.temple.edu/~jiewu/research/publications/Publication_files/jiang_www_2020.pdf

  1. LightRec: a Memory and Search-Efficient Recommender System

作者:Defu Lian, Haoyu Wang, Zheng Liu, Jianxun Lian, Enhong Chen, Xing Xie

摘要:近年来,深度推荐系统已经取得了显着的进步。尽管具有出色的排名精度,但实际上运行效率和内存消耗在现实中却是严重的瓶颈。为了克服这两个瓶颈,我们提出了LightRec,这是一个轻量级的推荐系统,具有快速的在线推断功能和经济的内存消耗。LightRec的主干是总共B个codebooks,每个codebook均由W个潜在向量组成,称为codewords。在这种结构的顶部,LightRec将有一个商品表示为B codewords的加法组合,这些B codewords是从每个codebook中选择的最佳的。为了有效地从数据中学习codebooks,我们设计了一个端到端的学习工作流程,其中所提出的技术克服了固有差异性和多样性方面的挑战。另外,为了进一步提高表示质量,采用了几种distillation策略,可以更好地保留用户-商品的相关性得分和相对排名顺序。我们对LightRec在四个真实数据集上进行了广泛评估,得出了两个经验发现:1)与最先进的轻量级baseline相比,LightRec在召回性能方面取得了超过11%的相对改进;2)与传统推荐算法相比,在top-k推荐算法中,LightRec的精度下降幅度可以忽略不计,但速度提高了27倍以上。

网址: http://staff.ustc.edu.cn/~liandefu/paper/lightrec.pdf

  1. Hierarchical Adaptive Contextual Bandits for Resource Constraint based Recommendation

作者:Mengyue Yang, Qingyang Li, Zhiwei Qin, Jieping Ye

摘要:上下文多臂 bandit(MAB)在各种问题上实现了优异性能。然而,当涉及到推荐系统和在线广告等现实场景时,必须考虑探索的资源消耗。在实践中,通常存在与在环境中执行建议(ARM)相关联的非零成本,因此,应该在固定的探索成本约束下学习策略。由于直接学习全局最优策略是一个NP难题,并且极大地使bandit算法的探索和开发之间的权衡复杂化,因此直接学习全局最优策略是一个很大的挑战。现有的方法着重于通过采用贪婪策略来解决问题,该策略估计预期的收益和成本,并基于每个臂的预期收益/成本比使用贪婪的选择,利用历史观察直到勘探资源耗尽为止。然而,现有的方法当没有更多的资源时,学习过程就会终止,因此很难扩展到无限的时间范围。本文提出了一种分层自适应上下文bandit方法(HATCH)来进行有预算约束的上下文bandit的策略学习。HATCH采用一种自适应的方法,根据剩余资源/时间和对不同用户上下文之间报酬分配的估计来分配勘探资源。此外,我们利用充分的上下文特征信息来找到最好的个性化推荐。最后,为了证明提出的理论,我们进行了regret bound分析,并证明HATCH的regret bound低至O(√T)。实验结果证明了该方法在合成数据集和实际应用中的有效性和效率。

网址: https://arxiv.org/pdf/2004.01136.pdf

  1. Off-policy Learning in Two-stage Recommender Systems

作者:Jiaqi Ma, Zhe Zhao, Xinyang Yi, Ji Yang, Minmin Chen, Jiaxi Tang, Lichan Hong, Ed H. Chi

摘要:许多现实世界中的推荐系统需要高度可伸缩性:将数百万个项目与数十亿用户进行匹配,并只具有毫秒级的延迟。可伸缩性的要求导致了广泛使用的两阶段推荐系统,由第一阶段高效的候选生成模型和第二阶段更强大的排序模型组成。通常使用记录的用户反馈(例如,用户点击或停留时间)来构建用于推荐系统的候选生成和排名模型。虽然很容易收集大量这样的数据,但因为反馈只能在以前系统推荐的项目上观察到,因此这些数据在本质上是有偏见的。近年来,推荐系统研究领域对此类偏差的off-policy 修正引起了越来越多的关注。然而,现有的大多数工作要么假设推荐系统是一个单阶段系统,要么只研究如何将离策略校正应用于系统的候选生成阶段,而没有显式地考虑这两个阶段之间的相互作用。在这项工作中,我们提出了一种两阶段离策略(two-stage off-policy)策略梯度方法,并证明了在两阶段推荐系统中忽略这两个阶段之间的交互会导致次优策略。该方法在训练候选生成模型时明确考虑了排序模型,有助于提高整个系统的性能。我们在具有大项目空间的真实数据集上进行了实验,验证了所提方法的有效性。

网址: http://www.jiaqima.com/papers/OP2S.pdf

成为VIP会员查看完整内容
0
61

【导读】计算机视觉顶会CVPR 2020在不久前公布了论文接收列表。本届CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率仅为22%。几周前专知小编整理了CVPR 2020 图神经网络(GNN)相关的比较有意思的值得阅读的,这期小编继续为大家奉上CVPR 2020五篇GNN相关论文供参考——视频文本检索、人体解析、图像描述生成、人脸重构、Human-Object Interaction。

CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN、ICML2019GNN

  1. Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning

作者:Shizhe Chen, Yida Zhao, Qin Jin and Qi Wu

摘要:随着视频在网络上的迅速涌现,视频和文本之间的跨模态检索越来越受到人们的关注。目前解决这一问题的主流方法是学习联合嵌入空间来度量跨模态相似性。然而,简单的联合嵌入不足以表示复杂的视觉和文本细节,例如场景、对象、动作及他们的组成。为了提高细粒度的视频文本检索,我们提出了一种分层图推理(HGR)模型,将视频文本匹配分解为全局到局部层次。具体地说,该模型将文本分解成层次化的语义图,包括事件、动作、实体这三个层次和这些层次之间的关系。利用基于属性的图推理生成层次化的文本嵌入,以指导多样化、层次化的视频表示学习。HGR模型聚合来自不同视频-文本级别的匹配,以捕捉全局和局部细节。在三个视频文本数据集上的实验结果表明了该模型的优越性。这种分层分解还可以更好地跨数据集进行泛化,并提高区分细粒度语义差异的能力。

网址:https://arxiv.org/abs/2003.00392

  1. Hierarchical Human Parsing with Typed Part-Relation Reasoning

作者:Wenguan Wang, Hailong Zhu, Jifeng Dai, Yanwei Pang, Jianbing Shen and Ling Shao

摘要:人体解析(Human parsing)是为了像素级的人类语义理解。由于人体是具有层次结构的,因此如何对人体结构进行建模是这个任务的中心主题。围绕这一点,我们试图同时探索深度图网络的表示能力和层次化的人类结构。在本文中,我们有以下两个贡献。首先,首次用三个不同的关系网络完整而精确地描述了分解、组合和依赖这三种部件关系。这与以前的解析方式形成了鲜明的对比,之前的解析器只关注关系的一部分,并采用类型不可知(type-agnostic)的关系建模策略。通过在关系网络中显式地施加参数来满足不同关系的具体特性,可以捕捉到更具表现力的关系信息。其次,以前的解析器在很大程度上忽略了循环的人类层次结构上的近似算法的需求,而我们则通过将具有边类型的通用信息传递网络与卷积网络同化来解决迭代推理过程。通过这些努力,我们的解析器为更复杂、更灵活的人际关系推理模式奠定了基础。在五个数据集上的综合实验表明,我们的解析器在每个数据集上都具有最好的表现。

网址:https://arxiv.org/abs/2003.04845

  1. Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

作者:Shizhe Chen, Qin Jin, Peng Wang and Qi Wu

摘要:人类能够随心所欲地用粗略到精细的细节来描述图像内容。然而,大多数图像描述生成模型都是忽略意图(intention-agnostic)的,不能根据不同的用户意图主动生成不同的描述。在这项工作中,我们提出了抽象场景图(ASG)结构来在细粒度层次上表示用户意图,并控制生成的描述应该是什么和有多详细。ASG是一个由三种类型的抽象节点(对象、属性、关系)组成的有向图,这些节点来自于图像,没有任何具体的语义标签。因此,啊他们通过手动或自动生成都很容易获得。在ASG的基础上,我们提出了一种新颖的ASG2图像描述生成模型,该模型能够识别用户在图中的意图和语义,从而根据图的结构生成想要的字幕。与在VisualGenome和MSCOCO数据集上的其它的基线模型相比,我们的模型在ASG上具有更好的可控性条件。它还通过自动采样不同的ASG作为控制信号,显著提高了caption的多样性。

网址:https://arxiv.org/abs/2003.00387

  1. Towards High-Fidelity 3D Face Reconstruction from In-the-Wild Images Using Graph Convolutional Networks

作者:Jiangke Lin, Yi Yuan, Tianjia Shao and Kun Zhou

摘要:基于三维形变模型(3DMM)的方法在从单视图图像中恢复三维人脸形状方面取得了很大的成功。然而,用这种方法恢复的面部纹理缺乏像输入图像中表现出的逼真度。最近的工作采用生成网络来恢复高质量的面部纹理,这些网络是从一个大规模的高分辨率脸部纹理UV图数据库中训练出来的,这些数据库很难准备的,也不能公开使用。本文介绍了一种在无约束条件下捕获(in-the-wild)的单视图像中重建具有高保真纹理的三维人脸形状的方法,该方法不需要获取大规模的人脸纹理数据库。为此,我们提出使用图卷积网络来重建网格顶点的细节颜色来代替重建UV地图。实验表明,我们的方法可以产生高质量的结果,并且在定性和定量比较方面都优于最先进的方法。

网址:https://arxiv.org/abs/2003.05653

  1. VSGNet: Spatial Attention Network for Detecting Human Object Interactions Using Graph Convolutions

作者:Oytun Ulutan, A S M Iftekhar and B. S. Manjunath

摘要:全面的视觉理解要求检测框架能够在单独分析物体的同时有效地学习和利用物体交互。这是人类-物体交互(Human-Object Interaction,HOI)任务的主要目标。特别是,物体之间的相对空间推理和结构联系是分析交互的基本线索,文中提出的视觉-空间-图网络(VSGNet)体系结构可以解决这一问题。VSGNet从人类-物体对中提取视觉特征,利用人类-物体对的空间构型对特征进行细化,并通过图卷积利用人类-物体对之间的结构联系。我们使用COCO(V-COCO)和HICO-Det数据集中的动词对VSGNet的性能进行了全面评估。实验结果表明,VSGNet在V-COCO和HICO-DET中的性能分别比现有解决方案高出8%或4MAP和16%或3MAP。

网址:https://arxiv.org/abs/2003.05541

代码链接:https://github.com/ASMIftekhar/VSGNet

成为VIP会员查看完整内容
0
72

【导读】计算机视觉顶会CVPR 2020在不久前公布了论文接收列表。本届CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率仅为22%。近期,一些Paper放出来,专知小编整理了CVPR 2020 图神经网络(GNN)相关的比较有意思的值得阅读的五篇论文,供大家参考—点云分析、视频描述生成、轨迹预测、场景图生成、视频理解等。

1. Grid-GCN for Fast and Scalable Point Cloud Learning

作者:Qiangeng Xu, Xudong Sun, Cho-Ying Wu, Panqu Wang and Ulrich Neumann

摘要:由于点云数据的稀疏性和不规则性,越来越多的方法直接使用点云数据。在所有基于point的模型中,图卷积网络(GCN)通过完全保留数据粒度和利用点间的相互关系表现出显著的性能。然而,基于点的网络在数据结构化(例如,最远点采样(FPS)和邻接点查询)上花费了大量的时间,限制了其速度和可扩展性。本文提出了一种快速、可扩展的点云学习方法--Grid-GCN。Grid-GCN采用了一种新颖的数据结构策略--Coverage-Aware Grid Query(CAGQ)。通过利用网格空间的效率,CAGQ在降低理论时间复杂度的同时提高了空间覆盖率。与最远的点采样(FPS)和Ball Query等流行的采样方法相比,CAGQ的速度提高了50倍。通过网格上下文聚合(GCA)模块,Grid-GCN在主要点云分类和分割基准上实现了最先进的性能,并且运行时间比以前的方法快得多。值得注意的是,在每个场景81920个点的情况下,Grid-GCN在ScanNet上的推理速度达到了50fps。

网址:https://arxiv.org/abs/1912.02984

2. Object Relational Graph with Teacher-Recommended Learning for Video Captioning

作者:Ziqi Zhang, Yaya Shi, Chunfeng Yuan, Bing Li, Peijin Wang, Weiming Hu and Zhengjun Zha

摘要:充分利用视觉和语言的信息对于视频字幕任务至关重要。现有的模型由于忽视了目标之间的交互而缺乏足够的视觉表示,并且由于长尾(long-tailed)问题而对与内容相关的词缺乏足够的训练。在本文中,我们提出了一个完整的视频字幕系统,包括一种新的模型和一种有效的训练策略。具体地说,我们提出了一种基于目标关系图(ORG)的编码器,该编码器捕获了更详细的交互特征,以丰富视觉表示。同时,我们设计了一种老师推荐学习(Teacher-Recommended Learning, TRL)的方法,充分利用成功的外部语言模型(ELM)将丰富的语言知识整合到字幕模型中。ELM生成了在语义上更相似的单词,这些单词扩展了用于训练的真实单词,以解决长尾问题。 对三个基准MSVD,MSR-VTT和VATEX进行的实验评估表明,所提出的ORG-TRL系统达到了最先进的性能。 广泛的消去研究和可视化说明了我们系统的有效性。

网址:https://arxiv.org/abs/2002.11566

3. Social-STGCNN: A Social Spatio-Temporal Graph Convolutional Neural Network for Human Trajectory Prediction

作者:Abduallah Mohamed and Kun Qian

摘要:有了更好地了解行人行为的机器可以更快地建模智能体(如:自动驾驶汽车)和人类之间的特征交互。行人的运动轨迹不仅受行人自身的影响,还受与周围物体相互作用的影响。以前的方法通过使用各种聚合方法(整合了不同的被学习的行人状态)对这些交互进行建模。我们提出了社交-时空图卷积神经网络(Social-STGCNN),它通过将交互建模为图来代替聚合方法。结果表明,最终位偏误差(FDE)比现有方法提高了20%,平均偏移误差(ADE)提高了8.5倍,推理速度提高了48倍。此外,我们的模型是数据高效的,在只有20%的训练数据上ADE度量超过了以前的技术。我们提出了一个核函数来将行人之间的社会交互嵌入到邻接矩阵中。通过定性分析,我们的模型继承了行人轨迹之间可以预期的社会行为。

网址:https://arxiv.org/abs/2002.11927

代码链接:

https://github.com/abduallahmohamed/Social-STGCNN

4. Unbiased Scene Graph Generation from Biased Training

作者:Kaihua Tang, Yulei Niu, Jianqiang Huang, Jiaxin Shi and Hanwang Zhang

摘要:由于严重的训练偏差,场景图生成(SGG)的任务仍然不够实际,例如,将海滩上的各种步行/坐在/躺下的人简化为海滩上的人。基于这样的SGG,VQA等下游任务很难推断出比一系列对象更好的场景结构。然而,SGG中的debiasing 是非常重要的,因为传统的去偏差方法不能区分好的和不好的偏差,例如,好的上下文先验(例如,人看书而不是吃东西)和坏的长尾偏差(例如,将在后面/前面简化为邻近)。与传统的传统的似然推理不同,在本文中,我们提出了一种新的基于因果推理的SGG框架。我们首先为SGG建立因果关系图,然后用该因果关系图进行传统的有偏差训练。然后,我们提出从训练好的图中提取反事实因果关系(counterfactual causality),以推断应该被去除的不良偏差的影响。我们使用Total Direct Effect作为无偏差SGG的最终分数。我们的框架对任何SGG模型都是不可知的,因此可以在寻求无偏差预测的社区中广泛应用。通过在SGG基准Visual Genome上使用我们提出的场景图诊断工具包和几种流行的模型,与以前的最新方法相比有显著提升。

网址:https://arxiv.org/abs/2002.11949

代码链接:

https://github.com/KaihuaTang/Scene-Graph-Benchmark.pytorch

5. Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences

作者:Zhu Zhang, Zhou Zhao, Yang Zhao, Qi Wang, Huasheng Liu and Lianli Gao

摘要:在本文中,我们考虑了一项用于多形式句子(Multi-Form Sentences)的时空Video Grounding(STVG)的任务。 即在给定未剪辑的视频和描述对象的陈述句/疑问句,STVG旨在定位所查询目标的时空管道(tube)。STVG有两个具有挑战性的设置:(1)我们需要从未剪辑的视频中定位时空对象管道,但是对象可能只存在于视频的一小段中;(2)我们需要处理多种形式的句子,包括带有显式宾语的陈述句和带有未知宾语的疑问句。 由于无效的管道预生成和缺乏对象关系建模,现有方法无法解决STVG任务。为此,我们提出了一种新颖的时空图推理网络(STGRN)。首先,我们构建时空区域图来捕捉具有时间对象动力学的区域关系,包括每帧内的隐式、显式空间子图和跨帧的时间动态子图。然后,我们将文本线索加入到图中,并开发了多步跨模态图推理。接下来,我们引入了一种具有动态选择方法的时空定位器,该定位器可以直接检索时空管道,而不需要预先生成管道。此外,我们在视频关系数据集Vidor的基础上构建了一个大规模的video grounding数据集VidSTG。大量的实验证明了该方法的有效性。

网址:https://arxiv.org/abs/2001.06891

成为VIP会员查看完整内容
0
67

【导读】最近小编推出CVPR2019图卷积网络相关论文、CVPR2019生成对抗网络相关视觉论文、【可解释性】相关论文和代码,CVPR视觉目标跟踪相关论文和代码,反响热烈。最近,视觉问答和推理这一领域也广泛受关注,出现了好多新方法、新数据集,CVPR 2019已经陆续放出很多篇篇相关文章。今天小编专门整理最新七篇视觉问答相关应用论文—多模态关系推理、视觉上下文、迁移学习、通用VQA模型、新数据集GQA等。

1、MUREL: Multimodal Relational Reasoning for Visual Question Answering (MUREL:视觉问答的多模态关系推理)

CVPR ’19

作者:Remi Cadene, Hedi Ben-younes, Matthieu Cord, Nicolas Thome

摘要:多模态注意力网络是目前用于涉及真实图像的视觉问答(VQA)任务的最先进的模型。尽管注意力集中在与问题相关的可视内容上,但这种简单的机制可能不足以模拟VQA或其他高级任务所需的复杂推理功能。在本文中,我们提出了MuRel,一种多模态关系网络,它通过真实图像进行端到端的学习。我们的第一个贡献是引入了MuRel单元,这是一个原子推理原语,通过丰富的向量表示来表示问题和图像区域之间的交互,并使用成对组合对区域关系建模。其次,我们将单元格合并到一个完整的MuRel网络中,该网络逐步细化了可视化和问题交互,并且可以用来定义比注意力更精细的可视化方案。我们验证了我们的方法与各种消融研究的相关性,并在三个数据集:VQA 2.0、VQA- cp v2和TDIUC上显示了它相对于基于注意力的方法的优势。我们的最终MuRel网络在这一具有挑战性的环境中具有竞争力或优于最先进的结果。

网址:

https://arxiv.org/abs/1902.09487

代码链接:

https://github.com/Cadene/murel.bootstrap.pytorch

2、Image-Question-Answer Synergistic Network for Visual Dialog( 基于图像-问题-答案协同网络的视觉对话)

CVPR ’19

作者:Dalu Guo, Chang Xu, Dacheng Tao

摘要:图像、问题(结合用于de-referencing的历史)和相应的答案是视觉对话的三个重要组成部分。经典的视觉对话系统集成了图像、问题和历史来搜索或生成最佳匹配的答案,因此,这种方法明显忽略了答案的作用。在本文中,我们设计了一个新颖的图像 - 问题 - 答案协同网络,以评估答案对精确视觉对话的作用。我们将传统的一阶段解决方案扩展为两阶段解决方案。在第一阶段,根据候选答案与图像和问题对的相关性对候选答案进行粗略评分。之后,在第二阶段,通过与图像和问题协同,对具有高正确概率的答案进行重新排序。在Visual Dialog v1.0数据集上,所提出的协同网络增强了判别性视觉对话模型,实现了57.88%的NDCG(normalized discounted cumulative gain)的最新的最优表现。

网址:

https://arxiv.org/abs/1902.09774

3、Learning to Compose Dynamic Tree Structures for Visual Contexts(学习为视觉上下文构建动态树结构)

CVPR ’19 Oral

作者:Kaihua Tang, Hanwang Zhang, Baoyuan Wu, Wenhan Luo, Wei Liu

摘要:我们提出组合动态树结构,将图像中的对象放入视觉上下文中,帮助进行视觉推理任务,如场景图生成和视觉问答。我们的视觉上下文树模型(称为VCTree)与现有的结构化对象表示(包括链和全连接图)相比具有两个关键优势:1)高效且富有表现力的二叉树编码对象之间固有的并行/层次关系,例如“衣服”和“裤子”通常是共同出现的,属于“人”; 2)动态结构因图像和任务而异,允许在对象之间传递更多特定于任务的内容/消息。为了构造一个VCTree,我们设计了一个score函数来计算每个对象对之间的任务依赖效度,这个VCTree是score矩阵中最大生成树的二进制版本。然后,视觉上下文由双向TreeLSTM编码,并由特定于任务的模型解码。本文提出了一种混合学习方法,将末端任务监督学习与树形结构强化学习相结合,前者的评估结果作为后者结构探索的self-critic。两个benchmark测试的实验结果,需要对上下文进行推理:用于场景图生成的Visual Genome和用于视觉Q&A的VQA2.0,表明VCTree在发现可解释的视觉上下文结构时优于最先进的结果。

网址:

https://arxiv.https://arxiv.org/abs/1812.01880

4、Transfer Learning via Unsupervised Task Discovery for Visual Question Answering(通过无监督的任务发现迁移学习以进行视觉问答)

CVPR ’19

作者:Hyeonwoo Noh, Taehoon Kim, Jonghwan Mun, Bohyung Han

摘要:我们研究如何利用现成的视觉和语言数据来处理视觉问答任务中词汇量不足的问题。现有的带有图像类标签、边界框和区域描述等标注的大型可视化数据集是学习丰富多样的视觉概念的好资源。然而,由于依赖于问题的回答模型与无问题的视觉数据之间缺少联系,如何捕获视觉概念并将其转化为VQA模型并不简单。我们通过两个步骤来解决这个问题:1)学习一个任务条件视觉分类器,该分类器基于无监督任务发现,能够解决多种特定问题的视觉识别任务;2)将任务条件视觉分类器转化为视觉问答模型。具体来说,我们使用结构化词汇库(如WordNet)和视觉概念描述等语言知识资源来进行无监督任务发现,并将学习到的任务条件视觉分类器作为一个回答单元迁移到一个 VQA模型中。实验结果表明,该算法利用从视觉数据集中迁移的知识成功地推广到词汇表外的问题。

网址:

https://arxiv.org/abs/1810.02358

代码链接:

https://github.com/HyeonwooNoh/VQA-Transfer-ExternalData

5、Answer Them All! Toward Universal Visual Question Answering Models(回答他们所有人!基于通用的视觉问答模型)

CVPR ’19

作者:Robik Shrestha, Kushal Kafle, Christopher Kanan

摘要:视觉问答(VQA)研究分为两个阵营:第一个阵营关注需要自然图像理解的VQA数据集,第二个阵营关注测试推理的合成数据集。一个好的VQA算法应该同时具备这两种功能,但是只有少数VQA算法是以这种方式进行测试的。我们比较了涵盖这两个领域的8个VQA数据集中的5种最先进的VQA算法。为了公平起见,所有的模型都尽可能标准化,例如,它们使用相同的视觉特性、答案词表等。我们发现,这些方法不能泛化到这两个领域。为了解决这一问题,我们提出了一种新的VQA算法,它可以与这两个领域的最先进算法相媲美或超过它们。

网址:

https://arxiv.org/abs/1903.00366

6、GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering(GQA: 一个用于真实世界的视觉推理和合成问题回答的新数据集)

CVPR ’19

作者:Drew A. Hudson, Christopher D. Manning

摘要:我们介绍了一个新的数据集GQA,用于真实世界的视觉推理和合成问题回答,试图解决以前的VQA数据集的关键缺陷。我们开发了一个强大而健壮的问题引擎,它利用场景图结构创建了2200万个不同的推理问题,所有这些问题都带有表示其语义的功能程序。我们使用这些程序来获得对答案分布的严格控制,并提出了一种新的可调平滑技术来减少问题的偏差。随数据集而来的是一套新的度量标准,用于评估consistency、grounding和plausibility等基本质量。对baseline和最先进的模型进行了广泛的分析,为不同的问题类型和拓扑提供了细粒度的结果。一个单独的LSTM仅获得42.1%的结果,强大的VQA模型达到54.1%,而人类的表现最高达到89.3%,这为探索新的研究提供了充足的机会。我们强烈希望GQA能够为下一代模型提供支持资源,增强健壮性、改进一致性以及对图像和语言更深入的语义理解。

网址:

https://arxiv.org/abs/1902.09506v2

https://cs.stanford.edu/people/dorarad/gqa/about.html

7、Towards VQA Models that can Read(面向可读的VQA模型)

CVPR ’19

作者:Amanpreet Singh, Vivek Natarajan, Meet Shah, Yu Jiang, Xinlei Chen, Dhruv Batra, Devi Parikh, Marcus Rohrbach

摘要:研究表明,视障用户对周围环境图像提出的主要问题包括阅读图像中的文字。但是今天的VQA模型不能读取! 我们的论文朝着解决这个问题迈出了第一步。首先,我们引入一个新的“TextVQA”数据集来促进在这个重要问题上的进展。现有的数据集要么有一小部分关于文本的问题(例如,VQA数据集),要么太小(例如,VizWiz数据集)。TextVQA包含45,336个问题,涉及28,408张图像,需要对文本进行推理才能回答。其次,我们介绍了一种新的模型架构,它可以读取图像中的文本,在图像和问题的上下文中对其进行推理,并预测一个可能是基于文本和图像的推理或由图像中发现的字符串组成的答案。因此,我们称我们的方法为“Look, Read, Reason & Answer”(LoRRA)。我们在TextVQA数据集中展示了LoRRA优于现有的最先进的VQA模型。我们发现,在TextVQA上,人类性能和机器性能之间的差距明显大于VQA 2.0,这表明TextVQA非常适合在与VQA 2.0互补的方向上进行基准测试。

网址:

https://arxiv.org/abs/1904.08920v1

代码链接:

https://www.groundai.com/project/towards-vqa-models-that-can-read/

下载链接:https://pan.baidu.com/s/1LNSFxz5nIwDi2o4nRrb_MA 提取码:yfq2

成为VIP会员查看完整内容
0
25
小贴士
相关VIP内容
相关论文
Interpretable CNNs for Object Classification
Quanshi Zhang,Xin Wang,Ying Nian Wu,Huilin Zhou,Song-Chun Zhu
15+阅读 · 2020年3月12日
Qingyu Guo,Fuzhen Zhuang,Chuan Qin,Hengshu Zhu,Xing Xie,Hui Xiong,Qing He
74+阅读 · 2020年2月28日
Wenqi Fan,Yao Ma,Qing Li,Yuan He,Eric Zhao,Jiliang Tang,Dawei Yin
12+阅读 · 2019年11月23日
Interpretable Adversarial Training for Text
Samuel Barham,Soheil Feizi
4+阅读 · 2019年5月30日
Next Item Recommendation with Self-Attention
Shuai Zhang,Yi Tay,Lina Yao,Aixin Sun
4+阅读 · 2018年8月25日
Kuan Liu,Xing Shi,Prem Natarajan
3+阅读 · 2018年5月28日
Yongfeng Zhang,Qingyao Ai,Xu Chen,Pengfei Wang
21+阅读 · 2018年3月22日
Quanshi Zhang,Ying Nian Wu,Song-Chun Zhu
14+阅读 · 2018年2月14日
Xu Chen,Yongfeng Zhang,Hongteng Xu,Yixin Cao,Zheng Qin,Hongyuan Zha
7+阅读 · 2018年1月31日
Jing Li,Pengjie Ren,Zhumin Chen,Zhaochun Ren,Jun Ma
5+阅读 · 2017年11月13日
Top