题目: Octet: Online Catalog Taxonomy Enrichment with Self-Supervision

简介:

分类法在各个领域都有广泛的应用,特别是在在线项目分类、浏览和搜索方面。尽管在线目录分类法的使用很普遍,但实际上大多数分类法都是由人类维护的,这是劳动密集型的,难以扩展。虽然从零开始的分类学构建在文献中得到了大量的研究,但是如何有效地丰富现有的不完全分类学仍然是一个开放而重要的研究问题。分类法的丰富性不仅要求对新出现的术语具有健壮性,而且要求现有分类法结构与新术语附件之间的一致性。在本文中,我们提出了一个自我监督的端到端框架Octet,用于在线目录分类法的丰富。Octet利用联机目录分类法独有的异构信息,例如用户查询、项及其与分类法节点的关系,而不需要除现有分类法以外的其他监督。提出了一种用于术语提取的序列标记模型,并利用图神经网络(GNNs)来捕获术语连接的分类结构和查询项分类交互。在不同的在线领域进行的大量实验表明,通过自动和人工评估,Octet方法优于最新的方法。值得注意的是,Octet丰富了生产中的在线目录分类法,使其在开放世界评估中的规模增加了2倍。

成为VIP会员查看完整内容
0
6

相关内容

分类学是分类的实践和科学。Wikipedia类别说明了一种分类法,可以通过自动方式提取Wikipedia类别的完整分类法。截至2009年,已经证明,可以使用人工构建的分类法(例如像WordNet这样的计算词典的分类法)来改进和重组Wikipedia类别分类法。 从广义上讲,分类法还适用于除父子层次结构以外的关系方案,例如网络结构。然后分类法可能包括有多父母的单身孩子,例如,“汽车”可能与父母双方一起出现“车辆”和“钢结构”;但是对某些人而言,这仅意味着“汽车”是几种不同分类法的一部分。分类法也可能只是将事物组织成组,或者是按字母顺序排列的列表;但是在这里,术语词汇更合适。在知识管理中的当前用法中,分类法被认为比本体论窄,因为本体论应用了各种各样的关系类型。 在数学上,分层分类法是给定对象集的分类树结构。该结构的顶部是适用于所有对象的单个分类,即根节点。此根下的节点是更具体的分类,适用于总分类对象集的子集。推理的进展从一般到更具体。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

题目: STAR: Spatio-Temporal Taxonomy-Aware Tag Recommendation for Citizen Complaints

简介:

在现代城市中,投诉已成为公民向政府报告新出现的城市问题以便快速响应的一种重要方式。为了便于检索和处理,政府官员通常通过手动为其分配标签来分类公民投诉,这效率低下并且不能始终保证所分配标签的质量。这项工作试图通过为市民投诉分配标签来解决此问题。尽管有很多关于文本内容标签推荐的研究,但很少有人考虑公民投诉的两个特征,即时空相关性和候选标签的分类法。在本文中,我们提出了一种新颖的时空分类意识感知推荐模型(STAR),通过将投诉的时空信息和候选标签的taxonomy相结合,为市民投诉推荐标签。具体来说,STAR首先利用两个平行的渠道来学习文本和时空信息的表示形式。为了有效利用标签的taxonomy,我们设计了链式神经网络,该网络逐步完善表示形式并在新的分类法约束下执行层次结构推荐。还提出了一种融合模块,以标签特定的方式自适应地整合文本和时空信息的贡献。我们在数据集上进行了广泛的实验,并证明STAR的性能明显优于最新技术。通过消融研究也验证了我们模型中关键组件的有效性。

成为VIP会员查看完整内容
0
5

主题: Graph Neural Networks with Continual Learning for Fake News Detection from Social Media

摘要: 尽管已经花费大量精力进行事实核查,但假新闻在社交媒体上的普遍使用对司法,公众信任以及我们整个社会都产生了深远影响,仍然是一个严重的问题。在这项工作中,我们专注于基于传播的虚假新闻检测,因为最近的研究表明,虚假新闻和真实新闻在网络上的传播方式不同。具体来说,考虑到图神经网络(GNN)处理非欧氏数据的能力,我们使用GNN区分社交媒体上的假新闻和真实新闻的传播方式。具体来说,我们集中在两个问题上:(1)在不依赖任何文本信息(例如推文内容,回复和用户描述)的情况下,GNN如何准确地识别假新闻?众所周知,机器学习模型容易受到对抗性攻击,而避免依赖于基于文本的功能会使模型不易受到高级假新闻造假者的操纵。 (2)如何处理看不见的新数据?换句话说,在给定的数据集上训练的GNN如何在新的且可能完全不同的数据集上执行?如果性能不能令人满意,我们如何解决该问题而又不从头开始对整个数据重新训练模型,而随着数据量的增长,这在实践中将变得过高地昂贵?我们在具有数千个带有标签新闻的两个数据集上研究了上述问题,我们的结果表明:(1)GNN确实可以实现可比或更高的性能,而无需任何文本信息即可达到最新方法。 (2)在给定的数据集上训练的GNN在新的,看不见的数据上可能表现不佳,并且直接增量训练无法解决问题-在以前的将GNN用于伪造新闻检测的工作中,尚未解决此问题。为了解决该问题,我们提出了一种方法,该方法通过使用持续学习中的技术逐步训练GNN,从而在现有数据集和新数据集上均达到平衡的性能。

成为VIP会员查看完整内容
0
12

题目: Video Description: A Survey of Methods, Datasets, and Evaluation Metrics

简介: 视频描述是对给定视频内容自动生成描述语言。它在人机交互中具有应用程序,可帮助视障人士和视频字幕。过去几年中,由于深度学习在计算机视觉和自然语言处理方面取得了空前的成功,因此该领域的研究激增。文献中已经提出了许多方法,数据集和评估指标,这要求进行全面调查以将研究工作集中在这个蓬勃发展的新方向上。本文通过重点研究深度学习模型的最新方法来填补这一空白。比较基准数据集的域,类数和存储库大小;并确定各种评估指标(例如SPICE,CIDEr,ROUGE,BLEU,METEOR和WMD)的优缺点。经典的视频描述方法将主语,宾语和动词检测与基于模板的语言模型相结合,以生成句子。但是,大型数据集的发布表明,这些方法无法应对不受约束的开放域视频的多样性。古典方法之后是很短的统计方法时代,很快就被深度学习所取代,后者是视频描述中的最新技术。我们的调查显示,尽管发展迅速,但由于以下原因,视频描述研究仍处于起步阶段:视频描述模型的分析具有挑战性,因为难以确定对视觉特征的准确性或误差的贡献。最终描述中采用的语言模型。现有的数据集既不包含足够的视觉多样性,也不包含语言结构的复杂性。最后,当前的评价指标未能衡量机器生成的描述与人类描述之间的一致性。

成为VIP会员查看完整内容
0
31

题目: Natural Language Processing and Query Expansion

简介:

大量知识资源的可用性刺激了开发和增强信息检索技术的大量工作。用户的信息需求以自然语言表达,成功的检索很大程度上取决于预期目的的有效沟通。自然语言查询包含多种语言功能,这些语言功能代表了预期的搜索目标。导致语义歧义和对查询的误解以及其他因素(例如,对搜索环境缺乏了解)的语言特征会影响用户准确表示其信息需求的能力,这是由概念意图差距造成的。后者直接影响返回的搜索结果的相关性,而这可能不会使用户满意,因此是影响信息检索系统有效性的主要问题。我们讨论的核心是通过手动或自动捕获有意义的术语,短语甚至潜在的表示形式来识别表征查询意图及其丰富特征的重要组成部分,以手动或自动捕获它们的预期含义。具体而言,我们讨论了实现丰富化的技术,尤其是那些利用从文档语料库中的术语相关性的统计处理或从诸如本体之类的外部知识源中收集的信息的技术。我们提出了基于通用语言的查询扩展框架的结构,并提出了基于模块的分解,涵盖了来自查询处理,信息检索,计算语言学和本体工程的主题问题。对于每个模块,我们都会根据所使用的技术回顾分类和分析的文献中的最新解决方案。

成为VIP会员查看完整内容
0
21

大多数的对象识别方法主要侧重于学习有判别性的视觉模式,而忽略了整体的物体结构。尽管很重要,但结构建模通常需要大量的手工注释,因此是劳动密集型的。在这篇论文中,我们提出通过将自我监督纳入传统的框架中来“观察对象”(明确而内在地对对象结构建模)。我们证明了在不增加额外注释和推理速度的情况下,识别主干可以被显著增强,从而实现更健壮的表示学习。具体来说,我们首先提出了一个对象范围学习模块,用于根据同一类别中实例间共享的视觉模式对对象进行本地化。然后,我们设计了一个空间上下文学习模块,通过预测范围内的相对位置,对对象的内部结构进行建模。这两个模块可以很容易地插入到任何骨干网络训练和分离的推理时间。大量的实验表明,我们的内视对象方法(LIO)在许多基准上获得了巨大的性能提升,包括通用对象识别(ImageNet)和细粒度对象识别任务(CUB、Cars、Aircraft)。我们还表明,这种学习范式可以高度泛化到其他任务,如对象检测和分割(MS COCO)。

成为VIP会员查看完整内容
0
19

主题分类法的自动构建可以使许多应用程序受益,包括web搜索、推荐和知识发现。自动分类构建的主要优点之一是能够捕获特定于语料库的信息并适应不同的场景。为了更好地反映语料库的特点,我们考虑了文档的元数据,将语料库看作是一个文本丰富的网络。在本文中,我们提出了NetTaxo,这是一个新的自动主题分类构建框架,它超越了现有的范式,允许文本数据与网络结构协作。具体来说,我们从文本和网络作为上下文学习术语嵌入。采用网络图形来捕获适当的网络上下文。我们对motifs进行实例级选择,该选择根据每个分类节点的粒度和语义进一步细化术语嵌入。然后应用集群来获得分类法节点下的子主题。在两个真实数据集上的大量实验证明了我们的方法优于最先进的,并进一步验证了实例级基序选择的有效性和重要性。

成为VIP会员查看完整内容
0
22

作者:Jiaming Shen, Zhihong Shen, Chenyan Xiong, Chi Wang, Kuansan Wang, Jiawei Han

摘要:本体结构(Taxonomies)由机器可解释的语义组成,并为许多Web应用程序提供有价值的知识。例如,在线零售商(亚马逊和eBay)使用本体结构进行产品推荐,而网络搜索引擎(Google和Bing)利用本体结构来增强查询理解。当前我们在人工或半自动地构建本体结构方面已经做出了巨大的努力。然而,随着网络内容数量的快速增长,现有的本体结构无法捕捉到新兴的知识。因此,在许多应用程序中,十分需要对现有本体结构进行动态扩展。在本文中,我们研究了如何通过添加一组新的概念来扩展现有的本体结构。我们提出了一种新的自监督框架TaxoExpanTM,该框架从已有的本体结构中自动生成一组 ⟨query concept, anchor concept ⟩ 对作为训练数据。使用这样的自监督数据,TaxoExpanTM学习一个模型来预测query concept是否是 anchor concept的直接下义词。我们在TaxoExspan中提出了两种创新技术:(1)位置增强型图形神经网络,它编码现有本体结构中anchor concept的局部结构;2)噪声鲁棒性训练目标,使学习的模型能够对自监控数据中的标签噪声不敏感。在来自不同领域的三个大规模数据集上的广泛实验证明了TaxoExspan在分类系统扩展方面的有效性和高效性。

成为VIP会员查看完整内容
0
16

大多数现有的目标检测方法依赖于每类丰富的标记训练样本的可用性和批处理模式下的离线模型训练。这些要求极大地限制了在只能容纳具有有限标记训练数据的新类别,特别是模型在部署过程中的准确性和训练的效率。我们提出了一项研究,旨在通过考虑增量小样本检测(iFSD)问题设置来超越这些限制,其中新类必须以增量方式注册(不需要重新访问基类),并且只有很少的例子。为此,我们提出了开放式中心网(一次),这是一种用于增量学习的检测器,用于检测具有少量实例的新类对象。这是通过将CentreNet检测器优雅地适应小样本学习场景和元学习来实现的,元学习是一个类特定的代码生成器模型,用于注册新的类。一旦完全尊重增量学习范式,新的类注册只需要一个前向遍历的小样本训练样本,并且不访问基类——因此适合在嵌入式设备上部署。在标准物体检测和时尚地标检测任务上进行的大量实验首次证明了iFSD的可行性,开拓了一个有趣而又非常重要的研究方向。

成为VIP会员查看完整内容
0
33

知识库已逐渐成为许多人工智能应用的宝贵资产。虽然当前的许多KBs相当大,但它们被广泛认为是不完整的,特别是缺乏长尾实体的事实,例如不太出名的人。现有的方法主要通过完成缺失的链接或填充缺失的值来充实KBs。然而,它们只解决了浓缩问题的一部分,缺乏对长尾实体的具体考虑。在这篇论文中,我们提出了一个成熟的方法来丰富知识,从开放的网络中预测缺失的属性和推断长尾实体的真实事实。利用来自受欢迎实体的先验知识来改进每一个充实步骤。实验结果表明了该方法的可行性和优越性。

成为VIP会员查看完整内容
0
22

我们介绍了一个新的大规模NLI基准数据集,它是通过一个迭代的、对抗性的循环人工模型过程收集的。在这个新数据集上的训练模型可以在各种流行的NLI基准上获得最先进的性能,同时我们提出了一个更具有困难挑战的新测试集。我们的分析揭示了当前最先进模型的缺点,并显示了非专业的注释者能够成功地发现它们的弱点。数据收集方法可以应用于永久学习的场景,成为NLU的一个可变化推进的目标,而不是一个很快就会饱和的静态基准。

成为VIP会员查看完整内容
0
3
小贴士
相关VIP内容
相关论文
Fashion Meets Computer Vision: A Survey
Wen-Huang Cheng,Sijie Song,Chieh-Yun Chen,Shintami Chusnul Hidayati,Jiaying Liu
3+阅读 · 3月31日
Min-Hung Chen,Baopu Li,Yingze Bao,Ghassan AlRegib,Zsolt Kira
5+阅读 · 3月18日
Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey
Sanmit Narvekar,Bei Peng,Matteo Leonetti,Jivko Sinapov,Matthew E. Taylor,Peter Stone
10+阅读 · 3月10日
Ermei Cao,Difeng Wang,Jiacheng Huang,Wei Hu
5+阅读 · 2月15日
Open Domain Event Extraction Using Neural Latent Variable Models
Xiao Liu,Heyan Huang,Yue Zhang
3+阅读 · 2019年6月17日
Speeding-up Object Detection Training for Robotics with FALKON
Elisa Maiettini,Giulia Pasquale,Lorenzo Rosasco,Lorenzo Natale
6+阅读 · 2018年8月27日
Chung-Wei Lee,Wei Fang,Chih-Kuan Yeh,Yu-Chiang Frank Wang
7+阅读 · 2018年5月26日
Jian Zhao,Jianshu Li,Yu Cheng,Li Zhou,Terence Sim,Shuicheng Yan,Jiashi Feng
3+阅读 · 2018年4月10日
Abhinav Moudgil,Vineet Gandhi
3+阅读 · 2018年3月22日
Mustansar Fiaz,Arif Mahmood,Soon Ki Jung
7+阅读 · 2018年2月14日
Top