对于自然语言理解任务来说,外部知识通常是有用的。我们介绍了一个上下文文本表示模型,称为概念上下文(CC)嵌入,它将结构化的知识合并到文本表示中。与实体嵌入方法不同,我们的方法将知识图编码到上下文模型中。就像预先训练好的语言模型一样,CC嵌入可以很容易地在广泛的任务中重用。我们的模型利用语义泛化,有效地编码了庞大的UMLS数据库。在电子健康记录(EHRs)和医疗文本处理基准上的实验表明,我们的模型大大提高了监督医疗NLP任务的性能。

成为VIP会员查看完整内容
0
29

相关内容

人工智能医学:人工智能应用于医学领域。

题目: KG-BERT: BERT for Knowledge Graph Completion

摘要: 知识图谱是许多人工智能任务的重要资源,但往往是不完整的。在这项工作中,我们使用预训练的语言模型来对知识图谱进行补全。我们将知识图谱中的三元组视为文本序列,并提出了一种新的框架结构——知识图谱双向编码方向转换器(KG-BERT)来对这些三元组进行建模。该方法以一个三元组的实体描述和关系描述作为输入,利用KG-BERT语言模型计算三元组的评分函数。在多个基准知识图谱上的实验结果表明,我们的方法在三元组分类、链接预测和关系预测任务上都能达到最新的性能。

成为VIP会员查看完整内容
0
88

最近发布的GPT-3让我对NLP中的零学习和小样本的状态产生了兴趣。虽然大多数的零样本学习研究集中在计算机视觉,也有一些有趣的工作在NLP领域。

我将会写一系列的博文来涵盖现有的关于NLP零样本学习的研究。在这第一篇文章中,我将解释Pushp等人的论文“一次训练,到处测试:文本分类的零样本学习”。本文从2017年12月开始,首次提出了文本分类的零样本学习范式。

什么是零样本学习?

零样本学习是检测模型在训练中从未见过的类的能力。它类似于我们人类在没有明确监督的情况下归纳和识别新事物的能力。

例如,我们想要做情感分类和新闻分类。通常,我们将为每个数据集训练/微调一个新模型。相比之下,零样本学习,你可以直接执行任务,如情绪和新闻分类,没有任何特定的任务训练。

一次训练,随处测试

本文提出了一种简单的零样本分类方法。他们没有将文本分类为X类,而是将任务重新组织为二元分类,以确定文本和类是否相关。

https://amitness.com/2020/05/zero-shot-text-classification/

成为VIP会员查看完整内容
0
50

交叉熵是图像分类模型监督训练中应用最广泛的损失函数。在这篇论文中,我们提出了一种新的训练方法,在不同架构和数据扩充的监督学习任务中,它的表现始终优于交叉熵。我们修改了批量对比损失,这是最近被证明在自监督学习强大表示是非常有效的。我们能够比交叉熵更有效地利用标签信息。在嵌入空间中,将同一类的点聚在一起,同时将不同类的样本聚在一起。除此之外,我们还利用了关键的成分,如大批量和标准化嵌入,这些已经被证明有利于自监督学习。在ResNet-50和ResNet-200上,我们的交叉熵性能都超过了1%,在使用自动增广数据增强的方法中,我们设置了78.8%的最新水平。这一损失也清楚地表明,在校准和准确性方面,对标准基准的自然损坏具有鲁棒性。与交叉熵相比,我们的监督对比损失更稳定的超参数设置,如优化或数据扩充。

成为VIP会员查看完整内容
0
41

题目: Learning Representations For Images With Hierarchical Labels

摘要:

图像分类已经得到了广泛的研究,但是除了传统的图像标签对之外,在使用非常规的外部指导来训练这些模型方面的工作还很有限。在本文中,我们提出了一组利用类标签引起的语义层次信息的方法。在论文的第一部分,我们将标签层次知识注入到任意的分类器中,并通过实验证明,将这些外部语义信息与图像的视觉语义相结合,可以提高整体性能。在这个方向上更进一步,我们使用自然语言中流行的基于保留顺序的嵌入模型来更明确地建模标签-标签和标签-图像的交互,并将它们裁剪到计算机视觉领域来执行图像分类。尽管在本质上与之相反,在新提出的、真实世界的ETH昆虫学收集图像数据集上,注入层次信息的CNN分类器和基于嵌入的模型都优于不可知层次的模型。

成为VIP会员查看完整内容
0
27

题目: Learning Attention-based Embeddings for Relation Prediction in Knowledge Graphs

摘要: 近年来随着知识图谱(KGs)的大量涌现,加上实体间缺失关系(链接)的不完全或部分信息,催生了大量关于知识库补全(也称为关系预测)的研究。最近的一些研究表明,基于卷积神经网络(CNN)的模型能够生成更丰富、更有表现力的特征嵌入,因此在关系预测方面也有很好的表现。然而,我们观察到这些KG嵌入独立地处理三元组,因此不能捕获到三元组周围的复杂和隐藏的信息。为此,本文提出了一种新的基于注意的特征嵌入方法,该方法能同时捕获任意给定实体邻域内的实体特征和关系特征。此外,我们还在模型中封装了关系集群和多跳关系。我们的实验研究为我们基于注意力的模型的有效性提供了深入的见解,并且与所有数据集上的最先进的方法相比,有显著的性能提升。

成为VIP会员查看完整内容
0
73

External knowledge is often useful for natural language understanding tasks. We introduce a contextual text representation model called Conceptual-Contextual (CC) embeddings, which incorporates structured knowledge into text representations. Unlike entity embedding methods, our approach encodes a knowledge graph into a context model. CC embeddings can be easily reused for a wide range of tasks just like pre-trained language models. Our model effectively encodes the huge UMLS database by leveraging semantic generalizability. Experiments on electronic health records (EHRs) and medical text processing benchmarks showed our model gives a major boost to the performance of supervised medical NLP tasks.

0
11
下载
预览

题目

知识图谱的生成式对抗零样本关系学习:Generative Adversarial Zero-Shot Relational Learning for Knowledge Graphs

简介

大规模知识图谱(KGs)在当前的信息系统中显得越来越重要。为了扩大知识图的覆盖范围,以往的知识图完成研究需要为新增加的关系收集足够的训练实例。本文考虑一种新的形式,即零样本学习,以摆脱这种繁琐的处理,对于新增加的关系,我们试图从文本描述中学习它们的语义特征,从而在不见实例的情况下识别出看不见的关系。为此,我们利用生成性对抗网络(GANs)来建立文本与知识边缘图域之间的联系:生成器学习仅用有噪声的文本描述生成合理的关系嵌入。在这种背景下,零样本学习自然转化为传统的监督分类任务。从经验上讲,我们的方法是模型不可知的,可以应用于任何版本的KG嵌入,并在NELL和Wikidataset上产生性能改进。

作者 Pengda Qin,Xin Wang,Wenhu Chen,Chunyun Zhang,Weiran Xu1William Yang Wang

成为VIP会员查看完整内容
0
37

论文题目: Learning Conceptual-Contextual Embeddings for Medical Text

论文摘要:

对于自然语言理解任务来说,外部知识通常是有用的。本文介绍了一个上下文文本表示模型,称为概念上下文(CC)嵌入,它将结构化的知识合并到文本表示中。与实体嵌入方法不同,文中提到的方法将知识图编码到上下文模型中。就像预先训练好的语言模型一样,CC嵌入可以很容易地在广泛的任务中重用。模型利用语义泛化,有效地编码了庞大的UMLS数据库。电子实验健康记录(EHRs)和医疗文本处理基准表明,而使得模型大大提高了监督医疗NLP任务的性能。

成为VIP会员查看完整内容
0
38

External knowledge is often useful for natural language understanding tasks. We introduce a contextual text representation model called Conceptual-Contextual (CC) embeddings, which incorporates structured knowledge into text representations. Unlike entity embedding methods, our approach encodes a knowledge graph into a context model. CC embeddings can be easily reused for a wide range of tasks just like pre-trained language models. Our model effectively encodes the huge UMLS database by leveraging semantic generalizability. Experiments on electronic health records (EHRs) and medical text processing benchmarks showed our model gives a major boost to the performance of supervised medical NLP tasks.

0
20
下载
预览
小贴士
相关VIP内容
专知会员服务
50+阅读 · 2020年5月31日
专知会员服务
41+阅读 · 2020年4月24日
相关论文
Xipeng Qiu,Tianxiang Sun,Yige Xu,Yunfan Shao,Ning Dai,Xuanjing Huang
82+阅读 · 2020年3月18日
Qi Liu,Matt J. Kusner,Phil Blunsom
24+阅读 · 2020年3月16日
Heterogeneous Relational Reasoning in Knowledge Graphs with Reinforcement Learning
Mandana Saebi,Steven Krieg,Chuxu Zhang,Meng Jiang,Nitesh Chawla
8+阅读 · 2020年3月12日
Xiao Zhang,Dejing Dou,Ji Wu
11+阅读 · 2020年3月12日
Representation Learning with Ordered Relation Paths for Knowledge Graph Completion
Yao Zhu,Hongzhi Liu,Zhonghai Wu,Yang Song,Tao Zhang
6+阅读 · 2019年9月26日
Xiao Zhang,Dejing Dou,Ji Wu
20+阅读 · 2019年8月16日
BioBERT: a pre-trained biomedical language representation model for biomedical text mining
Jinhyuk Lee,Wonjin Yoon,Sungdong Kim,Donghyeon Kim,Sunkyu Kim,Chan Ho So,Jaewoo Kang
5+阅读 · 2019年2月3日
Paul Groth,Antony Scerri,Ron Daniel, Jr.,Bradley P. Allen
3+阅读 · 2018年11月16日
Yanshan Wang,Sijia Liu,Naveed Afzal,Majid Rastegar-Mojarad,Liwei Wang,Feichen Shen,Hongfang Liu
3+阅读 · 2018年2月1日
Top