教程题目:Neural Vector Representations beyond Words: Sentence and Document Embeddings

教程简介

虽然word2vec和GloVe生成的词嵌入被广泛认为是处理文本数据的一种简单方法,但最近在改进产生更好嵌入的方法方面取得了重大进展。特别是人们可能希望归纳出神经向量不仅表示单个单词,而且表示更长的语言单位,包括:多单词短语、整个句子甚至完整的文档。这些设置的算法可以利用大型语料库,但也可以利用其他类型数据的监督,如文档标签、词汇资源或自然语言推理数据集。句子嵌入是特别有趣的,因为它们可能需要适当地解释整个相当相似的句子之间相当微妙的区别。此外,还开发了新的技术来开发多语言和跨语言设置的嵌入式。因此,本教程将概述最新的最先进的方法,这些方法超越了word2vec,并且更好地对更长的单元(例如句子和文档)的语义进行建模,包括单语和跨语言的。本教程将首先简单介绍word2vec,以及它与传统分布语义方法之间的关系,因此不需要先验知识。

组织者:

Gerard de Melo是罗格斯大学(Rutgers University)的助理教授,领导着一个研究NLP和人工智能的团队。他已经发表了100多篇论文,在WWW、CIKM、ICGL和NAACL VSM研讨会上获得了最佳论文/演示奖。

成为VIP会员查看完整内容
17

相关内容

临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
几种句子表示方法的比较
AINLP
15+阅读 · 2019年9月21日
论文浅尝 | 基于复杂查询图编码的知识库问答
开放知识图谱
17+阅读 · 2019年7月22日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
基于 Doc2vec 训练句子向量
AI研习社
6+阅读 · 2018年5月16日
现代情感分析方法
算法与数学之美
13+阅读 · 2018年1月12日
字词的向量表示
黑龙江大学自然语言处理实验室
4+阅读 · 2016年6月13日
Arxiv
29+阅读 · 2020年3月16日
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
Arxiv
7+阅读 · 2018年8月28日
Arxiv
6+阅读 · 2018年6月20日
Arxiv
3+阅读 · 2018年3月27日
VIP会员
相关VIP内容
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
相关资讯
几种句子表示方法的比较
AINLP
15+阅读 · 2019年9月21日
论文浅尝 | 基于复杂查询图编码的知识库问答
开放知识图谱
17+阅读 · 2019年7月22日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
基于 Doc2vec 训练句子向量
AI研习社
6+阅读 · 2018年5月16日
现代情感分析方法
算法与数学之美
13+阅读 · 2018年1月12日
字词的向量表示
黑龙江大学自然语言处理实验室
4+阅读 · 2016年6月13日
微信扫码咨询专知VIP会员