Translating the title and abstract into Chinese: Transformer可视化 via 字典学习：上下文嵌入的线性叠加形式 (Transformer visualization via dictionary learning: contextualized embedding as a linear superposition of transformer factors) - 专知论文

会员服务 ·

0

字典学习 · 上下文嵌入 · Transformer · 因子 · 上下文 ·

2023 年 4 月 4 日

Transformer visualization via dictionary learning: contextualized embedding as a linear superposition of transformer factors

翻译：Translating the title and abstract into Chinese: Transformer可视化 via 字典学习：上下文嵌入的线性叠加形式

Zeyu Yun,Yubei Chen,Bruno A Olshausen,Yann LeCun

from arxiv, This paper is published at DeeLIO Workshop@NAACL 2021

Transformer networks have revolutionized NLP representation learning since they were introduced. Though a great effort has been made to explain the representation in transformers, it is widely recognized that our understanding is not sufficient. One important reason is that there lack enough visualization tools for detailed analysis. In this paper, we propose to use dictionary learning to open up these "black boxes" as linear superpositions of transformer factors. Through visualization, we demonstrate the hierarchical semantic structures captured by the transformer factors, e.g., word-level polysemy disambiguation, sentence-level pattern formation, and long-range dependency. While some of these patterns confirm the conventional prior linguistic knowledge, the rest are relatively unexpected, which may provide new insights. We hope this visualization tool can bring further knowledge and a better understanding of how transformer networks work. The code is available at https://github.com/zeyuyun1/TransformerVis

翻译：Transformer网络自推出以来，已经在NLP表示学习方面带来了革命性的变化。虽然人们已经尽最大努力解释transformers中的表示，但普遍认为我们的理解还不够。重要原因之一是缺乏详细分析的足够的可视化工具。因此，本文提出使用字典学习的方法，将其打开作为transformer因子的线性叠加形式，从而揭示内部黑盒的内容。通过可视化，我们演示了transformer因子捕捉的分层语义结构，例如词级多义消歧，句子级模式形成以及长程依赖等。虽然其中一些模式符合传统的语言学知识，但其余部分是相对意外的，这可能提供新的见解。希望这种可视化工具能够为提供进一步的知识和更好的了解transformer如何工作。该代码可在以下网址找到：https://github.com/zeyuyun1/TransformerVis

1

相关内容

字典学习

稀疏表达的效果好坏和用的字典有着密切的关系。字典分两类，一种是预先给定的分析字典，比如小波基、DCT等，另一种则是针对特定数据集学习出特定的字典。这种学出来的字典能大大提升在特定数据集的效果。

【2022新书】深度学习R语言实战，第二版，568页pdf

【2022新书】深度学习R语言实战，第二版，568页pdf

专知会员服务

86+阅读 · 2022年10月23日

MIT经典《线性代数》，584页pdf，Introduction to Linear Algebra, Fifth Edition, Gilbert Strang, 2016.

MIT经典《线性代数》，584页pdf，Introduction to Linear Algebra, Fifth Edition, Gilbert Strang, 2016.

专知会员服务

426+阅读 · 2021年1月11日

NLP必读经典文献100篇

专知会员服务

124+阅读 · 2020年9月8日

Query2box: 使用盒嵌入对向量空间中的知识图谱进行推理，Query2box: Reasoning over Knowledge Graphs in Vector Space Using Box Embeddings

专知会员服务

46+阅读 · 2020年5月11日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

165+阅读 · 2020年3月18日

【ICCV 2019 Toturial】Interpretable Machine Learning for Computer Vision（用于计算机视觉的可解释性机器学习）

【ICCV 2019 Toturial】Interpretable Machine Learning for Computer Vision（用于计算机视觉的可解释性机器学习）

专知会员服务

31+阅读 · 2019年10月30日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

160+阅读 · 2019年10月12日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

181+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

专知

29+阅读 · 2018年3月12日

自然语言处理 (三)　之　word embedding

自然语言处理 (三)　之　word embedding

DeepLearning中文论坛

19+阅读 · 2015年8月3日

自噬对高脂膳食诱导的血管内皮细胞损伤的保护作用及分子机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

RNA结合蛋白Smaug识别果蝇生殖发育关键基因oskar mRNA的结构机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于视觉注意机制的SAR图像小目标检测方法研究

国家自然科学基金

4+阅读 · 2013年12月31日

面向数据表示的深度稀疏保持学习

国家自然科学基金

7+阅读 · 2013年12月31日

Calderon问题和边界刚性问题

国家自然科学基金

0+阅读 · 2013年12月31日

线性算子数值域的几何特征

国家自然科学基金

0+阅读 · 2013年12月31日

分组密码和哈希函数的结构化分析

国家自然科学基金

0+阅读 · 2013年12月31日

特征值与图的结构

国家自然科学基金

0+阅读 · 2012年12月31日

在光波导与量子器件中应用非线性与量子调控相互作用进行信息处理

国家自然科学基金

0+阅读 · 2011年12月31日

青藏高原东北缘地壳结构的地震波形反演研究

国家自然科学基金

1+阅读 · 2011年12月31日

FIT: Far-reaching Interleaved Transformers

Arxiv

0+阅读 · 2023年5月25日

Completeness in static analysis by abstract interpretation, a personal point of view

Arxiv

0+阅读 · 2023年5月25日

A Neural Space-Time Representation for Text-to-Image Personalization

Arxiv

0+阅读 · 2023年5月24日

Learning Large-scale Neural Fields via Context Pruned Meta-Learning

Arxiv

0+阅读 · 2023年5月24日

Interpretable by Design Visual Question Answering

Arxiv

0+阅读 · 2023年5月24日

Beyond Shared Vocabulary: Increasing Representational Word Similarities across Languages for Multilingual Machine Translation

Arxiv

0+阅读 · 2023年5月23日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

Deep contextualized word representations

Arxiv

10+阅读 · 2018年3月22日

mvn2vec: Preservation and Collaboration in Multi-View Network Embedding

Arxiv

10+阅读 · 2018年1月19日

A Structured Self-attentive Sentence Embedding

Arxiv

24+阅读 · 2017年3月9日

VIP会员

文章信息

相关主题

上下文嵌入

相关VIP内容

【2022新书】深度学习R语言实战，第二版，568页pdf

【2022新书】深度学习R语言实战，第二版，568页pdf

专知会员服务

86+阅读 · 2022年10月23日

MIT经典《线性代数》，584页pdf，Introduction to Linear Algebra, Fifth Edition, Gilbert Strang, 2016.

MIT经典《线性代数》，584页pdf，Introduction to Linear Algebra, Fifth Edition, Gilbert Strang, 2016.

专知会员服务

426+阅读 · 2021年1月11日

NLP必读经典文献100篇

专知会员服务

124+阅读 · 2020年9月8日

Query2box: 使用盒嵌入对向量空间中的知识图谱进行推理，Query2box: Reasoning over Knowledge Graphs in Vector Space Using Box Embeddings

专知会员服务

46+阅读 · 2020年5月11日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

165+阅读 · 2020年3月18日

【ICCV 2019 Toturial】Interpretable Machine Learning for Computer Vision（用于计算机视觉的可解释性机器学习）

【ICCV 2019 Toturial】Interpretable Machine Learning for Computer Vision（用于计算机视觉的可解释性机器学习）

专知会员服务

31+阅读 · 2019年10月30日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

160+阅读 · 2019年10月12日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

181+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《网络安全中的机器学习算法：网络防护与攻击检测》最新报告

《美国国防部气候适应计划（2024-2027年）》52页

万字长文 | 指挥控制、战术通信、人工智能、网络战、电子战、云计算与国土安全：国际近期动态发展要闻

《美陆军网络防御作战的测试与评估》最新48页报告

相关资讯

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

专知

29+阅读 · 2018年3月12日

自然语言处理 (三)　之　word embedding

自然语言处理 (三)　之　word embedding

DeepLearning中文论坛

19+阅读 · 2015年8月3日

相关论文

FIT: Far-reaching Interleaved Transformers

Arxiv

0+阅读 · 2023年5月25日

Completeness in static analysis by abstract interpretation, a personal point of view

Arxiv

0+阅读 · 2023年5月25日

A Neural Space-Time Representation for Text-to-Image Personalization

Arxiv

0+阅读 · 2023年5月24日

Learning Large-scale Neural Fields via Context Pruned Meta-Learning

Arxiv

0+阅读 · 2023年5月24日

Interpretable by Design Visual Question Answering

Arxiv

0+阅读 · 2023年5月24日

Beyond Shared Vocabulary: Increasing Representational Word Similarities across Languages for Multilingual Machine Translation

Arxiv

0+阅读 · 2023年5月23日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

Deep contextualized word representations

Arxiv

10+阅读 · 2018年3月22日

mvn2vec: Preservation and Collaboration in Multi-View Network Embedding

Arxiv

10+阅读 · 2018年1月19日

A Structured Self-attentive Sentence Embedding

Arxiv

24+阅读 · 2017年3月9日

相关基金

自噬对高脂膳食诱导的血管内皮细胞损伤的保护作用及分子机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

RNA结合蛋白Smaug识别果蝇生殖发育关键基因oskar mRNA的结构机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于视觉注意机制的SAR图像小目标检测方法研究

国家自然科学基金

4+阅读 · 2013年12月31日

面向数据表示的深度稀疏保持学习

国家自然科学基金

7+阅读 · 2013年12月31日

Calderon问题和边界刚性问题

国家自然科学基金

0+阅读 · 2013年12月31日

线性算子数值域的几何特征

国家自然科学基金

0+阅读 · 2013年12月31日

分组密码和哈希函数的结构化分析

国家自然科学基金

0+阅读 · 2013年12月31日

特征值与图的结构

国家自然科学基金

0+阅读 · 2012年12月31日

在光波导与量子器件中应用非线性与量子调控相互作用进行信息处理

国家自然科学基金

0+阅读 · 2011年12月31日

青藏高原东北缘地壳结构的地震波形反演研究

国家自然科学基金

1+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员