【ICML2024】通过动态可组合多头注意力改进Transformers - 专知VIP

会员服务 ·

12

Transformers · ICML 2024 · 多头注意力 ·

【ICML2024】通过动态可组合多头注意力改进Transformers

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

多头注意力机制（Multi-Head Attention, MHA）是Transformer的关键组件之一。在MHA中，各个注意力头独立工作，这会导致一些问题，如注意力分数矩阵的低秩瓶颈和头部冗余。我们提出了动态可组合多头注意力机制（Dynamically Composable Multi-Head Attention, DCMHA），这是一种参数和计算高效的注意力架构，旨在解决MHA的缺点并通过动态组合注意力头来增强模型的表达能力。

**DCMHA的核心概念

DCMHA的核心是一个Compose函数，该函数以输入为依赖动态变换注意力分数矩阵和权重矩阵。DCMHA可以作为MHA的直接替代品应用于任何Transformer架构，从而获得相应的DCFormer。DCFormer在不同架构和模型规模的语言模型任务中显著优于传统的Transformer，匹配计算量约为1.7至2.0倍的模型的性能。例如，DCPythia-6.9B在预训练困惑度和下游任务评估上均优于开源的Pythia-12B模型。

**动态可组合多头注意力机制的优势

参数和计算效率：DCMHA通过动态组合注意力头，在不显著增加参数和计算量的情况下，增强了模型的表达能力。
注意力矩阵的动态调整：Compose函数能够根据输入动态调整注意力分数和权重矩阵，避免了传统MHA中的低秩瓶颈问题。
减少头部冗余：通过动态组合，DCMHA能够有效减少注意力头的冗余，提升模型的整体性能。

**实验结果

DCFormer在多种架构和模型规模的语言模型任务中表现出了优异的性能。例如，DCPythia-6.9B在预训练困惑度和下游任务评估上均优于开源的Pythia-12B模型，展示了动态可组合多头注意力机制的巨大潜力。

**获取代码和模型

代码和模型可在以下链接获取：https://github.com/Caiyun-AI/DCFormer。通过引入DCMHA，我们能够有效提升Transformers在各种任务中的表现，使其成为更强大、更高效的深度学习模型。

成为VIP会员查看完整内容

18

相关内容

Transformers

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

专知会员服务

5+阅读 · 5月28日

【AAAI2024】BOK-VQA：基于双语外部知识的视觉问题回答，通过图表示预训练

【AAAI2024】BOK-VQA：基于双语外部知识的视觉问题回答，通过图表示预训练

专知会员服务

22+阅读 · 1月15日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知会员服务

32+阅读 · 2022年7月27日

【NeurIPS 2021】通过元学习优化可重用知识实现持续学习

专知会员服务

22+阅读 · 2021年9月30日

【ICCV2021】残差注意力：一种简单但是有效的多标签图像识别方法

专知会员服务

15+阅读 · 2021年8月26日

【ICML2021】为开放博弈中的学习建模行为多样性。

专知会员服务

34+阅读 · 2021年5月29日

【WSDM2021-教程】超越概率排序原则：建模文档依赖性，附PPT

【WSDM2021-教程】超越概率排序原则：建模文档依赖性，附PPT

专知会员服务

13+阅读 · 2021年3月15日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知会员服务

32+阅读 · 2020年10月11日

【ACM MM2020】对偶注意力GAN语义图像合成

【ACM MM2020】对偶注意力GAN语义图像合成

专知会员服务

35+阅读 · 2020年9月2日

【ACL2020-斯坦福】低维双曲知识图谱嵌入，Low-Dimensional Hyperbolic KGE

【ACL2020-斯坦福】低维双曲知识图谱嵌入，Low-Dimensional Hyperbolic KGE

专知会员服务

44+阅读 · 2020年5月6日

【ICLR2021】通过多种自监督方式提升GAT中注意力

【ICLR2021】通过多种自监督方式提升GAT中注意力

专知

18+阅读 · 2021年2月27日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

37+阅读 · 2020年9月30日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知

48+阅读 · 2020年3月30日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

244+阅读 · 2019年11月18日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机动力系统的逼近和跑出问题

国家自然科学基金

0+阅读 · 2015年12月31日

信息系统直接使用与间接使用—探索基于社会权力视角的前因及其对工作绩效的影响

国家自然科学基金

1+阅读 · 2015年12月31日

隐重子图条件下图的圈

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

6+阅读 · 2015年12月31日

切换系统的容错保成本和容错H无穷控制

国家自然科学基金

0+阅读 · 2015年12月31日

Schr？dinger-Poisson方程守恒DDG方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

1+阅读 · 2014年12月31日

Tropical Expressivity of Neural Networks

Arxiv

0+阅读 · 5月30日

Debiasing Algorithm through Model Adaptation

Arxiv

0+阅读 · 5月29日

Highway Reinforcement Learning

Arxiv

0+阅读 · 5月28日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

73+阅读 · 2023年4月11日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

337+阅读 · 2023年3月31日

Geometric multimodal representation learning

Arxiv

68+阅读 · 2022年9月7日

Transformer in Transformer

Arxiv

11+阅读 · 2021年10月26日

Neural Architecture Search without Training

Neural Architecture Search without Training

Arxiv

10+阅读 · 2021年6月11日

Meta-Learning with Implicit Gradients

Meta-Learning with Implicit Gradients

Arxiv

13+阅读 · 2019年9月10日

Deep Anomaly Detection with Outlier Exposure

Deep Anomaly Detection with Outlier Exposure

Arxiv

17+阅读 · 2018年12月21日

VIP会员

相关主题

多头注意力

相关VIP内容

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

专知会员服务

5+阅读 · 5月28日

【AAAI2024】BOK-VQA：基于双语外部知识的视觉问题回答，通过图表示预训练

【AAAI2024】BOK-VQA：基于双语外部知识的视觉问题回答，通过图表示预训练

专知会员服务

22+阅读 · 1月15日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知会员服务

32+阅读 · 2022年7月27日

【NeurIPS 2021】通过元学习优化可重用知识实现持续学习

专知会员服务

22+阅读 · 2021年9月30日

【ICCV2021】残差注意力：一种简单但是有效的多标签图像识别方法

专知会员服务

15+阅读 · 2021年8月26日

【ICML2021】为开放博弈中的学习建模行为多样性。

专知会员服务

34+阅读 · 2021年5月29日

【WSDM2021-教程】超越概率排序原则：建模文档依赖性，附PPT

【WSDM2021-教程】超越概率排序原则：建模文档依赖性，附PPT

专知会员服务

13+阅读 · 2021年3月15日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知会员服务

32+阅读 · 2020年10月11日

【ACM MM2020】对偶注意力GAN语义图像合成

【ACM MM2020】对偶注意力GAN语义图像合成

专知会员服务

35+阅读 · 2020年9月2日

【ACL2020-斯坦福】低维双曲知识图谱嵌入，Low-Dimensional Hyperbolic KGE

【ACL2020-斯坦福】低维双曲知识图谱嵌入，Low-Dimensional Hyperbolic KGE

专知会员服务

44+阅读 · 2020年5月6日

热门VIP内容

相关资讯

【ICLR2021】通过多种自监督方式提升GAT中注意力

【ICLR2021】通过多种自监督方式提升GAT中注意力

专知

18+阅读 · 2021年2月27日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

37+阅读 · 2020年9月30日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知

48+阅读 · 2020年3月30日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

244+阅读 · 2019年11月18日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

相关基金

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机动力系统的逼近和跑出问题

国家自然科学基金

0+阅读 · 2015年12月31日

信息系统直接使用与间接使用—探索基于社会权力视角的前因及其对工作绩效的影响

国家自然科学基金

1+阅读 · 2015年12月31日

隐重子图条件下图的圈

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

6+阅读 · 2015年12月31日

切换系统的容错保成本和容错H无穷控制

国家自然科学基金

0+阅读 · 2015年12月31日

Schr？dinger-Poisson方程守恒DDG方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

1+阅读 · 2014年12月31日

相关论文

Tropical Expressivity of Neural Networks

Arxiv

0+阅读 · 5月30日

Debiasing Algorithm through Model Adaptation

Arxiv

0+阅读 · 5月29日

Highway Reinforcement Learning

Arxiv

0+阅读 · 5月28日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

73+阅读 · 2023年4月11日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

337+阅读 · 2023年3月31日

Geometric multimodal representation learning

Arxiv

68+阅读 · 2022年9月7日

Transformer in Transformer

Arxiv

11+阅读 · 2021年10月26日

Neural Architecture Search without Training

Neural Architecture Search without Training

Arxiv

10+阅读 · 2021年6月11日

Meta-Learning with Implicit Gradients

Meta-Learning with Implicit Gradients

Arxiv

13+阅读 · 2019年9月10日

Deep Anomaly Detection with Outlier Exposure

Deep Anomaly Detection with Outlier Exposure

Arxiv

17+阅读 · 2018年12月21日

微信扫码咨询专知VIP会员