【ICML2024】DoRA：权重分解的低秩适应 - 专知VIP

会员服务 ·

12

ICML 2024 · DoRA · 参数高效微调 · LORA · 常识推理 ·

【ICML2024】DoRA：权重分解的低秩适应

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

在广泛使用的参数高效微调（PEFT）方法中，LoRA及其变体因避免额外的推理成本而获得了相当的流行。然而，这些方法与完全微调（FT）之间通常仍存在准确性差距。在这项工作中，我们首先引入一种新颖的权重分解分析，以研究FT和LoRA之间的固有差异。为了模仿FT的学习能力，我们提出了权重分解的低秩适应（DoRA）。DoRA将预训练的权重分解为两个组成部分，幅度和方向，专门用于微调，并具体采用LoRA进行方向更新，以有效地最小化可训练参数的数量。通过使用DoRA，我们提高了LoRA的学习能力和训练稳定性，同时避免了任何额外的推理开销。在各种下游任务上，如常识推理、视觉指令调整和图像/视频-文本理解，DoRA始终优于LoRA，在对LLaMA、LLaVA和VL-BART进行微调时表现更佳。代码可在https://github.com/NVlabs/DoRA 获取。

成为VIP会员查看完整内容

18

相关内容

ICML 2024

【CVPR2024】SHiNe：用于开放词汇目标检测的语义层次枢纽

【CVPR2024】SHiNe：用于开放词汇目标检测的语义层次枢纽

专知会员服务

3+阅读 · 5月18日

【IJCAI2024】Gradformer：具有指数衰减的图变换器

【IJCAI2024】Gradformer：具有指数衰减的图变换器

专知会员服务

16+阅读 · 4月25日

【NeurIPS2023】基于频域的数据集蒸馏

【NeurIPS2023】基于频域的数据集蒸馏

专知会员服务

22+阅读 · 2023年11月16日

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

24+阅读 · 2023年9月4日

【NeurIPS2022】SparCL:边缘稀疏持续学习

【NeurIPS2022】SparCL:边缘稀疏持续学习

专知会员服务

23+阅读 · 2022年9月22日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知会员服务

35+阅读 · 2022年7月11日

【ICML2022】可解释的心理学理论

【ICML2022】可解释的心理学理论

专知会员服务

40+阅读 · 2022年5月29日

【ICML2021】压缩最大似然

专知会员服务

20+阅读 · 2021年9月23日

【ICML2021】GeomCA: 数据表示几何评估

专知会员服务

14+阅读 · 2021年9月11日

【KDD2021】具有残差独立性的可微分因果发现

专知会员服务

32+阅读 · 2021年7月1日

【ICML2021】因果匹配领域泛化

【ICML2021】因果匹配领域泛化

专知

11+阅读 · 2021年8月12日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

18+阅读 · 2021年3月28日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【ICLR2021】彩色化变换器，Colorization Transformer

【ICLR2021】彩色化变换器，Colorization Transformer

专知

12+阅读 · 2021年2月10日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

37+阅读 · 2020年9月30日

【ICML2020】对比多视角表示学习

【ICML2020】对比多视角表示学习

专知

18+阅读 · 2020年6月28日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

12+阅读 · 2020年4月1日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

244+阅读 · 2019年11月18日

公钥密码体制的格分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

关于随机MAX SAT和(2+p)-SAT模型可满足阈值的研究

国家自然科学基金

0+阅读 · 2015年12月31日

两类Markov排队模型的衰减性质

国家自然科学基金

0+阅读 · 2015年12月31日

Riemann-Hilbert 方法的一致渐近分析及其应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

非参数核方法的样本外扩展研究

国家自然科学基金

2+阅读 · 2015年12月31日

布尔可满足性算法和单调布尔函数的复杂性

国家自然科学基金

0+阅读 · 2015年12月31日

Schr？dinger-Poisson方程守恒DDG方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

L-函数、大值特征和及相关问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

Poisson流形上的修正Hamilton方法

国家自然科学基金

0+阅读 · 2014年12月31日

Kahler 曲面中特殊曲面的研究

国家自然科学基金

0+阅读 · 2014年12月31日

Machine Unlearning: A Survey

Arxiv

15+阅读 · 2023年6月6日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

133+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

30+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

72+阅读 · 2023年4月11日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

327+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

56+阅读 · 2023年3月26日

Geometric multimodal representation learning

Arxiv

67+阅读 · 2022年9月7日

Graph Learning: A Survey

Arxiv

56+阅读 · 2021年5月3日

The Deep Learning Compiler: A Comprehensive Survey

Arxiv

14+阅读 · 2020年2月6日

Deep Face Recognition: A Survey

Deep Face Recognition: A Survey

Arxiv

17+阅读 · 2019年2月12日

VIP会员

相关主题

参数高效微调

相关VIP内容

【CVPR2024】SHiNe：用于开放词汇目标检测的语义层次枢纽

【CVPR2024】SHiNe：用于开放词汇目标检测的语义层次枢纽

专知会员服务

3+阅读 · 5月18日

【IJCAI2024】Gradformer：具有指数衰减的图变换器

【IJCAI2024】Gradformer：具有指数衰减的图变换器

专知会员服务

16+阅读 · 4月25日

【NeurIPS2023】基于频域的数据集蒸馏

【NeurIPS2023】基于频域的数据集蒸馏

专知会员服务

22+阅读 · 2023年11月16日

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

24+阅读 · 2023年9月4日

【NeurIPS2022】SparCL:边缘稀疏持续学习

【NeurIPS2022】SparCL:边缘稀疏持续学习

专知会员服务

23+阅读 · 2022年9月22日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知会员服务

35+阅读 · 2022年7月11日

【ICML2022】可解释的心理学理论

【ICML2022】可解释的心理学理论

专知会员服务

40+阅读 · 2022年5月29日

【ICML2021】压缩最大似然

专知会员服务

20+阅读 · 2021年9月23日

【ICML2021】GeomCA: 数据表示几何评估

专知会员服务

14+阅读 · 2021年9月11日

【KDD2021】具有残差独立性的可微分因果发现

专知会员服务

32+阅读 · 2021年7月1日

热门VIP内容

相关资讯

【ICML2021】因果匹配领域泛化

【ICML2021】因果匹配领域泛化

专知

11+阅读 · 2021年8月12日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

18+阅读 · 2021年3月28日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【ICLR2021】彩色化变换器，Colorization Transformer

【ICLR2021】彩色化变换器，Colorization Transformer

专知

12+阅读 · 2021年2月10日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

37+阅读 · 2020年9月30日

【ICML2020】对比多视角表示学习

【ICML2020】对比多视角表示学习

专知

18+阅读 · 2020年6月28日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

12+阅读 · 2020年4月1日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

244+阅读 · 2019年11月18日

相关基金

公钥密码体制的格分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

关于随机MAX SAT和(2+p)-SAT模型可满足阈值的研究

国家自然科学基金

0+阅读 · 2015年12月31日

两类Markov排队模型的衰减性质

国家自然科学基金

0+阅读 · 2015年12月31日

Riemann-Hilbert 方法的一致渐近分析及其应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

非参数核方法的样本外扩展研究

国家自然科学基金

2+阅读 · 2015年12月31日

布尔可满足性算法和单调布尔函数的复杂性

国家自然科学基金

0+阅读 · 2015年12月31日

Schr？dinger-Poisson方程守恒DDG方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

L-函数、大值特征和及相关问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

Poisson流形上的修正Hamilton方法

国家自然科学基金

0+阅读 · 2014年12月31日

Kahler 曲面中特殊曲面的研究

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

Machine Unlearning: A Survey

Arxiv

15+阅读 · 2023年6月6日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

133+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

30+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

72+阅读 · 2023年4月11日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

327+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

56+阅读 · 2023年3月26日

Geometric multimodal representation learning

Arxiv

67+阅读 · 2022年9月7日

Graph Learning: A Survey

Arxiv

56+阅读 · 2021年5月3日

The Deep Learning Compiler: A Comprehensive Survey

Arxiv

14+阅读 · 2020年2月6日

Deep Face Recognition: A Survey

Deep Face Recognition: A Survey

Arxiv

17+阅读 · 2019年2月12日

微信扫码咨询专知VIP会员