【NeurIPS2022】不用微调的加速大规模视觉Transformer的密集预测 - 专知

会员服务 ·

0

【NeurIPS2022】不用微调的加速大规模视觉Transformer的密集预测

2022 年 10 月 5 日 专知

视觉transformer最近在各种视觉任务中取得了有竞争力的结果，但在处理大量token时仍然存在很大的计算成本。许多先进的方法已经开发出来，以减少大规模视觉transformer中的token总数，特别是对于图像分类任务。通常，他们根据与 [class]标记的相关性选择一组基本标记，然后微调视觉transformer的权重。这种微调对于密集预测来说不太实用，因为与图像分类相比，计算量和GPU内存成本要高得多。在本文中，我们关注一个更具挑战性的问题，即在不进行任何额外的再训练或微调的情况下，加速大规模视觉transformer进行密集预测。针对高密度预测需要高分辨率表示的事实，我们提出了两个非参数运算符，一个是减少token数量的token聚类层，一个是增加token数量的token重构层。为了实现这一目标，我们执行了以下步骤:(i)我们使用token聚类层将相邻的token聚在一起，从而产生保持空间结构的低分辨率表示;(ii)仅将以下transformer层应用于这些低分辨率表示或集群token;(iii)我们使用token重构层从精炼的低分辨率表示重新创建高分辨率表示。该方法在目标检测、语义分割、泛视分割、实例分割和深度估计等五种密集预测任务中取得了良好的效果。因此，该方法在不微调官方权重的情况下，在ADE20K上保持99.5%的性能的同时，加速了40%↑FPS并节省了30%↓GFLOPs的“Segmenter+ViT-L/16”。

https://www.zhuanzhi.ai/paper/d7612e394722b9aa764f35a645789efe

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“DPWF” 就可以获取《【NeurIPS2022】不用微调的加速大规模视觉Transformer的密集预测》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

0

相关内容

密集预测

【NeurIPS2022】VICRegL:局部视觉特征的自监督学习

【NeurIPS2022】VICRegL:局部视觉特征的自监督学习

专知会员服务

32+阅读 · 2022年10月6日

【CVPR2022】基于知识蒸馏的高效预训练

【CVPR2022】基于知识蒸馏的高效预训练

专知会员服务

32+阅读 · 2022年4月23日

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

专知会员服务

24+阅读 · 2021年12月11日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知会员服务

15+阅读 · 2021年11月14日

【CVPR2021】空间一致性表示学习

专知会员服务

63+阅读 · 2021年3月12日

【NeurIPS2022】基于最大熵编码的自监督学习

【NeurIPS2022】基于最大熵编码的自监督学习

专知

1+阅读 · 2022年10月23日

【CVPR2022】基于知识蒸馏的高效预训练

【CVPR2022】基于知识蒸馏的高效预训练

专知

4+阅读 · 2022年4月23日

【CVPR2022】多视图聚合的大规模三维语义分割

【CVPR2022】多视图聚合的大规模三维语义分割

专知

3+阅读 · 2022年4月20日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知

0+阅读 · 2021年11月14日

【NeurIPS2021】ResT:一个有效的视觉识别转换器

【NeurIPS2021】ResT:一个有效的视觉识别转换器

专知

0+阅读 · 2021年10月25日

非局部总变差正则化图像恢复模型的快速子空间校正算法

国家自然科学基金

0+阅读 · 2014年12月31日

基于不可压缩流体计算的高效能复预处理算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

医学图像分割的新变分模型及其快速有效的最优化算法

国家自然科学基金

0+阅读 · 2013年12月31日

负载板栗壳色素复合吸附剂制备及其去除水中重金属性能

国家自然科学基金

0+阅读 · 2012年12月31日

基于二维随机映射和一范数优化的有监督图像分类研究

国家自然科学基金

3+阅读 · 2011年12月31日

SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-training

Arxiv

0+阅读 · 2022年11月22日

Transformer Based Multi-Grained Features for Unsupervised Person Re-Identification

Arxiv

0+阅读 · 2022年11月22日

Multitask Vision-Language Prompt Tuning

Arxiv

0+阅读 · 2022年11月22日

A Fair Loss Function for Network Pruning

Arxiv

0+阅读 · 2022年11月18日

EDTER: Edge Detection with Transformer

Arxiv

11+阅读 · 2022年3月16日

VIP会员

相关主题

视觉Transformer

词元分析器

相关VIP内容

【NeurIPS2022】VICRegL:局部视觉特征的自监督学习

【NeurIPS2022】VICRegL:局部视觉特征的自监督学习

专知会员服务

32+阅读 · 2022年10月6日

【CVPR2022】基于知识蒸馏的高效预训练

【CVPR2022】基于知识蒸馏的高效预训练

专知会员服务

32+阅读 · 2022年4月23日

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

专知会员服务

24+阅读 · 2021年12月11日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知会员服务

15+阅读 · 2021年11月14日

【CVPR2021】空间一致性表示学习

专知会员服务

63+阅读 · 2021年3月12日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型中的事件抽取：方法、模态与未来展望的全面综述

美海军作战管理系统：变革战场空间的二十年

【MIT博士论文】以语言为中心的医学影像理解

俄罗斯“沙希德”/“天竺葵”攻击无人机

相关资讯

【NeurIPS2022】基于最大熵编码的自监督学习

【NeurIPS2022】基于最大熵编码的自监督学习

专知

1+阅读 · 2022年10月23日

【CVPR2022】基于知识蒸馏的高效预训练

【CVPR2022】基于知识蒸馏的高效预训练

专知

4+阅读 · 2022年4月23日

【CVPR2022】多视图聚合的大规模三维语义分割

【CVPR2022】多视图聚合的大规模三维语义分割

专知

3+阅读 · 2022年4月20日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知

0+阅读 · 2021年11月14日

【NeurIPS2021】ResT:一个有效的视觉识别转换器

【NeurIPS2021】ResT:一个有效的视觉识别转换器

专知

0+阅读 · 2021年10月25日

相关基金

非局部总变差正则化图像恢复模型的快速子空间校正算法

国家自然科学基金

0+阅读 · 2014年12月31日

基于不可压缩流体计算的高效能复预处理算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

医学图像分割的新变分模型及其快速有效的最优化算法

国家自然科学基金

0+阅读 · 2013年12月31日

负载板栗壳色素复合吸附剂制备及其去除水中重金属性能

国家自然科学基金

0+阅读 · 2012年12月31日

基于二维随机映射和一范数优化的有监督图像分类研究

国家自然科学基金

3+阅读 · 2011年12月31日

相关论文

SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-training

Arxiv

0+阅读 · 2022年11月22日

Transformer Based Multi-Grained Features for Unsupervised Person Re-Identification

Arxiv

0+阅读 · 2022年11月22日

Multitask Vision-Language Prompt Tuning

Arxiv

0+阅读 · 2022年11月22日

A Fair Loss Function for Network Pruning

Arxiv

0+阅读 · 2022年11月18日

EDTER: Edge Detection with Transformer

Arxiv

11+阅读 · 2022年3月16日

大家都在搜

蓝牙安全攻防

大型语言模型

朱克爱德华兹家族

【泡泡读者来搞】ROS、Simulink、Carsim的互联与规划、控制算法的验证

微信扫码咨询专知VIP会员