Inspired by the success of generative pretraining in natural language, we ask whether the same principles can yield strong self-supervised visual learners. Instead of training models to output features for downstream use, we train them to generate embeddings to perform predictive tasks directly. This work explores such a shift from learning representations to learning models. Specifically, models learn to predict future patch embeddings conditioned on past ones, using causal masking and stop gradient, which we refer to as Next-Embedding Predictive Autoregression (NEPA). We demonstrate that a simple Transformer pretrained on ImageNet-1k with next embedding prediction as its sole learning objective is effective - no pixel reconstruction, discrete tokens, contrastive loss, or task-specific heads. This formulation retains architectural simplicity and scalability, without requiring additional design complexity. NEPA achieves strong results across tasks, attaining 83.8% and 85.3% top-1 accuracy on ImageNet-1K with ViT-B and ViT-L backbones after fine-tuning, and transferring effectively to semantic segmentation on ADE20K. We believe generative pretraining from embeddings provides a simple, scalable, and potentially modality-agnostic alternative to visual self-supervised learning.


翻译:受自然语言处理中生成式预训练成功的启发,我们探究同样的原理能否催生强大的自监督视觉学习器。我们并非训练模型输出用于下游任务的特征,而是训练其生成嵌入以直接执行预测任务。本工作探索了这种从学习表征到学习模型的转变。具体而言,模型通过因果掩码和梯度截断技术,学习基于历史图像块嵌入预测未来嵌入,我们将此方法称为下一嵌入预测自回归。我们证明,在ImageNet-1k数据集上仅以下一嵌入预测为学习目标预训练的简单Transformer模型即具有卓越性能——无需像素重建、离散标记、对比损失或任务特定头。该方案保持了架构的简洁性与可扩展性,无需引入额外的设计复杂度。NEPA在多项任务中取得优异结果:经微调后,采用ViT-B与ViT-L骨干网络的模型在ImageNet-1K上分别达到83.8%与85.3%的top-1准确率,并能有效迁移至ADE20K语义分割任务。我们相信,基于嵌入的生成式预训练为视觉自监督学习提供了一种简洁、可扩展且可能模态无关的替代方案。

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 12月19日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员