通过 TensorFlow Similarity 自监督学习提高模型准确率 - 专知

会员服务 ·

0

通过 TensorFlow Similarity 自监督学习提高模型准确率

2022 年 3 月 3 日 谷歌开发者

发布人：Google 的 Elie Bursztein、Owen Vallis

TensorFlow Similarity 现已支持关键的自监督学习算法，以帮助您在没有大量标记数据时提高模型准确率。

TensorFlow Similarity
https://blog.tensorflow.org/2021/09/introducing-tensorflow-similarity.html
自监督
https://developers.google.cn/machine-learning/glossary#self-supervised-learning

基本自监督训练

通常在训练新的机器学习分类器时，我们拥有的未标记数据（例如照片）比标记示例要多得多。自监督学习技术旨在利用这些未标记的数据来学习有用的数据表征，通过对这些未标记示例进行预训练来提高分类器的准确率。在某些情况下，利用大量未标记数据可以显著提高模型的准确率。

最熟知的自监督训练成功案例可能是转换器模型，例如 BERT，它通过使用大量文本（例如维基百科或网页）进行预训练来学习有意义的语言表征。

自监督学习可以应用于任何类型的数据和各种数据规模。例如，如果您只有几百张标记图像，则可以使用自监督学习，通过在 ImageNet 等中等规模数据集上进行预训练来提高模型的准确率。又如，SimCLR 使用 ImageNet ILSVRC-2012 数据集来训练表征，然后在 CIFAR、Oxford-IIIT Pets、Food-101 等 12 个其他图像数据集上评估迁移学习性能。自监督学习也适用于更大规模的数据集，对数十亿个示例进行预训练同样可以提高准确率，包括文本转换器和视觉转换器。

文本转换器
https://arxiv.org/abs/2101.00027
视觉转换器
https://arxiv.org/abs/2106.04560v1

自监督学习如何作用于图像的简要描述

自监督学习的核心是通过对比同一示例的两个增强“视图”来提高模型准确率。模型目标是最大化这些视图之间的相似性，以学习对下游任务有用的表征，例如训练监督式分类器。在实践中，在对大量未标记图像进行预训练之后，通过在冻结的预训练表征之上添加一个 softmax 密集层来训练图像分类器，并像往常一样使用少量标记示例进行训练。

hello world 笔记本中 CIFAR10 上的增强视图对示例

TensorFlow Similarity 目前提供了三种学习自监督表征的关键方法：SimCLR、SimSiam、Barlow Twins（都是开箱即用），并提供了所有必要的组件来实现其他形式的无监督学习，包括回调、指标和数据采样器等。

SimSiam
https://arxiv.org/abs/2011.10566
Barlow Twins
https://arxiv.org/abs/2103.03230

您可以利用自监督学习 hello world 笔记本开始探索如何在 CIFAR10 上将准确率翻倍。

hello world
https://github.com/tensorflow/similarity/blob/master/examples/unsupervised_hello_world.ipynb

点击屏末 | 阅读原文 | 访问 TensorFlow 官网

登录查看更多

2

相关内容

自监督学习

自监督学习

自监督学习（self-supervised learning）可以被看作是机器学习的一种“理想状态”，模型直接从无标签数据中自行学习，无需标注数据。

【NeurIPS2021】利用预训练对比表示征的逆问题

专知会员服务

10+阅读 · 2021年10月17日

SiT: 自监督视觉Transformer

专知会员服务

65+阅读 · 2021年4月11日

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

专知会员服务

51+阅读 · 2020年3月7日

【Google AI】开源NoisyStudent：自监督图像分类

【Google AI】开源NoisyStudent：自监督图像分类

专知会员服务

55+阅读 · 2020年2月18日

重磅！Geoffrey Hinton新论文「视觉表示对比学习简单框架」自监督学习建立新SOTA-ImageNet准确率76.5%

重磅！Geoffrey Hinton新论文「视觉表示对比学习简单框架」自监督学习建立新SOTA-ImageNet准确率76.5%

专知会员服务

33+阅读 · 2020年2月15日

TensorFlow Lite 设备端训练

TensorFlow Lite 设备端训练

TensorFlow

4+阅读 · 2021年12月20日

自监督视觉特征学习

自监督视觉特征学习

专知

0+阅读 · 2021年11月1日

将对比学习扩展到监督式场景

将对比学习扩展到监督式场景

TensorFlow

1+阅读 · 2021年7月20日

对比自监督学习

对比自监督学习

深度学习自然语言处理

35+阅读 · 2020年7月15日

3分钟看懂史上最强NLP模型BERT

3分钟看懂史上最强NLP模型BERT

新智元

23+阅读 · 2019年2月27日

基于图像的植物识别和检索研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于图论模型的文本重叠聚类研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于数据分布评估和支持向量机方法的分布式数据流挖掘模型和算法研究

国家自然科学基金

1+阅读 · 2012年12月31日

实时双模态自动图像软标注与多关键词检索

国家自然科学基金

0+阅读 · 2009年12月31日

文本语义模型和子空间聚类研究

国家自然科学基金

1+阅读 · 2009年12月31日

Self-supervised Learning for Sonar Image Classification

Arxiv

0+阅读 · 2022年4月20日

Auxiliary Loss Reweighting for Image Inpainting

Arxiv

0+阅读 · 2022年4月20日

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

Arxiv

0+阅读 · 2022年4月19日

Unsupervised Cross-Task Generalization via Retrieval Augmentation

Arxiv

0+阅读 · 2022年4月17日

A Survey on Deep Learning for Named Entity Recognition

A Survey on Deep Learning for Named Entity Recognition

Arxiv

73+阅读 · 2018年12月22日

VIP会员

相关主题

自监督学习

相关VIP内容

【NeurIPS2021】利用预训练对比表示征的逆问题

专知会员服务

10+阅读 · 2021年10月17日

SiT: 自监督视觉Transformer

专知会员服务

65+阅读 · 2021年4月11日

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

专知会员服务

51+阅读 · 2020年3月7日

【Google AI】开源NoisyStudent：自监督图像分类

【Google AI】开源NoisyStudent：自监督图像分类

专知会员服务

55+阅读 · 2020年2月18日

重磅！Geoffrey Hinton新论文「视觉表示对比学习简单框架」自监督学习建立新SOTA-ImageNet准确率76.5%

重磅！Geoffrey Hinton新论文「视觉表示对比学习简单框架」自监督学习建立新SOTA-ImageNet准确率76.5%

专知会员服务

33+阅读 · 2020年2月15日

热门VIP内容

开通专知VIP会员享更多权益服务

大模型推理时代的知识编辑

《利用人工智能对军事行动进行建模》

【MIT博士论文】加速科学发现的因果建模实践算法

机器人、无人机与实时影像：应对城市爆炸威胁的三大技术方案

相关资讯

TensorFlow Lite 设备端训练

TensorFlow Lite 设备端训练

TensorFlow

4+阅读 · 2021年12月20日

自监督视觉特征学习

自监督视觉特征学习

专知

0+阅读 · 2021年11月1日

将对比学习扩展到监督式场景

将对比学习扩展到监督式场景

TensorFlow

1+阅读 · 2021年7月20日

对比自监督学习

对比自监督学习

深度学习自然语言处理

35+阅读 · 2020年7月15日

3分钟看懂史上最强NLP模型BERT

3分钟看懂史上最强NLP模型BERT

新智元

23+阅读 · 2019年2月27日

相关基金

基于图像的植物识别和检索研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于图论模型的文本重叠聚类研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于数据分布评估和支持向量机方法的分布式数据流挖掘模型和算法研究

国家自然科学基金

1+阅读 · 2012年12月31日

实时双模态自动图像软标注与多关键词检索

国家自然科学基金

0+阅读 · 2009年12月31日

文本语义模型和子空间聚类研究

国家自然科学基金

1+阅读 · 2009年12月31日

相关论文

Self-supervised Learning for Sonar Image Classification

Arxiv

0+阅读 · 2022年4月20日

Auxiliary Loss Reweighting for Image Inpainting

Arxiv

0+阅读 · 2022年4月20日

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

Arxiv

0+阅读 · 2022年4月19日

Unsupervised Cross-Task Generalization via Retrieval Augmentation

Arxiv

0+阅读 · 2022年4月17日

A Survey on Deep Learning for Named Entity Recognition

A Survey on Deep Learning for Named Entity Recognition

Arxiv

73+阅读 · 2018年12月22日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

冷启动，0预算，如何借助分销裂变引爆私域用户增长？

微信扫码咨询专知VIP会员