直播 | 复旦大学许燚：少量标注样本场景下基于数据编程的半监督分类 - 专知

会员服务 ·

0

直播 | 复旦大学许燚：少量标注样本场景下基于数据编程的半监督分类

2021 年 11 月 29 日 PaperWeekly

「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间，旨在帮助更多的青年学者宣传其最新科研成果。我们一直认为，单向地输出知识并不是一个最好的方式，而有效地反馈和交流可能会让知识的传播更加有意义，从而产生更大的价值。

本期 AI Drive，我们邀请到复旦大学博士生许燚，为大家在线解读其发表在 NeurIPS 2021 的最新研究成果：DP-SSL: Towards Robust Semi-supervised Learning with A Few Labeled Samples。对本期主题感兴趣的小伙伴，11 月 30 日（本周二）晚 7 点，我们准时相约 PaperWeekly 直播间。

直播信息

标注数据的稀缺性是深度学习的一个关键障碍。半监督学习则是以给未标注数据生成伪标签的方式为这一问题提供了一种有效的解法。然而，当标注数据的量较小时，比如每个类只有几个样本时，由于生成的伪标签的质量不可靠，半监督学习的表现不佳并且效果不稳定。

在本文中，我们提出了一种基于数据编程 (Data Programming) 框架来为未标注数据生成概率标签的半监督分类方法。与现有的数据编程方法需要人为设计标记函数 (Labeling Function)不同的是，我们采用了一套基于多选择学习 (Multiple-choice Learning) 的半监督策略来自动生成标记函数。考虑到标记函数中产生的噪声标签，我们设计了一个标记模型 (Label Model) 来解决其中的冲突与重叠，从而为未标注的样本提供概率标签用于后续的训练。

在四个基准数据集上的大量实验结果表明，我们的方法可以为未标注的数据提供可靠的概率标签，而以此为基础训练的模型在测试集上也具备了比现有半监督分类方法更好的性能。尤其是在少量标注样本可用时，例如在 CIFAR-10 上只有 40 个标注样本时（每个类别 4 个），我们的方法在未标注的数据上达到了 93.82% 的标注准确率，在测试集上达到了 93.46% 的分类准确率，高于现有 SOTA 结果。

论文标题：

DP-SSL: Towards Robust Semi-supervised Learning with A Few Labeled Samples

论文链接：

https://arxiv.org/abs/2110.13740

本次分享的具体内容有：

半监督分类在样本较少时面临的问题
半监督分类以及数据编程的相关工作
基于数据编程的半监督分类的基本框架和方法
多个数据集的实验结果及伪标签质量分析方法
总结与展望

嘉宾介绍

默认标题_LOGO设计_2021-11-29+11_04_29.png

许燚 / 复旦大学博士生

许燚，复旦大学博士生在读，导师为周水庚教授。主要研究方向为视频理解，半监督以及弱监督学习，在 NeurIPS, CVPR, ICCV, AAAI, MM, EMNLP 上发表过相关论文。

直播地址 & 交流群

本次直播将在 PaperWeekly 视频号和 B 站直播间进行，扫描下方海报二维码或点击阅读原文即可免费观看。线上分享结束后，嘉宾还将在直播交流群内实时 QA，在 PaperWeekly 微信公众号后台回复「AI Drive」，即可获取入群通道。

视频号直播间：

扫描下方二维码关注 PaperWeekly 视频号，第一时间获取开播提醒。

B 站直播间：

https://live.bilibili.com/14884511

合作伙伴

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

登录查看更多

0

相关内容

半监督分类

半监督分类

半监督分类(Semi-Supervised Classification)：是在无类标签的样例的帮助下训练有类标签的样本，获得比只用有类标签的样本训练得到的分类器性能更优的分类器，弥补有类标签的样本不足的缺陷。

CVPR2021 百度研究院 | 半监督迁移学习的自适应一致性正则化

专知会员服务

31+阅读 · 2021年3月20日

【EMNLP2020】开放领域对话的数据增广的方法：“对话蒸馏”

【EMNLP2020】开放领域对话的数据增广的方法：“对话蒸馏”

专知会员服务

30+阅读 · 2020年9月29日

【ACM MM2020】跨模态分布匹配的半监督多模态情感识别

【ACM MM2020】跨模态分布匹配的半监督多模态情感识别

专知会员服务

43+阅读 · 2020年9月8日

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

专知会员服务

41+阅读 · 2020年7月21日

【CVPR2020-国科大】状态标签对抗主动学习，Adversarial Active Learning

【CVPR2020-国科大】状态标签对抗主动学习，Adversarial Active Learning

专知会员服务

48+阅读 · 2020年4月13日

直播预告 | AAAI 2022论文解读：基于锚框排序的目标检测知识蒸馏

直播预告 | AAAI 2022论文解读：基于锚框排序的目标检测知识蒸馏

PaperWeekly

0+阅读 · 2022年3月23日

直播预告 | AAAI 2022论文解读：基于能量的主动域自适应学习方法

直播预告 | AAAI 2022论文解读：基于能量的主动域自适应学习方法

PaperWeekly

0+阅读 · 2022年3月7日

今晚直播 | AAAI 2022：图神经网络节点分类的广义等变性和优先标记算法

今晚直播 | AAAI 2022：图神经网络节点分类的广义等变性和优先标记算法

图与推荐

0+阅读 · 2022年3月3日

直播预告 | AAAI 2022论文解读：基于对比学习的预训练语言模型剪枝压缩

直播预告 | AAAI 2022论文解读：基于对比学习的预训练语言模型剪枝压缩

PaperWeekly

0+阅读 · 2022年1月19日

直播 | NeurIPS 2021论文解读：实例依赖的偏标记学习

直播 | NeurIPS 2021论文解读：实例依赖的偏标记学习

PaperWeekly

0+阅读 · 2021年11月25日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

29+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于稀疏表示和流形理论的半监督分类研究

国家自然科学基金

0+阅读 · 2014年12月31日

弱标注下基于主动学习的检测器适应问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

Open-Vocabulary Instance Segmentation via Robust Cross-Modal Pseudo-Labeling

Arxiv

0+阅读 · 2022年4月19日

Cross-Domain Few-Shot Graph Classification

Arxiv

13+阅读 · 2022年1月20日

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

Class-Balanced Loss Based on Effective Number of Samples

Arxiv

12+阅读 · 2019年1月16日

Learning Embedding Adaptation for Few-Shot Learning

Learning Embedding Adaptation for Few-Shot Learning

Arxiv

17+阅读 · 2018年12月10日

VIP会员

相关主题

半监督分类

半监督学习

相关VIP内容

CVPR2021 百度研究院 | 半监督迁移学习的自适应一致性正则化

专知会员服务

31+阅读 · 2021年3月20日

【EMNLP2020】开放领域对话的数据增广的方法：“对话蒸馏”

【EMNLP2020】开放领域对话的数据增广的方法：“对话蒸馏”

专知会员服务

30+阅读 · 2020年9月29日

【ACM MM2020】跨模态分布匹配的半监督多模态情感识别

【ACM MM2020】跨模态分布匹配的半监督多模态情感识别

专知会员服务

43+阅读 · 2020年9月8日

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

专知会员服务

41+阅读 · 2020年7月21日

【CVPR2020-国科大】状态标签对抗主动学习，Adversarial Active Learning

【CVPR2020-国科大】状态标签对抗主动学习，Adversarial Active Learning

专知会员服务

48+阅读 · 2020年4月13日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型中的事件抽取：方法、模态与未来展望的全面综述

美海军作战管理系统：变革战场空间的二十年

【MIT博士论文】以语言为中心的医学影像理解

俄罗斯“沙希德”/“天竺葵”攻击无人机

相关资讯

直播预告 | AAAI 2022论文解读：基于锚框排序的目标检测知识蒸馏

直播预告 | AAAI 2022论文解读：基于锚框排序的目标检测知识蒸馏

PaperWeekly

0+阅读 · 2022年3月23日

直播预告 | AAAI 2022论文解读：基于能量的主动域自适应学习方法

直播预告 | AAAI 2022论文解读：基于能量的主动域自适应学习方法

PaperWeekly

0+阅读 · 2022年3月7日

今晚直播 | AAAI 2022：图神经网络节点分类的广义等变性和优先标记算法

今晚直播 | AAAI 2022：图神经网络节点分类的广义等变性和优先标记算法

图与推荐

0+阅读 · 2022年3月3日

直播预告 | AAAI 2022论文解读：基于对比学习的预训练语言模型剪枝压缩

直播预告 | AAAI 2022论文解读：基于对比学习的预训练语言模型剪枝压缩

PaperWeekly

0+阅读 · 2022年1月19日

直播 | NeurIPS 2021论文解读：实例依赖的偏标记学习

直播 | NeurIPS 2021论文解读：实例依赖的偏标记学习

PaperWeekly

0+阅读 · 2021年11月25日

相关基金

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

29+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于稀疏表示和流形理论的半监督分类研究

国家自然科学基金

0+阅读 · 2014年12月31日

弱标注下基于主动学习的检测器适应问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

相关论文

Open-Vocabulary Instance Segmentation via Robust Cross-Modal Pseudo-Labeling

Arxiv

0+阅读 · 2022年4月19日

Cross-Domain Few-Shot Graph Classification

Arxiv

13+阅读 · 2022年1月20日

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

Class-Balanced Loss Based on Effective Number of Samples

Arxiv

12+阅读 · 2019年1月16日

Learning Embedding Adaptation for Few-Shot Learning

Learning Embedding Adaptation for Few-Shot Learning

Arxiv

17+阅读 · 2018年12月10日

大家都在搜

蓝牙安全攻防

大型语言模型

朱克爱德华兹家族

【泡泡读者来搞】ROS、Simulink、Carsim的互联与规划、控制算法的验证

微信扫码咨询专知VIP会员