解耦表征学习(Disentangled Representation Learning,DRL)旨在学习一种能够识别并解耦蕴含在可观察数据中的潜在生成因子(underlying factors)的模型。将数据生成的潜在因子解耦出来获得具有语义意义的解耦表征的过程,有利于学习数据的可解释表示,它模仿了人类在观察和理解事物的过程。作为一种通用的学习策略,解耦表征学习在大量的场景中,比如计算机视觉、自然语言处理、数据挖掘,证明了它在提高模型的解释性、可控性、鲁棒性以及泛化能力等方面的强大能力。**本文从动机、定义、方法、评价、应用等方面对解耦表征学习进行了全面的综述。本文还对解耦模型的设计进行了探讨,分析了不同场景下设计解耦表征学习模型的原则。**最后,本文讨论了当前解耦表征学习所面临的挑战以及未来可能的研究方向。我们希望这篇文章能够促进解耦表征学习相关研究。

https://www.zhuanzhi.ai/paper/2eba883e987ada96eb625dfdeabe8e02

1. 引言

当人类观察一个物体时,我们试图在一定先验知识的基础上理解这个物体的各种属性(如形状、大小和颜色等)。然而,现有的端到端的、黑盒的深度学习模型采用了直接学习对象的表征,来拟合数据分布和判别标准的捷径策略,而无法类人地提取数据生成的潜在因子。为了填补这一空白,一种重要的表征学习范式——解耦表征学习被提出,并继而引发了学术界的广泛关注。

**作为一种通用的学习范式,解耦表征学习泛指能够识别和解耦观察数据的潜在生成因子的机器学习模型。**现有文献证明了解耦表征学习能够像人类一样学习和理解世界的潜力。解耦表征学习也在计算机视觉、自然语言处理和数据挖掘等领域得到了广泛得到应用,证明了它在提高模型的解释性、可控性、鲁棒性以及泛化能力等方面的强大能力。

解耦表征学习旨在学习数据的潜在生成因子,并在表征空间为每个生成因子学习到互相解耦的隐变量,即为潜在生成因子学习到解耦的表征。以Shape3D数据集上的解耦为例,如下图,对于观察到的3D图形组合,我们需要识别并解耦物体大小、物体形状、物体颜色以及墙的背景色、地板颜色、观察角度这6个生成因子。 本文从动机、定义、方法、评价、应用等方面对解耦表征学习(DRL)进行了全面的综述。我们将DRL的方法分为四大类即,传统统计方法,基于变分自编码器的方法,基于生成对抗网络的方法以及其他方法;我们讨论了解耦表征学习在计算机视觉、自然语言处理和推荐系统等方面的应用;我们还为在不同场景下如何设计解耦模型提供了一些思考和见解;最后我们探讨了解耦表征学习未来的研究方向。

2. 定义

直观的定义。根据Bengio在提出解耦表征学习时给出的定义以及学术界广泛使用的定义,我们将常用的定义总结为:解耦表征学习应该分离数据中不同的、独立的和信息丰富的生成因子。单个隐变量对单个潜在生成因子的变化敏感,而对其他因子的变化保持不变。

除了直观的定义,也有人从群论和因果推断的角度给出了更为形式化的定义。

3. 方法

我们将DRL的方法分为四大类即,传统统计方法,基于变分自编码器的方法,基于生成对抗网络的方法以及其他方法,对每一种方法我们都阐述了其中的一些代表性工作。方法的分类如下图所示。

传统统计方法

传统的统计方法虽然没有深度架构,但一直以来都能有效地解耦向量空间中的潜在因子,其中以主成分分析和独立成分分析最具代表性。虽然这些浅层模型不是本文的重点,但我们仍然提供了简要的描述,以确保完整性。有兴趣的读者可以参考更多的统计文献。

基于变分自编码器(VAE)的方法

变分自动编码器(VAE)[16]是自动编码器的一个变种,它采用了变分推理的思想。VAE最初是作为图像生成的深度生成概率模型提出的。后来的研究人员发现VAE还具有学习简单数据集上解纠缠表示的潜在能力(例如,FreyFaces [16], MNIST[49])。为了获得更好的解纠缠性能,研究人员设计了各种额外的正则化子与原有的VAE损失函数相结合,形成了基于VAE的方法族。通用VAE模型结构如下图所示。

基于生成对抗网络(GAN)的方法

GAN (Generative Adversarial Nets)[17]作为Goodfellow等人提出的另一种重要的生成模型,引起了研究人员的广泛关注。GAN没有采用传统的贝叶斯统计方法,而是直接从先验分布p(z)中采样潜表示z。具体来说,GAN有一个生成网络(生成器)G和一个判别网络(鉴别器)D,其中生成器G模拟一个复杂的未知生成系统,将潜表示z转换为生成的图像,而鉴别器D接收一个图像(真实的或由G生成的)作为输入,然后输出输入图像为真实的概率。在训练过程中,生成器G的目标是生成可以欺骗鉴别器D的图像,使其相信生成的图像是真实的。同时,鉴别器D的目标是区分生成器G生成的图像与真实图像。因此,生成器G和鉴别器D构成了一个动态对抗性极大极小博弈。理想情况下,生成器G最终可以生成一个看起来像真实图像的图像,因此鉴别器D无法确定生成器G生成的图像是否是真实的。

层次方法

在实践中,许多生成过程自然涉及分层结构[70],其中变异因素具有不同层次的语义抽象,或跨层次依赖或独立。例如,在CelebA数据集[50]中,控制性别的因子比控制眼影的独立因子具有更高的抽象程度,而在Spaceshapes数据集[70]中,控制形状的因子和控制相位的因子之间存在依赖关系,例如,只有当物体形状等于“月亮”时,“相位”的维度才是活跃的。为了捕获这些层次结构,人们提出了一系列工作来实现层次解缠

4. 应用

**

**

鉴于解耦表征学习能够高效地学习可解释性、可控性和鲁棒性的表征,其被广泛运用于各类机器学习任务。 在图像和视觉领域,DRL往往被用于实现语义可控的图像生成及图像翻译。解耦的潜在生成因子有助于实现图像生成场景的连贯和稳健性,并进一步增强和图像生成的可控性和可用性。此外,DRL也被用于图像分类、图像检索、图像分割、事件检测、特征学习等任务。 除了静态图像,DRL也有助于视频分析任务,包括视频预测、视频检索和动作重定向(Motion Retargeting)等。 在自然语言处理领域,DRL被广泛地应用于文本表征学习、文本风格迁移。在此类任务中,解耦的对象往往是特定语义的、粗粒度的表征,例如解耦文本的词法和语义表征、语句的风格和内容表征等。此外,DRL也在文本语义匹配、社交文本分析、大语言模型分析中起到了有效的作用。 在推荐领域和图学习领域,DRL往往能够捕捉不同抽象层次的特征、学习不同领域的信息,并从错综复杂的关联关系中学习潜在因子,得到更本质的表征,因此也得到了极大的研究应用。 另外,在多模态场景下,DRL有助于实现不同模态表征的分离、对齐和泛化,因此被应用于跨模态表征学习、跨模态情感分析、文本驱动图像生成等多模态任务中。

5. 设计

基于对实际应用中普遍采用的解耦表征学习策略的讨论,我们提出了针对特定任务设计各种DRL模型的策略。我们总结了设计DRL模型的两个关键因素: 1)根据具体的任务设计恰当的表征结构,通常根据解耦的表征形式分为dimension-wise或vector-wise的表征结构; 2)设计相应的损失函数,鼓励表征被解耦,同时不损失特定任务的信息。对于损失函数的设计,我们将DRL模型分为生成式模型(generative model)和鉴别式模型(discriminative model)。简而言之,生成式模型注重学习过程中的解耦和重建,而鉴别式模型注重在解耦表征的基础上完成特定的下游任务。

6. 未来方向

最后,我们提出了一些解耦表征学习的潜在研究方向,包括: 1)多样化场景。在更多样化的场景和更复杂的数据集上对DRL进行理论性分析和评估。 2)多样的学习范式。除了基于VAE和GAN的范式外,使用更多的学习范式实现DRL模型。 3)可解释性和泛化性。继续在不同学习形式、不同任务上探究DRL的可解释性和泛化性。

成为VIP会员查看完整内容
62

相关内容

2021->2022必看的十篇「深度学习领域综述」论文
专知会员服务
112+阅读 · 2022年1月1日
专知会员服务
52+阅读 · 2021年7月30日
专知会员服务
22+阅读 · 2021年7月19日
专知会员服务
44+阅读 · 2021年3月19日
多模态视觉语言表征学习研究综述
专知会员服务
186+阅读 · 2020年12月3日
基于深度神经网络的少样本学习综述
专知会员服务
166+阅读 · 2020年4月22日
「基于课程学习的深度强化学习」研究综述
基于模型的强化学习综述
专知
17+阅读 · 2022年7月13日
「联邦学习隐私保护 」最新2022研究综述
专知
16+阅读 · 2022年4月1日
图像修复研究进展综述
专知
16+阅读 · 2021年3月9日
多模态视觉语言表征学习研究综述
专知
25+阅读 · 2020年12月3日
深度学习综述(下载PDF版)
机器学习算法与Python学习
27+阅读 · 2018年7月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年4月11日
Arxiv
19+阅读 · 2022年10月10日
VIP会员
相关VIP内容
2021->2022必看的十篇「深度学习领域综述」论文
专知会员服务
112+阅读 · 2022年1月1日
专知会员服务
52+阅读 · 2021年7月30日
专知会员服务
22+阅读 · 2021年7月19日
专知会员服务
44+阅读 · 2021年3月19日
多模态视觉语言表征学习研究综述
专知会员服务
186+阅读 · 2020年12月3日
基于深度神经网络的少样本学习综述
专知会员服务
166+阅读 · 2020年4月22日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员