如何训练你的准确率？

2022 年 6 月 8 日 PaperWeekly

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

最近 arXiv 上的一篇论文《EXACT: How to Train Your Accuracy》[1] 引起了笔者的兴趣，顾名思义这是介绍如何直接以准确率为训练目标来训练模型的。正好笔者之前也对此有过一些分析，如《函数光滑化杂谈：不可导函数的可导逼近》[2]、《再谈类别不平衡问题：调节权重与魔改 Loss 的对比联系》等，所以带着之前的研究经验很快完成了论文的阅读，写下了这篇总结，并附上了最近关于这个主题的一些新思考。

失实的例子

论文开头指出，我们平时用的分类损失函数是交叉熵或者像 SVM 中的 Hinge Loss，这两个损失均不能很好地拟合最终的评价指标准确率。为了说明这一点，论文举了一个很简单的例子：假设数据只有三个点，-1 和 1 分别代表负类和正类，待拟合模型是 f(x)=x-b，b 是参数，我们希望通过来预测类别。如果用“sigmoid + 交叉熵”，那么损失函数就是代表一对标签数据；如果用 Hinge Loss，则是。

由于只是一个一维模型，我们可以直接网格搜索出它的最优解，可以发现如果用“sigmoid + 交叉熵”的话，损失函数的最小值在 b=0.7 取到，而如果是 Hinge Loss，那么。然而，如果要通过完全分类正确，那么才行，因此这说明了交叉熵或 Hinge Loss 与最后评测指标准确率的不一致性。

看上去是一个很简明漂亮的例子，但笔者认为它是不符合事实的。其中，最大的问题是模型设置温度参数，即一般出现的模型是而不是，刻意去掉温度参数来构造不符合事实的反例是没有说服力的，事实上补上可调的温度参数后，这两个损失都可以学到正确的答案。更不公平的是，后面作者在提出自己的方案 EXACT 时，是自带温度参数的，并且温度参数是关键一环，换句话说，在这个例子中，EXACT 比其他两个损失好，纯粹是因为 EXACT 有温度参数。

新瓶装旧酒

然后我们来看论文所提出的方案——EXACT（EXpected ACcuracy opTimization）。从事后来看，EXACT 很是莫名其妙，因为作者是直接不加任何解释地从重参数的角度重新定义了一个条件概率分布：

其中是一个向量网络，是一个标量网络，跟维度相同，每个分量是独立同分布地从采样得到。关于用重参数来定义概率分布的做法，我们在上一篇文章《从重参数的角度看离散概率分布的构建》已经讨论过，这里不重复。

紧接着，有了这个新的，作者直接以

作为损失函数，全文的理论框架基本上到此结束。

由此，我们可以总结 EXACT 的莫名其妙之处了。在《从重参数的角度看离散概率分布的构建》我们知道，从重参数角度来看，Softmax 对应的噪声分布是 Gumbel 分布，而 EXACT 换成了正态分布，那么好在哪？为什么会好？这些全无解释。

此外，式 (2) 的相反数是准确率的光滑近似，这本已“广为人知”，但同时也有一个广为人知的结论是在 Softmax 情况下直接优化式 (2) 的效果通常都是不如优化交叉熵的，现在只是换了一个“新瓶”（新概率分布的构建方法）装“旧酒”（同样的准确率光滑近似），真的就能有提升吗？

实验难复现

原论文给出了非常惊人的实验结果，显示 EXACT 几乎总是 SOTA：

然而，笔者根据自己的理解尝试实现了 EXACT，并在 NLP 任务上测试，结果显示 EXACT 完全不能达到“Softmax+交叉熵”的水平。此外，原论文还提到优化会比 (2) 更好，但笔者的结果是该变体连 (2) 都比不上。总的来说，笔者的测试结论与原论文是大相径庭的。

由于原论文还没有开源代码，因此笔者还不能对论文实验的可靠性做进一步的判断。但从笔者的理论理解和初步的实验结果来看，直接优化式 (2) 是很不可能达到优化交叉熵的效果的，仅仅修改构建概率分布的方式，应该很难形成实质的提升。如果读者有新的实验结果，欢迎进一步交流分享。

一个新视角

从数值上来比较，式 (2) 确实比交叉熵更贴合准确率。但为什么优化交叉熵往往能获得更好的的准确率？笔者原来也百思不得其解，在《再谈类别不平衡问题：调节权重与魔改 Loss 的对比联系》中，笔者设置将它视为“公理”来使用，实属无奈。

直到有一天，笔者突然意识到了一个关系：随着训练，多数会慢慢接近于 1，于是可以用近似得到：

于是我们就能解释为什么优化交叉熵也能获得很好的准确率了，因为从上式我们可以发现，交叉熵优化到中后期跟式 (2) 基本是等价的，也就是同样在优化准确率的光滑近似！

那交叉熵相比式 (2) 的好处在哪呢？差别就在于当时，与的差距。当时，即目标类的概率很小，意味着分类可能很不准确，这时候给出的是一个会趋于无穷大的结果，但最多就只能给出 1。这样一比较，我们就发现交叉熵的对错误分类的样本的惩罚更大，因此它会更倾向于修正分类错误的样本，同时最终分类结果又跟直接优化准确率的光滑近似相近。

由此，我们可以得到一个优秀的损失函数的新视角：

首先寻找评测指标的一个光滑近似，最好能表达成每个样本的期望形式，然后将错误方向的误差逐渐拉到无穷大（保证模型能更关注错误样本），但同时在正确方向保证与原始形式是一阶近似。

文章小结

本文主要讨论了如何优化准确率的问题，其中先简单介绍和评述了一下最近的论文《EXACT: How to Train Your Accuracy》[1]，然后就“为什么优化交叉熵能获得更好的准确率结果”给出了自己的分析。

参考文献

[1] https://arxiv.org/abs/2205.09615

[2] https://kexue.fm/archives/6620

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

交叉熵

关注 4

交叉熵（Cross Entropy）是Shannon信息论中一个重要概念，主要用于度量两个概率分布间的差异性信息。语言模型的性能通常用交叉熵和复杂度（perplexity）来衡量。交叉熵的意义是用该模型对文本识别的难度，或者从压缩的角度来看，每个词平均要用几个位来编码。

IJCAI2022 Oral: 探究和解释图像分类任务中存在的频域偏见

专知会员服务

12+阅读 · 2022年5月12日

【NeurIPS 2021 】为目标检测搜索参数化平均准确率损失函数

专知会员服务

17+阅读 · 2021年12月12日

KDD'2021 | 如何评估GNN的解释性模型？

专知会员服务

32+阅读 · 2021年10月4日

【ICML2021】二值化网络（BNN）训练与优化

专知会员服务

14+阅读 · 2021年7月24日

训练深度学习模型，46页ppt

专知会员服务

51+阅读 · 2021年6月17日

【ICLR2021】通过多种自监督方式提升GAT中注意力

专知会员服务

43+阅读 · 2021年2月27日

【ICLR2021】对未标记数据进行深度网络自训练的理论分析

专知会员服务

25+阅读 · 2021年2月22日

神经网络不work？看下这份《训练神经网络实用技巧》，3页pdf

专知会员服务

54+阅读 · 2020年12月29日

解决非线性逆问题的新型深度神经网络，30页ppt，University of Helsinki

专知会员服务

22+阅读 · 2020年4月29日

Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新ImageNet准确率

专知会员服务

35+阅读 · 2020年3月11日

剪掉ImageNet 20%数据量，模型性能不下降！Meta斯坦福等提出新方法，用知识蒸馏给数据集瘦身

量子位

0+阅读 · 2022年7月4日

训练1000层的Transformer究竟有什么困难？

PaperWeekly

0+阅读 · 2022年3月13日

为什么我的模型准确率都 90% 了，却不起作用？

InfoQ

0+阅读 · 2022年2月12日

为什么我的模型准确率都90%了，却不起作用？

AI前线

0+阅读 · 2022年2月7日

WSDM‘21 | 如何增加GNN的鲁棒性?

图与推荐

1+阅读 · 2021年12月10日

两概率分布交叉熵的最小值是多少？

PaperWeekly

0+阅读 · 2021年11月6日

KDD'21 | 如何评估GNN的解释性模型？

图与推荐

1+阅读 · 2021年9月30日

干货——图像分类（下）

计算机视觉战队

14+阅读 · 2018年8月28日

keras系列︱深度学习五款常用的已训练模型

数据挖掘入门与实战

10+阅读 · 2018年3月27日

如何找到最优学习率？

AI研习社

11+阅读 · 2017年11月29日

高维回归模型的预测稳定性研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于网络拓扑结构的蛋白质相互作用数据质量控制与预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于似然函数的统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

两样本稀疏不平衡观测的纵向数据中的检验问题

国家自然科学基金

1+阅读 · 2013年12月31日

高维数据下多因变量回归模型的统计推断

国家自然科学基金

5+阅读 · 2013年12月31日

面向多类图像分类的众包主动学习方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

高维数据的图模型学习与统计推断

国家自然科学基金

8+阅读 · 2012年12月31日

函数数据降维及相关问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

多级评分认知诊断的测验设计、模型开发及施测方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于二维随机映射和一范数优化的有监督图像分类研究

国家自然科学基金

3+阅读 · 2011年12月31日

On basis set optimisation in quantum chemistry

Arxiv

0+阅读 · 2022年7月25日

On the Last Iterate Convergence of Momentum Methods

Arxiv

0+阅读 · 2022年7月24日

A Universal Trade-off Between the Model Size, Test Loss, and Training Loss of Linear Predictors

Arxiv

0+阅读 · 2022年7月23日

Correlation Clustering with Sherali-Adams

Arxiv

0+阅读 · 2022年7月22日

DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale

Arxiv

0+阅读 · 2022年7月21日

Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation

Arxiv

13+阅读 · 2020年7月3日

已删除

Arxiv

31+阅读 · 2020年3月23日

Class-Balanced Loss Based on Effective Number of Samples

Arxiv

12+阅读 · 2019年1月16日

Bayesian Convolutional Neural Networks

Arxiv

19+阅读 · 2018年6月27日

Deep Metric Learning with BIER: Boosting Independent Embeddings Robustly

Arxiv

18+阅读 · 2018年1月15日

VIP会员