NeurIPS 2021 | 华为诺亚Oral论文：基于频域的二值神经网络训练方法

会员服务 ·

NeurIPS 2021 | 华为诺亚Oral论文：基于频域的二值神经网络训练方法

2021 年 12 月 17 日 PaperWeekly

©作者 | 机器之心编辑部

来源 | 机器之心

常规符号函数的梯度几乎处处为零，不能用于反向传播。为此，来自华为诺亚方舟实验室等机构的研究者提出一种在频域中估计原始符号函数梯度的新方法。

二值神经网络（BNN）将原始全精度权重和激活用符号函数表征成 1-bit。但是由于常规符号函数的梯度几乎处处为零，不能用于反向传播，因此一些研究已经提出尝试使用近似梯度来减轻优化难度。然而，这些近似破坏了实际梯度的主要方向。

基于此，在一篇 NeurIPS 2021 论文中，来自华为诺亚方舟实验室等机构的研究者提出使用傅里叶级数的组合来估计频域中符号函数的梯度以训练 BNN，即频域逼近 (FDA)。所提方法不影响占整体能量大部分的原始符号函数的低频信息，并且将高频系数使用噪声拟合模块 (noise adaptation module) 进行估计以避免大量的计算开销。

论文地址：

https://arxiv.org/pdf/2103.00841.pdf

在几个基准数据集和神经架构上的实验表明，使用该方法学习的二值网络实现了 SOTA 准确率。

数日前，在机器之心 2021 NeurIPS MeetUp China 上，论文一作许奕星为参会者解读了该论文，感兴趣的读者可以查看以下视频。

方法

该研究提出的 FDA 方法，通过利用傅里叶级数 (FS) 来估计频域中的原始符号函数，FS 估计是使用无穷项时符号函数的无损表征。在实际应用中，能量相对较低的高频系数会被忽略，以避免巨大的计算开销，并将符号函数表征为固定数量的不同周期正弦函数的组合。与现有的逼近方法相比，该研究所提出的频域逼近方法不影响原始符号函数的低频域信息，即占用符号函数能量最多的部分。因此，原始符号函数相应梯度的主要方向能够被更准确地保持。

在论文中，该研究对所提方法做了详细的理论表述。

论文中用 f(·)和 f’(·)来表示原始函数及其对应的梯度函数。由于符号函数的梯度是一个无法反向传播的脉冲函数，需要应用进化算法（evolutionary algorithm）等零阶算法来达到最优解，但这是非常低效的。因此该研究提出找到一个代理函数，通过一阶优化算法（如 SGD）依靠实验求解，而理论上具有与符号函数相同的最优解。

已有研究证明，任何周期为 T 的周期信号都可以分解为傅里叶级数的组合：

其中 ω = 2π/T 是角频率，α_0/2 是直接分量，

是正弦（余弦）分量的系数。具体来说，当周期信号呈方波时，有：

并推导出方波 s(t) 的 FS：

注意到当信号被限制在单个周期内时，符号函数与方波等同：

因此，符号函数也可以被分解为正弦（余弦）函数的组合，并且其导数如下：

然后，该研究提出使用上述等式 (8) 替换 STE 中的导数，以在反向传播期间更好地逼近符号函数。

当将信号从空间域转换到频域，使用无限项时，FS 分解是符号函数的无损表征，因此等式 (6) 可以重写为：

其中，n 是 FS 的项数，相应的导数是：

然后该研究进一步证明了随着 n 的增加，估计值

和 s(t)之间的均方误差会逐渐减小，并在 n → ∞ 时收敛到 0。

为了进一步补偿细微的逼近误差，该研究在训练阶段添加了一个噪声适应模块来细化梯度。

实验及结果

为了展示 FDA-BNN 优越的性能，该研究在 CIFAR-10 数据集上进行了评估实验，实验结果如下表所示。

消融实验

为了验证所提方法中每个组件的有效性、噪声适应模块和超参数的影响，该研究进行了一系列的消融实验。

首先，该研究使用 ResNet-20 架构在 CIFAR-10 上实验验证正弦模块和噪声适应模块的效果，结果如下表所示。

从上表的结果看，使用正弦模块可使训练过程受益，将准确率从 84.44% 提高到 85.83%。将正弦模块和噪声自适应模块组合在一起时得到了最佳性能，即 86.20% 的准确率。

为了进一步验证噪声适应模块的用途，研究者将该模块添加到其他梯度逼近方法中，例如 DSQ 和 BNN+，结果如下表所示。

然后该研究评估了不同 η(·) 对噪声适应模块的影响。结果如下表所示，使用 shortcut 时性能更好，并且 shortcut function η(x) = α sin(x) 在实验过程中表现最好。

在 ImageNet 上的实验

该研究进一步在大规模数据集 ImageNet ILSVRC 2012 上进行了实验，使用 ResNet-18 和 AlexNet 进行实验，结果如下表所示。

对于 ResNet-18，FDA-BNN 实现了 60.2% 的 top-1 准确率和 82.3% 的 top-5 的准确率，比基线方法（Bireal-Net + PReLU）高出 1.2% 和 1.0%，并超过所有其他方法。

当以 ReActNet 作为基线方法，并使用该研究所提方法计算符号函数的梯度， FDA-BNN 达到了 66.0% 的 top-1 准确率，86.4% 的 top-5 准确率，比基线方法分别高出 0.5% 和 0.3%。

对于 AlexNet，该研究使用 Dorefa-Net 中的量化方法作为基线方法，FDA-BNN 实现了 46.2% 的 top-1 准确率和 69.7% 的 top-5 准确率，并优于其他 SOTA 方法。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

符号函数

关注 0

【NeurIPS 2021 】为目标检测搜索参数化平均准确率损失函数

专知会员服务

19+阅读 · 2021年12月12日

【NeurIPS 2021】基于投影变换建模传递关系的知识图谱表示学习

专知会员服务

20+阅读 · 2021年12月3日

【NeurIPS 2021】寻找视觉Transformer的搜索空间

专知会员服务

14+阅读 · 2021年12月1日

结构化剪枝综述

专知会员服务

49+阅读 · 2021年11月18日

【ICML2021】元学习的分布依赖分析

专知会员服务

19+阅读 · 2021年8月15日

【NeurIPS 2020】对图神经网络更切实的对抗式攻击

专知会员服务

24+阅读 · 2020年11月5日

【NeurIPS 2020】耶鲁大学等提出「AdaBelief」的新型优化器，速度快，训练稳，泛化强

专知会员服务

18+阅读 · 2020年10月19日

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知会员服务

18+阅读 · 2020年10月18日

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

专知会员服务

26+阅读 · 2020年5月7日

【CVPR 2020 Oral-北大华为】只用加法的神经网络，重磅开源

专知会员服务

31+阅读 · 2020年4月6日

CVPR 2022 | 华为诺亚&北大提出量子启发MLP，性能超越Swin Transfomer

PaperWeekly

1+阅读 · 2022年3月23日

CVPR 2022 | 超越Swin！华为诺亚&北大提出Wave-MLP：视觉新主干网络

CVer

0+阅读 · 2022年3月22日

CVPR 2022 | 图像也是德布罗意波！华为诺亚&北大提出量子启发MLP，性能超越Swin Transfomer

极市平台

0+阅读 · 2022年3月16日

把大核卷积拆成三步，清华胡事民团队新视觉Backbone刷榜了，集CNN与ViT优点于一身

量子位

2+阅读 · 2022年2月23日

物尽其用，卷积和自注意力在Transformer中实现统一：多SOTA、ICLR 2022接收

机器之心

0+阅读 · 2022年1月29日

NeurIPS 2021 | 微软亚洲研究院机器学习领域最新研究一览

微软研究院AI头条

0+阅读 · 2021年12月8日

超越GPT-3！NormFormer：归一化提高预训练、缓解梯度不匹配

PaperWeekly

1+阅读 · 2021年12月2日

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知

13+阅读 · 2020年10月19日

CVPR 2019 | 微软亚洲研究院7篇精选论文解读

微软研究院AI头条

23+阅读 · 2019年6月18日

基于神经网络的无约束0-1二次规划全局最优算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于非独立同分布样本的统计学习理论研究与应用

国家自然科学基金

0+阅读 · 2014年12月31日

第一性原理蒙特卡罗壳模型对轻原子核的研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于深度神经网络的噪声鲁棒性语音识别方法研究

国家自然科学基金

4+阅读 · 2013年12月31日

基于非整数阶梯度的稀疏信号重构方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于变系数模型与函数逼近的非线性非平稳系统建模与预测研究

国家自然科学基金

0+阅读 · 2012年12月31日

实代数几何方法及其在多项式优化中的应用

国家自然科学基金

0+阅读 · 2011年12月31日

基于多速率滤波器组的OFDM雷达波形设计

国家自然科学基金

1+阅读 · 2011年12月31日

基于符号-数值混合计算的多项式优化问题的准确验证

国家自然科学基金

0+阅读 · 2009年12月31日

图的多项式研究及应用

国家自然科学基金

1+阅读 · 2008年12月31日

Parallel Newton-Krylov-BDDC and FETI-DP deluxe solvers for implicit time discretizations of the cardiac Bidomain equations

Arxiv

0+阅读 · 2022年4月20日

Graph-theoretic algorithms for Kolmogorov operators: Approximating solutions and their gradients in elliptic and parabolic problems on manifolds

Arxiv

0+阅读 · 2022年4月19日

Greedification Operators for Policy Optimization: Investigating Forward and Reverse KL Divergences

Arxiv

0+阅读 · 2022年4月18日

Automated Data Augmentations for Graph Classification

Arxiv

1+阅读 · 2022年4月18日

Optimal Coding Theorems in Time-Bounded Kolmogorov Complexity

Arxiv

0+阅读 · 2022年4月18日

An Upwind Generalized Finite Difference Method for Meshless Solution of Two-phase Porous Flow Equations

Arxiv

0+阅读 · 2022年4月18日

A New Dynamic Algorithm for Densest Subhypergraphs

Arxiv

0+阅读 · 2022年4月17日

GraphNorm: A Principled Approach to Accelerating Graph Neural Network Training

Arxiv

14+阅读 · 2021年2月16日

L^2-GCN: Layer-Wise and Learned Efficient Training of Graph Convolutional Networks

Arxiv

16+阅读 · 2020年3月30日

AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning

Arxiv

64+阅读 · 2020年2月28日

VIP会员