Winograd convolution is the standard algorithm for efficient inference, reducing arithmetic complexity by 2.25x for 3x3 kernels. However, it faces a critical barrier in the modern era of low precision computing: numerical instability. As tiles scale to maximize efficiency (e.g., F(6,3), F(8,3)), the condition numbers of standard integer based transforms explode, reaching kappa = 2 x 10^5 for F(8,3), rendering them unusable in FP16 or Int8. We introduce NOVA (Numerical Optimization of Vandermonde Arithmetic), a discovery framework that breaks the decades old convention of integer interpolation. Treating Winograd point selection as a continuous optimization problem, NOVA searches the manifold R^n-1 via Evolution Strategy, snaps candidates to simple rationals, and guarantees correctness via symbolic verification. This process uncovers a hidden landscape of stable, fractional configurations such as {+-5/6, +-7/6, +-3/5} that defy traditional vocabulary constraints. The impact is transformative: NOVA improves the conditioning of F(8,3) by 415x in 1D, which squares to a 172,484x improvement for 2D convolution. In real world FP16 ImageNet inference, where standard transforms collapse to random chance (e.g., 4.7 percent accuracy on VGG16), NOVA's points restore full accuracy (75 to 78 percent), recovering over 70 percentage points without retraining, calibration, or learned parameters. These discovered transforms act as drop in replacements, effectively unlocking the efficiency of large tile Winograd convolution for next generation hardware.


翻译:Winograd卷积是高效推理的标准算法,可将3×3卷积核的算术复杂度降低2.25倍。然而,在当今低精度计算时代,它面临着一个关键障碍:数值不稳定性。随着计算块尺寸为提升效率而扩大(例如F(6,3)、F(8,3)),基于标准整数的变换条件数急剧增长,F(8,3)的条件数可达κ=2×10^5,导致其在FP16或Int8精度下无法使用。我们提出了NOVA(范德蒙算术数值优化),这是一个打破数十年整数插值惯例的发现框架。通过将Winograd点选择视为连续优化问题,NOVA在流形R^n-1上通过进化策略进行搜索,将候选点规整至简单有理数,并通过符号验证保证正确性。该过程揭示了一个稳定分数配置的隐藏空间,例如{±5/6, ±7/6, ±3/5},这些配置突破了传统词汇表约束。其影响是变革性的:NOVA将一维F(8,3)的条件数改善了415倍,在二维卷积中该改善效果平方放大至172,484倍。在实际FP16精度的ImageNet推理任务中,标准变换的性能会退化至随机水平(例如VGG16准确率降至4.7%),而NOVA的点配置能恢复完整准确率(75%至78%),在不进行重新训练、校准或学习参数的情况下挽回超过70个百分点的性能。这些发现的变换可作为即插即用方案,有效释放大尺寸Winograd卷积在下一代硬件上的效率潜力。

0
下载
关闭预览

相关内容

【ICML2021】具有线性复杂度的Transformer的相对位置编码
专知会员服务
25+阅读 · 2021年5月20日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员