Binary classification in the classic PAC model exhibits a curious phenomenon: Empirical Risk Minimization (ERM) learners are suboptimal in the realizable case yet optimal in the agnostic case. Roughly speaking, this owes itself to the fact that non-realizable distributions $\mathcal{D}$ are simply more difficult to learn than realizable distributions -- even when one discounts a learner's error by $\mathrm{err}(h^*_{\mathcal{D}})$, the error of the best hypothesis in $\mathcal{H}$ for $\mathcal{D}$. Thus, optimal agnostic learners are permitted to incur excess error on (easier-to-learn) distributions $\mathcal{D}$ for which $τ= \mathrm{err}(h^*_{\mathcal{D}})$ is small. Recent work of Hanneke, Larsen, and Zhivotovskiy (FOCS `24) addresses this shortcoming by including $τ$ itself as a parameter in the agnostic error term. In this more fine-grained model, they demonstrate tightness of the error lower bound $τ+ Ω\left(\sqrt{\frac{τ(d + \log(1 / δ))}{m}} + \frac{d + \log(1 / δ)}{m} \right)$ in a regime where $τ> d/m$, and leave open the question of whether there may be a higher lower bound when $τ\approx d/m$, with $d$ denoting $\mathrm{VC}(\mathcal{H})$. In this work, we resolve this question by exhibiting a learner which achieves error $c \cdot τ+ O \left(\sqrt{\frac{τ(d + \log(1 / δ))}{m}} + \frac{d + \log(1 / δ)}{m} \right)$ for a constant $c \leq 2.1$, thus matching the lower bound when $τ\approx d/m$. Further, our learner is computationally efficient and is based upon careful aggregations of ERM classifiers, making progress on two other questions of Hanneke, Larsen, and Zhivotovskiy (FOCS `24). We leave open the interesting question of whether our approach can be refined to lower the constant from 2.1 to 1, which would completely settle the complexity of agnostic learning.


翻译:经典PAC模型中的二分类问题呈现一个有趣现象:经验风险最小化(ERM)学习器在可实现情形下是次优的,但在不可知情形下却是最优的。粗略而言,这源于非可实现分布$\mathcal{D}$本质上比可实现分布更难学习——即使将学习器的误差减去$\mathrm{err}(h^*_{\mathcal{D}})$(即假设类$\mathcal{H}$中对于$\mathcal{D}$的最优假设误差)。因此,最优不可知学习器被允许在(较易学习的)分布$\mathcal{D}$上产生额外误差,其中$τ= \mathrm{err}(h^*_{\mathcal{D}})$较小。Hanneke、Larsen与Zhivotovskiy(FOCS `24)的最新研究通过将$τ$本身作为参数纳入不可知误差项来弥补这一缺陷。在此更细粒度的模型中,他们证明了误差下界$τ+ Ω\left(\sqrt{\frac{τ(d + \log(1 / δ))}{m}} + \frac{d + \log(1 / δ)}{m} \right)$在$τ> d/m$区域内的紧性,并留下开放问题:当$τ\approx d/m$时(其中$d$表示$\mathrm{VC}(\mathcal{H})$)是否存在更高的下界。本研究通过构造一个学习器解决了该问题,该学习器能以常数$c \leq 2.1$实现误差$c \cdot τ+ O \left(\sqrt{\frac{τ(d + \log(1 / δ))}{m}} + \frac{d + \log(1 / δ)}{m} \right)$,从而在$τ\approx d/m$时匹配下界。此外,我们的学习器具有计算高效性,其基于对ERM分类器的精心聚合,这同时推进了Hanneke、Larsen与Zhivotovskiy(FOCS `24)提出的另外两个问题。我们留下一个开放性问题:是否可以通过改进我们的方法将常数从2.1降至1,这将彻底解决不可知学习的复杂度问题。

0
下载
关闭预览

相关内容

IEEE TPAMI | 基于标注偏差估计的实例相关PU学习
专知会员服务
12+阅读 · 2021年10月23日
专知会员服务
16+阅读 · 2021年10月4日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
CNN 反向传播算法推导
统计学习与视觉计算组
30+阅读 · 2017年12月29日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
CNN 反向传播算法推导
统计学习与视觉计算组
30+阅读 · 2017年12月29日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员