We study an extension of the standard two-party communication model in which Alice and Bob hold probability distributions $p$ and $q$ over domains $X$ and $Y$, respectively. Their goal is to estimate \[ \mathbb{E}_{x \sim p,\, y \sim q}[f(x, y)] \] to within additive error $\varepsilon$ for a bounded function $f$, known to both parties. We refer to this as the distributed estimation problem. Special cases of this problem arise in a variety of areas including sketching, databases and learning. Our goal is to understand how the required communication scales with the communication complexity of $f$ and the error parameter $\varepsilon$. The random sampling approach -- estimating the mean by averaging $f$ over $O(1/\varepsilon^2)$ random samples -- requires $O(R(f)/\varepsilon^2)$ total communication, where $R(f)$ is the randomized communication complexity of $f$. We design a new debiasing protocol which improves the dependence on $1/\varepsilon$ to be linear instead of quadratic. Additionally we show better upper bounds for several special classes of functions, including the Equality and Greater-than functions. We introduce lower bound techniques based on spectral methods and discrepancy, and show the optimality of many of our protocols: the debiasing protocol is tight for general functions, and that our protocols for the equality and greater-than functions are also optimal. Furthermore, we show that among full-rank Boolean functions, Equality is essentially the easiest.


翻译:我们研究标准两方通信模型的扩展,其中Alice和Bob分别持有定义域$X$和$Y$上的概率分布$p$和$q$。他们的目标是对已知的有界函数$f$估计\[ \mathbb{E}_{x \sim p,\, y \sim q}[f(x, y)] \]至加性误差$\varepsilon$以内,我们将此称为分布式估计问题。该问题的特例出现在草图算法、数据库和学习等多个领域。我们的目标是理解所需通信量如何随函数$f$的通信复杂度及误差参数$\varepsilon$变化。随机抽样方法——通过对$O(1/\varepsilon^2)$个随机样本计算$f$的平均值来估计均值——需要$O(R(f)/\varepsilon^2)$的总通信量,其中$R(f)$是$f$的随机化通信复杂度。我们设计了一种新的去偏协议,将$1/\varepsilon$的依赖关系从二次改进为线性。此外,我们对包括相等函数和大于函数在内的多个特殊函数类展示了更优的上界。我们引入了基于谱方法和差异度的下界技术,并证明了许多协议的最优性:去偏协议对一般函数是紧的,且我们对相等函数和大于函数的协议也是最优的。进一步,我们证明在全秩布尔函数中,相等函数本质上是最简单的。

0
下载
关闭预览

相关内容

【NeurIPS2022】黎曼扩散模型
专知会员服务
42+阅读 · 2022年9月15日
专知会员服务
16+阅读 · 2021年10月4日
专知会员服务
25+阅读 · 2021年7月31日
专知会员服务
50+阅读 · 2021年6月2日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
【NeurIPS2019】图变换网络:Graph Transformer Network
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
条件概率和贝叶斯公式 - 图解概率 03
遇见数学
10+阅读 · 2018年6月5日
CNN 反向传播算法推导
统计学习与视觉计算组
30+阅读 · 2017年12月29日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【NeurIPS2022】黎曼扩散模型
专知会员服务
42+阅读 · 2022年9月15日
专知会员服务
16+阅读 · 2021年10月4日
专知会员服务
25+阅读 · 2021年7月31日
专知会员服务
50+阅读 · 2021年6月2日
相关资讯
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
【NeurIPS2019】图变换网络:Graph Transformer Network
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
条件概率和贝叶斯公式 - 图解概率 03
遇见数学
10+阅读 · 2018年6月5日
CNN 反向传播算法推导
统计学习与视觉计算组
30+阅读 · 2017年12月29日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员