估计概率分布的准确性和样本数量有何关系？

Question

估计概率分布的准确性和样本数量有何关系？

当已知概率分布的时候，如果我们要对这个概率进行参数估计，会先按照这个分布进行多次采样，再将采样值带入分布参数的计算式，最后计算得到具体分布的参数。但…

关注者

89

被浏览

21,776

登录后你可以

不限量看优质回答私信答主深度交流精彩内容一键收藏

查看全部 5 个回答

已知分布类型，对某个参数的进行估计已经有人说了 Cramer-Rao bound 了。我就说一下未知概率分布类型。对于未知概率分布类型，就是信息论领域研究的 Property Estimation ，Distribution Estimation ，Property Testing 问题。并且这类问题近一两年和 Communication complexity 结合起来，研究分布式的情形。分布式情形下即考虑 Communication complexity c 和某个误差度量下的估计准确度 \epsilon 的 trade off。

对于未知概率分布，通过 n 个独立同分布样本对该分布的某个性质进行估计，研究样本数量 n 和某个误差度量下的估计准确度 \epsilon 的 trade off 的问题应该叫 Property Estimation 。信息论里面常见的性质有熵，支撑集，互信息量等。（其他回答里面的 hoeffding inequality 属于估计分布的均值）

对于未知概率分布，利用 n 个独立同分布样本对该分布进行估计，研究样本数量 n 和某个误差度量下的估计准确度 \epsilon 的 trade off 的问题应该叫 Distribution Estimation。

对于未知概率分布，通过 n 个独立同分布样本判断该分布是否具有某种性质，判断该分布具有这种性质或者远离这个性质。研究样本数量 n 和某个误差度量下的估计准确度 \epsilon 的 trade off 的问题应该叫 Property Testing 。比如判断该分布是不是均匀分布，是不是等于某个给定分布(identity testing)，概率密度函数是不是monotone的等。

注：Property Testing 在理论计算机科学里面也有研究，但是一般不是判断某个 Distribution 具有某种性质，而是判断某个 function （一般看成黑盒，只能通过 query 得到 function 的值）是不是具有某种性质考虑 query complexity 和接受或拒绝概率。比如经典的 BLR Test ，判断一个 function 是不是 linear 或者近似 linear 的。当然，这两个研究是有关系的，这个以后补充。

由于篇幅关系，本篇回答主要简单介绍一下离散分布的 Distribution Estimation 的两个例子。

推荐资料：

首先是定义，考虑一个随机变量 X ，其取值域为离散集合 \mathcal{X} ，其概率分布为 p(x) , x \in \mathcal{X} ， |\mathcal{X}| = k 。对于 X_1 ,...X_n 为独立同分布的随机变量，其概率分布为 p(x^n) = \prod_{i=1}^{n}p(x_i) ,(x_1,...x_n) \in \mathcal{X^n} 。

Distribution Estimation 问题就是给定样本 x^n \sim p(x^n) ，我们需要找到一个分布 q=q(x^n) ， q\in \Delta_k 。要求 q 在 ”某个度量“ 下最接近 p 。

”某个度量“ 我们先考虑 Min-Max Criterion , 即 r_{k,n}^L = \min \limits_{q} \max \limits_{ p \in \Delta_k} E_{X^n \sim p} [L(p,q(X^n))] 。我们选取 q，使得对于任意 p ，最小化 Loss function L 的期望， r_{k,n}^L 就用来衡量估计的准确度。其中 Loss function L 有多种选择：

\mathcal{l}^2_2: || p - q||_2^2 = \sum_{i}^k(p_i - q_i)^2 ，

\mathcal{l}_1: || p - q||_1 = \sum_{i}^k|p_i - q_i| ，

KL-Divergence ： D(p||q) 。

一个很自然的想法就是根据频率估计分布 p ( Empirical Estimator ) ，给定样本 x^n ,我们计算 i\in \mathcal{X} 在 x^n 中出现的频数： T_i = |\{j\in [n]:x_j = i\}| ，则 q_i(x^n) = \frac{T_i}{n} 。显然， q_i(x^n) \geq 0 , \sum_i q_i(x^n) = 1 。我们知道 E[T_i] = np_i , Var(T_i) = E(T_i - np_i)^2 = np_i(1 - p_i) 。

但是在某些 Loss function 下，这并不是最优的估计。

对于 Loss function \mathcal{l}^2_2 ， r_{k.n}^{q^{emp}}= E[\sum_{i=1}^k (\frac{T_i}{n} - p_i)^2] = \sum_{i=1}^k \frac{Var(T_i)}{n^2} = \sum_{i=1}^k \frac{p_i(1 - p_i)}{n} = \sum_{i=1}^k \frac{1 - \sum_{i=1}^kp_i}{n} \leq \frac{1 - \frac{1}{k}}{n} 。

即：在 Min-Max Criterion 和 Loss function为 \mathcal{l}^2_2下，我们用 n 个独立同分布的样本利用频率（Empirical Estimator ）去估计分布 p，要求期望的估计误差小于 \epsilon下，我们的样本数目 n \approx \Theta(\frac{1 - \frac{1}{k}}{\epsilon}) 。

但是在 Loss function \mathcal{l}^2_2 下，如果我们采用 在频率的基础上 Add constant 的方法，可以得到更优甚至最优的估计。考虑 q_i^{+ \sqrt{n} / k}(x^n) = \frac{T_i+ \sqrt{n}/k}{n + \sqrt{n}} 。即将每个 i \in \mathcal{X} 的频数加上一个常数 \sqrt{n}/k 。我们可以证明 : r_{k.n}^{q^{+\sqrt{n}/k}}= E[\sum_{i=1}^k (\frac{T_i+ \sqrt{n}/k}{n + \sqrt{n}} - p_i)^2] = \frac{1 - \frac{1}{k}}{(\sqrt{n}+ 1)^2}。

并且这是最优的。我们可以证明 r_{k,n} = \min \limits_{q} \max \limits_{ p \in \Delta_k} E_{X^n \sim p} [\sum_{i=1}^k (p_i - q_i(x^n))^2 ] \geq \frac{1 - \frac{1}{k}}{(\sqrt{n}+ 1)^2} 。

对于 Loss function \mathcal{l}_1 ，Empirical Estimator 则是最优的： r_{k,n} = \min \limits_{q} \max \limits_{ p \in \Delta_k} E_{X^n \sim p} [\sum_{i=1}^k |p_i - q_i(x^n)| ] ,15 年的时候，[KOPS15] 证明了：

其中当采用 Empirical Estimator 估计时，
r_{k.n}^{q^{emp}}= E[\sum_{i=1}^k |\frac{T_i}{n} - p_i|] = \sum_{i=1}^k \sqrt{E[ |\frac{T_i}{n} - p_i|^2]} \leq \sqrt{\frac{k-1}{n}} 。可以达到下界。

于是，我们有以 Loss function 为 \mathcal{l}_1 距离下去通过 Empirical Estimator 估计 p ，在估计的期望误差小于 \epsilon 情况下，我们需要 n = \Theta(\frac{k -1 }{\epsilon^2}) 个样本。

对于 Loss function KL-Divergence，同样采用在频率的基础上 Add constant 的方法，可以证明当 n \rightarrow \infty 则 \frac{k}{n} \rightarrow 0 时， q^{+\frac{3}{4}} 是最优的[BS04]。当 n \rightarrow \infty 则 \frac{k}{n} \rightarrow 0 时， q^{+{log \frac{n}{k}}} 是最优的 [Paninski 04]。

在 Min-Max Criterion下，我们对于给定分布 p ，在 Loss function 标准下得到最优的 Estimator。但是我们可以发现对于不同的分布 p 和 Loss function，我们的估计并不是那么稳定。并且，上述 Add constant 的方法的最坏情况分布是在实际中很少遇到的均匀分布，因此 Add constant 的方法在实际中的性能很差。实际中，通常会使用其他估计器，如 absolute-discounting，cross-validation based estimators ， Good-Turing estimator 。

虽然 Good-Turing based estimators 广泛应用于实践中，但是理论最近才得到解释。

\Delta_k 为所有可能分布的集合。用 P 将 \Delta_k = \cup_jP_j 做 partition。我们改用 Competitive distribution estimation ：

r^P_{n,k} = \min \limits_{q} \max \limits_{j}[\max \limits_{p\in P_j} L(p,q) - \min \limits_{q'}\max \limits_{p'\in P_j} L(p',q')]

即对于每个区域 P_j 的最优估计 q' ，我们优化 q 使得与所有 q' 的最大距离最小。

其他的，有空再写吧。

待填的坑有：

1）Competitive distribution estimation

2) Property Estimation

3) 分布式 Property Estimation

4）Property Testing

编辑于 2019-12-04 14:14

查看全部 5 个回答