首发于趣分析
抽样入门:样本选择决定模型优劣

抽样入门:样本选择决定模型优劣

统计推断需要样本,模型的训练需要样本,预测决断的也需要样本;

这里一而再再而三的提到样本,因为样本是我们一眼可得的宏观世界的缩影,是探取自然,人类社会能量的探针,更是我们一叶之秋的信息索引。

那么 当人在有限的人力物力财力之下发挥能动性的个体筛选,基于个体特征来试图描述宏观总体的特征就是抽样的本质。

了解抽样的定义,我们就能很容易的知道抽样是一个大前提下的两大组成:在成本前提下的样本选择和总体推断。


1,样本选择

非概率抽样不依据随机原则具有主观性和误差难以计量的抽样方法,概率抽象遵循自然分布,随机均等的入样概率具有客观性和误差可以度量的抽样方法。

如下,非概率抽样过于在意样本本身的特殊性,概率抽样则忽略样本本身的特殊性,注重选择的客观随机,这样选择的样本的普遍性更能反映总体。

2,主要样本方法的介绍

2.1 简单随机抽样是指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。选择的方式有抽签,机数表法,直接抽选法。


2.2 分层抽样是从一个可以分成不同子总体(或称为层)的总体中,按规定的比例从不同层中随机抽取个体的方法。简单的例子:一个市作人口抽样,以县为层,按一定的比例抽取人员。

2.3 整群抽样是指整群地抽选样本单位,对被抽选的各群进行全面调查的一种抽样组织方式。例如,检验某种零件的质量时,不是逐个抽取零件,而是随机抽若干盒 (每盒装有若干个零件),对所抽各盒零件进行全面检验。


2.4 多阶段抽样是先将一个很大的总体划分为若干个子总体,即一阶单位,再把一阶单位划分为若干个更小的单位,称为二阶单位,照此继续下去划分出更小的单位,依次称为三阶单位、四阶单位等。然后分别按随机原则逐阶段抽样。


2.5 系统抽样法又叫做等距抽样法或机械抽样法,是依据一定的抽样距离,从总体中抽取样本。要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先规定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法。


3,总体推断

简单随机抽样是其他随机抽样的概率的基础,其他随机抽样是在简单随机抽样基础之上的发展。所以这里我们就用简单随机抽样的方式之下,用来描述总体推断的统计量。

3.1 总体均值

3.2 总体总值

3.3 总体比例(示性变量取值:0,1)

3.4 总体比率(两个总体总量或总体均值的比)

3.4 估计量的方差

4,结语

此文帮助大家全局的窥探的抽样,希望大家有一个全局的学习观;抽样方法的目的是为了提高估计总体特征的精度,而估计进度的因素依赖于:样本量,总体大小,总体方差。抽样具体的探究就是围绕着: 估计精度,样本量,总体大小,总体方差 四个主题的数学表达的理论推演。


一起加油吧


至此也感谢你的认真拜读,喜欢点个赞就好

感谢你的阅读,关注公.众.号:趣味数据周刊,后台回复:idw007,可以获取文章数据。 和志同道合的伙伴一起学习统计学,数据分析,机器学习,走向人生巅峰,有问题可以撩我;很乐意为你效劳。

编辑于 2019-10-16 12:46