概率抽样方法:
1. 随机抽样(random sampling):从有限总体中简单随机抽样或从无限总体中随机抽样。
具体实现方式:a. 抽签法;b. 随机数字法
2. 分层抽样(stratified sampling):将总体单位按某种特征或某种规则划分为不同的层(Strata), 然后从每一层中随机抽取一定量的抽样单位,组成样本。如果层内的个体是同质的,那么在相对小的样本容量下可以获得层特征的一个好的估计。
3. 整群抽样(cluster sampling):将总体划分成若干个群组, 抽样时直接随机抽取群组, 这些群组中的所有抽样单位即为样本。在理想状态下,每一个群是整个总体小范围内的代表。
4. 系统抽样(systematic sampling):将总体中的所有抽样单位按一定的顺序排列,等分成n个部分,先在第一个部分内随机抽取1个抽样单位, 然后等距离在其他部分分别抽取1个抽样单位,组成样本。
注:随机抽样又可以有两种方式:无放回抽样(sampling without replacement),有放回抽样(sampling with replacement)。
注:概率抽样方法即从总体中选出的个体以已知的概率入选样本。
非概率抽样方法:
方便抽样(convenience sampling):用总体中便于取得的一些抽样单位作为样本。
判断抽样(judgement sampling):由对研究总体非常了解的人主观确定总体中他认为最具代表性的个体组成样本。
抽样的步骤:
1. 确定你的目标总体(target population)
2. 确定抽样的单位(sampling units)
3. 确定抽样的框架(sampling frame):如何对每个抽样单位做标记
抽样偏差(Sampling Bias):每个个体被抽到的概率不一样,有偏向性。
例:
1948年美国总统大选,民主党的候选人是杜鲁门,共和党则是杜威。一家报纸进行了一次电话民调,抽样估计谁会赢。经过大量的电话统计显示,投给杜威的票数要比投给杜鲁门的票数多,所以这家报纸就在选举结果还没公布之前,信心满满地发表了“Dewey Defeats Truman”的报纸头版,认为杜威肯定赢了。
然而,实际上获胜的是杜鲁门!造成这个反转的原因,不是因为编辑弄错,也不是运气不好,而是因为电话很贵,所以抽样到的都是有钱人,而当年正好有钱人是杜威的票仓。也就是说样本选择偏向于有钱人那边,不具有广泛的代表性,才造成杜威支持率更多的假象。
对于机器学习来说,如果数据抽样是有偏的,学习得到的结果也是有偏的。因此,要了解测试环境,进而让训练环境与测试环境尽量接近。