在分层抽样时,先根据总体某项(或某数项)特征将总体分成若干“层”(strata,注意这里的各“层”之间并没有高低之别,所以更接近“组”的意思),并按其已知分布来确定每个层在样本中应占的比例。这在道理上很容易懂。难点在于对分层特征指标的选择。年龄、性别等个人特征并不合适,因为在一般条件下无法按这些特征而在从总体中直接随机抽取到被访者。相反,一些“群体”特征(如职业、地区等)更适合做分层指标。如将总体分成“制造业员工”、“服务业员工”、“文教医业员工”等行业,按各自在总体中的比例而确定抽样个数,然后再进一步抽样。我们来看一个具体实例。
我与两位朋友做过一个有关企业所有制对消费行为和媒体使用的影响的调查,用的就是类似分层抽样。首先,我们将全国30个省会城市按经济与社会发展程度分成高、中、低三“层”、分别随机抽取三个;在被抽取的九个城市中,将所有的企业按其所有制分成“国营”、“集体”、“股份”和“外资”四“层”;然后在每层中随机抽取5个企业(即每市20个企业、全国180个);最后到每个被抽中的企业中按员工花名册排序随机抽取20人(即全国3600人)。这里的第一、二步是分层抽样而最后一步是简单随机抽样。事实上,分层抽样大多是用于多阶段抽样的最初诸阶段,而最后一步则需用简单随机来完成。
配额抽样的第一步与分层抽样相似,但配额抽样一般就是用年龄、性别等个体特征做配额标准(这时它还是概率或抽样抽样),但接下来由每个调查员根据各自的配额,自主决定找到被访者。如,每个调查员需完成10个调查,其中5个男性、5个女性,各有青年2人、中年2人、老年1人(假定总体中就是如此分布的)。至于从何处抽到这10人,则完全由调查员决定。很显然,这一步不是随机的。因为调查员找的当然是出现在公共场合、并且容易接触的人。因此,那些人被抽中的概率远远大于那些不常出现在公众场合(如老人、病人、夜猫子、开私家车者等等)的人。当然这还不是问题的关键。致命伤是我们不知道前者与后者在总体中的比例,所以无法事后调整其概率。
总结一下,甄别一个样本是否为随机样本的主要标准是看其最后一步(即个人的被抽取的概率是否已知或可以被合理推测)。