抽样调查方法
抽样调查:是一种非全面调查,它是环境科学统计调查中应用最广的一种调查方法,它根据随机化的原则,从总体中抽取一定数量的观察单位组成样本,然后用样本来推论总体,用样本指标来估计总体参数。抽样调查比普查设及的观测单位少,因此节省人力、财力和时间,而且可以获得比较深入细致和准确的资料。有许多环境问题即不安可能.也不必要进行普查,而抽样调查正是最常用的方法。抽样调查最重要的是如何取得对总体有比较好的代表性的样本,这是抽样调查的着重点之一。因此,应当妥善解决以下问题:怎样进行随机抽样? 即应当针对调查对象的不同特点采用不同的抽样方法,决定抽样的容许误差和样本含量。凡是列入样本的观察单位切勿漏查,但是,也不要轻易用别的观察单位来代替。当漏查过多时,可能会影响样本的代表性。因此,应当分析漏查原因。可以从全部漏查者中抽取“漏查样本”对漏查者的特征进行分析,必要时用“漏查样本”对观察到的样本进行校正。抽样调查还可以用于检查普查的质量。但是,抽样调查的设计,实施和资料分析比较复杂,重复和遗漏不易发现,也不适用于变异过大的资料。
1. 抽样方法
在上文中已提及,抽样调查首先要从总体中抽取一定数量的观察单位组成样本,而样本的代表性是关键,因此,必须进行周密的抽样设计。一个良好的抽样设计方案,一方面应当具备研究问题中涉及观察对象所必需的专业知识;另一方面根据研究目的与观察对象的性质,决定抽样方法、样本含量的大小、抽样地点、抽样时间等。总之,抽样必须遵循随机化的原则,才能获得对总体有较好的代表性的样本,并通过样本信息推断总体。随机抽样的方法有多种,较常用的方法有:单纯随机抽样、系统抽样、分层抽样、整群抽样、阶段抽样以及时序抽样等。可以根据研究设计的要求及人力、物力等实际情况加以选择。抽样就必然会有抽样误差,抽样误差的大小用标准误来衡量。
1.1 单纯随机抽样
也称为简单随机抽样,是最基本的抽样方法,也是其他抽样方法的基础。其优点是均数(或率)及标准误的计算简便;缺点是当总体含量较大时,要对观察单位一一编号,甚为麻烦,在实际工作中有时难于办到。本方法适用于一些较单纯的现象,例如,观察单位在总体中分布较均匀时(如实验动物的分配、医院病历的抽样等),还可结合其他抽样方法运用。
单纯随机抽样是先将被研究的各观察单位编号,再用随机数字表或抽签、摸球、计算机抽 取等方法进行抽样。
1.2 系统抽样
又称为机械抽样、间隔抽样、等距抽样、顺序抽样,是按一定顺序(与研究现象无关)机械地每隔若干个观察单位抽取一个观察单位作调查。例如,进行环境流行病学调查,要从1000户中抽取10%作为样本。可以先在门牌号1~10号之间随机抽一户,譬如5号住户,其后每间隔10号抽一户,即抽取5、15、25、35、…、995号等户,共100户。本方法常用于调查研究,优点:简便易行,样本的观察单位在总体中分布均匀,因此,可以使样本对总体有较好的代表性。在一般情况下,比单纯随机抽样法的抽样误差小。缺点:①当总体的观察单位按顺序有周期趋势或单调增(或减)趋势,则系统抽样将会产生明显的偏性。即必须注意据以编号的特征是否有一定的周期性,如某街道门牌,双号朝南。单号朝北,如果抽样间隔与周期有关,又总是抽到单号,那么对某些指标,可能会出现较大的偏性。②尚无可靠的方法来估计系统抽样法的抽样误差。在实际工作中,一般按单纯随机抽样处理,但抽取各观察单位并不是彼此独立的。在下列情况下系统抽样仍然是可取的:
1.2.1 按抽样顺序,观察单位的分布基本上是随机的。
1.2.2 在阶段抽样中,只在后阶段使用系统抽样;在分层抽样中,每层独立用系统抽样。
1.3 分层抽样
也称为类型抽样。先按某种特征(即与所研究现象有关的因素)将总体分为若干组别、类型或区域等(统计学上通称为“层”),再按一定比例从每一层内进行随机抽样,组成样本,最后计算样本指标(如样本均数),作为总体指标(如总体均数)的估计值。此样本均数的抽样误差与总体中各层均数的大小无关。而各层内部的标准差越小,样本均数的抽样误差也越小。因此,在分层时,应当尽量使每一层内观察值的变异度小些。例如,在一个较大的地区进行调查某项指标,可以划分平原、山区、沿海等几个层,再按各层的比例随机抽样。这样就可以使每层中观察值的变异度小些,样本的代表性加强,各层之间还可作比较分析。
1.4 整群抽样
也称为地区抽样法。前面所述的几种抽样方法都是直接从总体中随机抽取若干观察单位组成样本。而整群抽样是以整群作为抽样单位,每一整群包括若干观察单位,对所抽取的整群中的观察单位全部加以调整。例如,表—25.6是随机抽取部分村,估计人口的年龄、性别构成。本方法易于组织,适用于群间差异较小的对象,差异过大将失去其代表性。在实际工作中,虽然常常试想以观察单位为抽样单位(因为样本观察单位广泛地散布于总体中,当含量确定时,其抽样误差常小于整群样本),但往往缺乏现存可靠的观察单位名单。如果要编制这种名单是很费事的,而地域区划,业务单位,社会集团等,则是范围清楚的可利用的调查“群”。再者,即使有了观察单位名单,仍常常从便于组织调查、节约经费上考虑(因为后者涉及的调查面小得多),而宁愿采用整群抽样。在整群抽样过程中,群间差异越小,抽取的“群”越多,精密度就越好。因此,在样本含量确定后,宜增加抽样的“群”数,而相应减少群内的观察单位数。
1.5 阶段抽样
又称为多阶段抽样。在实际工作中,阶段抽样应用较多。例如,研究大气污染,可使用阶段抽样,第一阶段抽城市,第二阶段抽市区,第三阶段抽监测点,第四阶段抽取样品。因为:
1.5.1 在实际工作中往往存在可供阶段抽样使用的自然分段,如城市的市—区—居委会—办事处;农村的县—乡—村—村民组;企业的厂—车间—班组等。
1.5.2 当样本含量确定后,阶段抽样的观察单位在总体中较分散,可以取较大的整体提高精密度。
此方法应当注意各阶段的连续性。各阶段的抽样多用单纯随机抽样法,也可以几种抽样方法结合应用。
1.6 时序抽样
为了掌握总体在不同时间的变化,如反复观察同一样本(同一批观察单位),则容易影响其对总体的代表性。因此,在一定时期对时序总体进行连续抽样,可以使样本不断得到更换。更换样本的方式有:
1.6.1 每次全部更新样本的观察单位。
1.6.2 每次部分更换样本的观察单位。
1.6.3 后次样本仅仅包括前次样本的一定比例。长期随访观察常用此方法。
2. 抽样误差
从同一总体随机抽取若干含量相等的样本,计算得到的样本指标往往不尽相等。这种由于抽样产生的样本指标(即统计量)与总体指标(即参数)之间的差异称为抽样误差。由于观察单位之间存在着个体差异,样本又未包含总体的全部信息,因此,抽样误差是不可避免的。显然,抽样误差越小,样本对总体的代表性越好。如果用不同的抽样方法从同一总体中抽取含量相等的样本,则抽样误差也各不相同。一般来说,各种方法的抽样误差由大至小依次为:
整群抽样>单纯随机抽样>系统抽样>分层抽样
如果用同一种抽样方法,则抽样误差的大小主要取决于观察单位之间的变异程度和样本含量的大小。变异程度越小,样本含量越大,则抽样误差越小;反之,变异程度越大,样本含量越小,抽样误差越大。
3. 样本含量的估计
在抽样研究中,每个样本所包含的调查或受试对象数量称为样本含量。在统计研究的抽样设计中,要考虑样本含量的问题。样本含量过少,所得的指标不够稳定,抽样误差大,结论的可靠性也差;样本含量过多,会增加实际工作中的困难,对条件的严格控制也不易做到,并且会不必要地浪费人力、物力和时间。因此,样本含量的估计是在保证研究结论具有一定可靠性的条件下,确定最少的调查单位或实验数。
样本含量的估计方法可分为两类:一类是作参数估计时的样本含量估计;另一类是作指标比较时,显著性检验中的样本含量估计。样本含量的估计可先凭经验作一大概估计,然后用相应的公式计算。例如,一般认为确定背景值或正常值范围最好在100例以上。肿瘤死亡率的调查通常要在10万人口以上。估计人口年龄、性别构成的抽样,一般抽取1/10的人口。通常计量资料样本含量可小些,而计数资料应当大些;观察单位之间变异度小的,样本含量可小一些,变异度大的应当大些;影响因素较单纯的(如观察对象为实验动物),样本含量可小一些,较复杂的(如观察对象为人),样本含量就应当大一些等等。
注:附表—6u界值表(标准正态分布的分位数简表)