本文除红色文字内容外,均来自网络。
(一)区间估计的思想
区间估计就是以一定的概率保证估计包含总体参数的一个值域,即根据样本指标和抽样平均误差推断总体指标的可能范围。它包括两部分内容:一是这一可能范围的大小;二是总体指标落在这个可能范围内的概率。区间估计既说清估计结果的准确程度,又同时表明这个估计结果的可靠程度,所以区间估计是比较科学的,它是本节阐述的重点。
用样本指标来估计总体指标,要达到100%的准确而没有任何误差,几乎是不可能的,所以在估计总体指标时就必须同时考虑估计误差的大小。从人们的主观愿望上看,总是希望花较少的钱取得较好的效果,也就是说希望调查费用和调查误差越小越好。但是,在其他条件不变的情况下,缩小抽样误差就意味着增加调查费用,它们是一对矛盾。因此,在进行抽样调查时,应该根据研究目的和任务以及研究对象的标志变异程度,科学确定允许的误差范围。
区间估计必须同时具备三个要素。即具备估计值、抽样极限误差和概率保证程度三个基本要素。抽样误差范围决定抽样估计的准确性,概率保证程度决定抽样估计的可靠性,二者密切联系,但同时又是一对矛盾,所以,对估计的精确度和可靠性的要求应慎重考虑。
在实际抽样调查中,区间估计根据给定的条件不同,有两种估计方法:①给定极限误差,要求对总体指标做出区间估计;②给定概率保证程度,要求对总体指标做出区间估计。
例6–6某企业对某批电子元件进行检验,随机抽取100只,测得平均耐用时间为1000小时,标准差为50小时,合格率为94%,求:
(1)以耐用时间的允许误差范围Δx=10小时,估计该批产品平均耐用时间的区间及其概率保证程度。
(2)以合格率估计的误差范围不超过2.45%,估计该批产品合格率的区间及其概率保证程度。
(3)试以95%的概率保证程度,对该批产品的平均耐用时间做出区间估计。
(4)试以95%的概率保证程度,对该批产品的合格率做出区间估计。
求(1)的计算步骤:
①求样本指标:
注:这应该是抽样平均误差,即标准偏差。
②根据给定的Δx =10小时,计算总体平均数的上、下限:
下限
上限
③根据t=Δx/μx=10/5=2,查概率表得F(t)=95.45%
由以上计算结果,估计该批产品的平均耐用时间在990~1010小时之间,有95.45%的概率保证程度。
注:博主认为该示例在标准差说法方面比较模糊。如果我们很清楚地知道标准偏差是5,50是总体标准差,我们就可以在Excel中很容易计算概率保证度:先用NORMDIST函数计算1010和990处的累积概率,两者之差就是概率保证度。
NORMDIST函数需要四个参数:
x - 需要计算概率的点
mean - 平均值
standard_dev - 标准偏差
cumulative - 是否计算累积概率
求(2)的计算步骤:
①求样本指标:
p=94%
注:通过总体合格率计算样本合格率的标准偏差
②根据给定的Δp=2.45%,求总体合格率的上、下限:
下限
上限
③根据t=Δp/μp=2.45%/2.38%=1.03,查概率表得F(t)=69.70%
注:同样可以在Excel中用NORMDIST函数来计算概率保证度。
由以上计算结果,估计该批产品的合格率在91.55%~96.45%之间,有69.70%的概率保证程度。
解:求(3)的计算步骤:
①求样本指标:
②根据给定的F(t)=95%,查概率表得t=1.96。
③根据Δx=t×μx=1.96×5=9.8,计算总体平均耐用时间的上、下限:
下限
上限
所以,以95%的概率保证程度估计该批产品的平均耐用时间在990.2~1009.8小时之间。
注:利用Excel的反正态分布函数NORMINV可以轻松地计算出耐用时间区间。该函数需要三个参数:
probability -概率;注意95%的置信区间表明上端概率为97.5%;下端为2.5%;
mean - 平均值
standard_dev - 标准偏差
求(4)的计算步骤:
①求样本指标:
p=94%
②下限p-Δp=94%-4.6%=89.4%
上限p+Δp=94%+4.6%=98.6%。
所以,以95%的概率保证程度估计该批产品的合格率在89.4%~98.6%之间。
(二)当2已知时,求μ的置信区间
例6–7某种零件的长度服从正态分布,从该批产品中随机抽取9件,测得它们的平均长度为21.4毫米,已知总体标准差为=0.15毫米,试建立该种零件平均长度的置信区间,假定给定置信水平为0.95。
解:已知X~N(μ,0.152),=21.4,n=9,1-α=0.95,因为 (6–13)
所以对于给定的置信水平0.95,有
。
当α=0.05时,Uα/2=1.96,于是有
即总体均值的置信区间为[21.302,21.498]。
我们有95%的概率保证该种零件的平均长度在21.302毫米和21.498毫米之间。
注:同样,先通过抽样数和总体标准差来计算样本标准偏差;然后用NORMINV函数计算区间。
例6–8 某保险公司自投保人中随机抽取36人,计算出此36人的平均年龄=39.5岁,已知投保人年龄分布近似正态分布,标准差为7.2岁,试求所有投保人平均年龄的置信区间(1-α=99%)。
解:已知,X~N(μ,7.22),=39.5岁,n=36,1-α=0.99,则
当α=0.01,有Uα/2=U0.01/2=U0.005=2.575,所以
,即总体的置信区间为[36.41,42.59]。有99%的把握保证投保人的平均年龄在36~42岁之间。
注:和上面的示例没有区别。
(三)当2未知时,求μ的置信区间
不知道总体方差时,一个很自然的想法是用样本方差来代替,这时,需要考虑的问题是,用样本方差代替总体方差后,统计量服从的是什么分布,以下定理给出了统计量T的分布形式。
定理设x1,x2,…xn,(n≥2)是来自总体N(μ,2)的一个样本,则
(6–14)
t分布具有如下特性:
1.t分布与标准正态分布相似,是以x=0为对称轴的钟形对称分布,取值范围是(-∞,+∞),但是t分布的方差大于1,比标准正态分布的方差大,所以从分布曲线看,t分布的曲线较标准正态分布平缓。
2.t分布的密度函数为
.
t分布的密度函数中只有一个参数,称为自由度。如果随机变量X具有以上形式的分布密度,则称X服从自由度为n的t分布,记为X~t(n)。随着自由度的增大,t分布的变异程度逐渐减小,其方差逐渐接近1,当n→∞时,t分布成为正态分布。
3.随机变量X落在某一区域内的概率,等于t分布曲线下,相应区域的面积,对于不同的n,同样的区域下的概率不同,见书后附表:t分布表。如n=10,X落入[-1.372,+1.372]区间的概率为0.9,而当n=20时,概率为0.9所对应的区间为[-1.325,+1.325];当n=30时,概率为0.9所对应的区间为[-1.31,+1.31]。
关于t分布的特性就讨论到此,现在回到如何应用t分布求解置信区间的问题,既然定理已经证明了统计量服从n-1个自由度的t分布,则对于给定的显著性水平α,不难找出tα/2(n-1),使得。于是得到以1-α置信水平保证的置信区间
例6–9某研究机构进行了一项调查来估计吸烟者一月花在抽烟上的平均支出,假定吸烟者买烟的月支出近似服从正态分布。该机构随机抽取了容量为26的样本进行调查,得到样本平均数为80元,样本标准差为20元,试以95%的把握估计全部吸烟者月均烟钱支出的置信区间。
解:已知=80,S=20,n=26,1-α=0.95
由于不知道总体方差,所以用样本方差代替。因为
注:利用样本方差计算样本标准偏差。
根据α=0.05,查阅t分布表得,t0.05/2(25)=2.06。
所以有
={80-2.06(3.92)<μ<80+2.06(3.92)}=0.95,即总体的置信区间为[71.92,88.08]。
有95%的把握认为吸烟者月均烟钱支出在71.92元到88.08元之间。
注:在Excel中没有现成的函数来计算该数据,用NORMINV函数计算出来的数据和上面的结果有所差异。
例6–10从某大学本科生中随机抽选100人,调查到他们平均每天参加体育锻炼的时间为35分钟,样本标准差为6分钟,根据以往调查记录,学生参加体育锻炼的时间近似服从正态分布,试以99%的概率估计该校本科生平均参加体育锻炼的时间。
解:已知X服从正态分布,且=35,S=6,n=100,1-α=0.99,不知总体方差用样本方差代替,所以统计量服从t(n-1)分布,查表得,t0.01/2(99)≈2.63,则有总体均值的置信区间为
=[35-2.63(6/10),35+2.63(6/10)]
=[33.422,36.578]
有99%的把握认为该校全体本科生平均每天参加体育锻炼的时间在33.422分钟到36.578分钟之间。
(四)单个非正态总体或总体分布未知,求U的置信区间
当总体为非正态分布,或不知总体的分布形式时,只要知道总体方差,则根据Lindeberg-Levy中心极限定理,当n很大时,统计量就近似服从标准正态分布,经验上,n>30就可以认为是大样本了。
例6–11设某金融机构共有8042张应收账款单,根据过去记录,所有应收账款的标准差为3033.4元。现随机抽查了250张应收款单,得平均应收款为3319元,求98%置信水平的平均应收款。
解:已知=3319元,n=250>30,1-α=0.98,=3033.4
因为近似服从标准正态分布,Uα/2=U0.02/2=2.33,则总体均值的置信区间为
根据调查结果,我们有98%的把握认为全部账单的平均金额至少为2871.99元,至多为3766元。
注:在Excel中使用反正态分布函数计算,参见前面的示例。
以上例题虽然不知总体分布形式,但总体的方差是已知的,而在实际中往往并不知道总体的方差,在实际应用中,只要是大样本,则仍然可以用样本方差代替统计量η中的总体方差,并以标准正态分布近似作为统计量η的抽样分布。
例6–12 某地区抽查了400户农民家庭的人均化纤布的消费量,得到平均值为3.3米,标准差为0.98米,试以95%的置信水平估计该地区农民家庭人均化纤布的消费量。
解:因为n=400是大样本,则有
Uα/2=U0.025=1.96,
P{3.3-1.96(0.049)<μ<3.3+1.96(0.049)}
=P{3.204<μ<3.396}=0.95
置们区间为[3.204,3.396]。
所以,有95%的把握认为该地区农民化纤布的消费量在3.204米至3.396米之间。
例6–13某无线电广播公司要估计某市65岁以上的已退休的人中一天时间里收听广播的时间,随机抽取了一个容量为200的样本,得到样本平均数为110分钟,样本标准差为30分钟,试估计总体均值95%的置信区间。
解:已知=110分钟,n=200>30,S=30,1-α=0.95,
=U0.025=1.96,则有置信区间
所以,有95%的把握认为该市65岁以上已退休的人每天收听无线电广播的时间在105.84分钟和114.16分钟之间。