拟合优度检验法:
可以用来检测抽样结果与特定分布函数的吻合程度,也可以用来测试离散的二维变量的独立程度。
实例演示:某家啤酒厂生产三种类型的啤酒分别是淡啤酒、普通啤酒和黑啤酒。在一次对三种啤酒的市场份额的分析中,公司市场研究小组提出了一个问题:男性与女性饮酒者对于三种啤酒的偏好是否存在差异?请对下表的调查数据,进行分析后回答问题。
性别 | 淡啤酒 | 普通啤酒 | 黑啤酒 | 合计 |
男性 | 20 | 40 | 20 | 80 |
女性 | 30 | 30 | 10 | 70 |
合计 | 50 | 70 | 30 | 150 |
步骤1:提出假设:性别与啤酒偏好相互独立,即,其中i代表性别(1:男,2:女),j代表啤酒偏好(1:淡啤酒,2:普通啤酒,3:黑啤酒),,,为实际对应的i行j列的抽样数据,r为抽样的总数在此为150。
步骤2:计算实际统计量与假设的理论值差量,运用公式,其中为实测频数为假设的理论频数,针对此题的假设公式可以变形为,通过计算可以得到以下数据:
性别 | 实际频数() | 期望频数() | ||
男性 | 淡啤酒 | 20 | 26.67 | 1.67 |
普通啤酒 | 40 | 37.33 | 0.19 | |
黑啤酒 | 20 | 16 | 1.00 | |
女性 | 淡啤酒 | 30 | 23.33 | 1.91 |
普通啤酒 | 30 | 32.67 | 0.22 | |
黑啤酒 | 10 | 14 | 1.14 | |
合计 | 150 | 150 |
步骤3:确定自由度和显著水平并进行最终决策。自由度的选择是当假设的理论分布F(X)中有r个未知参数时,则自由度应为(k-r-1),此题的假设理论分布为二维分布且无未知参数,故自由度=(n-1)(m-1)。通常取定显著水平,进而通过查表得知临界值,对和进行比较若假设成立,反之则假设不成立,另外还可视为相关性,其值越大则说明相关性越高。此题存在=6.13>5.99 ,因此假设不成立并得出结论性别和啤酒偏好之间存在依赖关系。
常用参数的分布表如下:
n | 0.1 | 0.05 | 0.02 | 0.01 |
1 | 2.70554 | 3.84146 | 5.41189 | 6.63490 |
2 | 4.60517 | 5.99146 | 7.82405 | 9.21034 |
3 | 6.25139 | 7.81473 | 9.83741 | 11.34487 |
4 | 7.77944 | 9.48773 | 11.66784 | 13.27670 |
5 | 9.23636 | 11.07050 | 13.38822 | 15.08627 |
6 | 10.64464 | 12.59159 | 15.03321 | 16.81189 |
7 | 12.01704 | 14.06714 | 16.62242 | 18.47531 |