本文系根据国内外文献阅读整理而成。
我们对样本进行研究,常常是为了推论到某个人群,推论的准确性问题,即研究的真实性的问题。研究的真实性包括内部真实性和外部真实性。内部真实性是指从当前的研究中得到的结果能够能否正确地反映目标人群(源人群、参考人群)的真实情况,外部真实性是指从当前的研究结果能否准确地推论到目标人群以外的其他人。内部真实性是外部真实性的先决条件,通常所说的真实性往往指的是内部真实性。
任何研究的目的都是为了发现真相。广义上讲,任何一项流行病学研究都可以看作是一种测量,而测量就不可避免地导致偏离真相,即测量误差。因此,流行病学研究设计的核心是如何精确测量,而流行病学研究设计的基本原则是如何尽量减少测量误差。在流行病学中,威胁真实性,从而导致错误结论的原因有哪些呢?Szklo和Nieto认为,原因包括偏倚(选择偏倚、信息偏倚)、混杂和机会的作用三个方面;而更多的学者则把混杂看作为偏倚的一个类型。
一般地讲,误差是真实值与研究结果(实际测量值)之差,是事物的某一特征或状态的度量值偏离真值的部分。这一真实值可以是理论估计值、总体的实际测量结果、多个群体的平均水平或者是类似群体的参考值。对真实值的测量要倚赖于金标准。误差包括随机误差和系统误差。随机误差是由于抽样过程产生的,而系统误差则是由于在研究设计(研究的本身方法学问题、设计的缺陷问题)以及实施过程中的失误所致。流行病学调查性性研究中的系统误差又称偏倚。
流行病学的研究对象实际上是样本人群。因此,我们认定,任何流行病学研究都存在抽样误差。因为只要是流行病学研究,不管是否提及抽样,它的目的都是为了由样本推论至总体。因此,即使研究对象是总体的全部人群,也意味着将外推至另一更大的总体。因此,统计学上所谓的“如果以研究个体的集合而不是样本为研究对象,则不存在抽样误差”的说法显然并不适用于流行病学研究。
一、随机误差
随机误差是流行病学研究中的精确度的问题。由于流行病学研究中难以避免随机误差,因此,精确度只是相对的。随机误差主要与个体间的变异程度、抽样方法以及样本大小有关。在流行病学中,常常主要是通过增加样本量来减少随机误差。由于在统计学上,样本大小的确定往往仅与研究设计、总体特征、检验水准以及把握度有关,因此看起来,这似乎是个纯统计学的问题。然而事实上,流行病学研究中样本量的确定是一个精确度与成本的关系的问题。往往,成本越高,精确度越大;成本越低,精确度越小。而在研究成本一定,即样本量一定的前提下,如何提高精确度呢?这实际上是一个研究效率的问题。即样本量一定时,如何获取更多的信息。
是否可以通过匹配来提高研究效率呢?匹配可以增加信息量,但是相应的也会增加研究成本。而且,匹配可能引入新的混杂,反而会在一定程度上降低研究效率。因此,可以通过两种途径来判断:
(1)比较研究所获的信息量与样本大小的相对关系;
(2)比较研究所获的信息量与成本大小的相对关系。
信息量和样本的关系实际上是信息量和成本的关系,因此,在实际工作中,样本量有时“显得”不是那么重要了。
二、系统误差
系统误差是测量结果系统的偏离真实值。它是流行病学研究中的真实性的问题。通常把流行病学研究中的各种系统误差称为偏倚,是任何导致错误估计的系统的过程。在描述性研究中,偏倚发生在测量疾病(或暴露)的发生时;在分析性研究中,偏倚发生在测量暴露和疾病的关联时。偏倚包括正偏倚和负偏倚;或者趋于无效假设(towardsthe null)、远离无效假设(away from the null)、颠倒(switchoverbias)。设真实值为OR、RR,研究值为OR*,RR*,则有:对正偏倚OR*>OR,RR*>RR;对负偏倚OR*<OR,RR*<RR。
偏倚包括三种类型:选择偏倚、信息偏倚和混杂偏倚。下面将会详细地介绍这三种偏倚。