一、基本原理:以现在确诊的患有某特定疾病的病人作为病例,以不患有该病但具有可比性的个体作为对照,通过询问,实验室检查或复查病史,搜集既往各种可能的危险因素的暴露史,测量并比较病例组与对照组中各因素的暴露比例,经统计学检验,若两组差别有意义,则可认为因素与疾病之间存在着统计学上的关联。在评估了各种偏倚对研究结果的影响之后,再借助病因推断技术,推断出某个或某些暴露因素是疾病的危险因素,而达到探索和检验疾病病因假说的目的。
暴露是指研究对象曾经接触过某些因素,或具备某些特征,或处于某种状态。这些因素、特征或状态即为暴露因素。暴露因素也叫研究变量。
二、病例对照研究的类型
1、病例与对照不匹配:在设计所规定的病例和对照人群中,分别抽取一定量的研究对象,一般对照数目应等于或多于病例人数。此外没有其它任何限制与规定。
2、病例与对照匹配:匹配或称配比即要求对照在某些因素或特征上与病例保持一致。匹配分为:A:频数匹配。匹配的因素所占的比例,在对照组与在病例组一致。如病例组中男女各半,则对照组中也如此。B:个体匹配:指以病例和对照的个体为单位进行匹配。1﹕1匹配又称配对,1﹕2、1﹕3、……1﹕R匹配时,称为匹配。配比的目的,首先在于提高研究效率。其次在于控制混杂因素。所以匹配的特征或变量必须是已知的混杂因子,或有充分的理由怀疑为混杂因子。
把不必要的项目列入匹配,企图使病例与对照尽量一致,就可能徒然丢失信息,增加工作难度,结果反而降低了研究效率。这种情况称为配比过度。
匹配的变量应当一致到什么程度,取决于变量的性质、实际可能与必要性。如果匹配的因素与暴露有联系,则会低估暴露与疾病的联系。匹配和匹配后按匹配因素进行分层分析,是控制匹配因素的混杂作用的必要途径。
病例对照研究的衍生类型:
1、巢式病例对照研究:在对一个事先确定好的队列进行随访观察的基础上,再应用病例对照研究(主要是匹配病例对照研究)的设计思路进行研究分析。
(1)方法:①确定某一人群作为研究队列;②收集队列内每个成员的相关信息和生物标本;③随访一段预定的时间;④确定随访期内发生的所研究疾病的全部病例组成;⑤用危险集抽样为每个病例抽取一定数量的对照组成对照组;⑥抽取已收集好的两组成员的相关信息和生物标本做必要的化验;⑦做统计分析计算率和OR;⑧获得研究结果并做出结论。
(2)类型:前瞻性和回顾性两类。①前瞻性巢式病例对照研究:在研究开始时根据一定的条件选择某一人群作为队列,然后前瞻性地随访一定的时间确定病例组和对照组,在时间特点为从现在到将来。②回顾性巢式病例对照研究:根据研究开始之前的一段特定时间的情况选择某一人群作为研究队列,根据现在的情况确定病例组和对照组,时间上特点为从过去到现在。
2.病例-队列研究:又称病例参比式研究,(1)基本原理:队列研究开始时,在队列中按一定比例随机抽样选出一个有代表性的样本作为对照组,观察结束时,队列中出现的所研究疾病的全部病例作为病例组。
3、单纯病例研究:为Piegorseh于1994年首先提出,也称病例病例研究,或病例系列研究。
4、病例交叉研究:1991年美国Maclure提出的,基本思想就是比较相同研究对象在急性事件发生前一段时间的暴露情况与未发生事件的某段时间内的暴露情况。如果暴露与少见的事件(或疾病)有关,那么刚好在事件发生前一段时间内的暴露频率应该高于更早时间内的暴露频率。例如,据报道某种药物可以引发猝死,如果该报道正确,则应该可以观察到服用此药物后一段时间内猝死增多,或者说在猝死前几天或几周内应有服药增多的报道。
5.病例-时间-对照设计:1995年Suissa提出的。基本思想:采用传统病例对照研究时,疾病严重程度造成的混杂往往不能完全控制。这是因为一般情况下,疾病的严重程度没有精确的测量方法,无法肯定疾病严重程度在病例和对照两组间分布一致。
三、病例对照研究的实施:
一般步骤:1.提出假设2.制定研究计划3.收集资料4.对收集到的资料进行整理与分析;5.总结并提出研究报告。具体实施如下:
(一)提出假设:根据所了解的疾病分布特点和已知的相关因素,广泛查阅文献基础上,提出病因假设。
(二)明确研究目的,选择适宜的对照形式。1、如果为广泛地探索疾病的危险因子,可以采用不匹配或频数匹配。2、根据提供研究用的病例的数量。若研究的是罕见病,或能得到的符合规定的病例数很少时,选择个体匹配方法。3、能否以较小的样本获得较高的检验效率。如1﹕R(或1﹕M)的匹配方法,R值不宜超过4。
(三)病例与对照的基本来源。有两个,1、医院的现患病人、医院、门诊的病案,及出院记录,称为以医院为基础的;2、社区、社区的监测资料或普查、抽查的人群资料,称为以社区为基础的。
1.病例的选择(1)疾病有明确统一、宽严适度的诊断标准。(2)对病例其它特征的规定:如性别、年龄、民族等。控制非研究因素增强可比性。在选择病例时有新发病例、现患病例与死亡病例三种。(3)保证使病例达到有关规定的标准:如要求通过某一级医院或实验室的诊断,或病人必须经过某项检查等。
2.对照的选择:对照来源主要有:(1)同一或多个医疗机构中诊断的其他病例;(2)病例的邻居或所在同一居委会的健康人或非该病病人;(3)社会团体人群中的非该病病例或健康人;(4)社区人口中的非病例或健康人群;(5)病例的配偶、亲戚、同事等。对照应当来自于产生病例的人群,能代表产生病例的人群。在医院为基础的病例对照研究中,常常不能识别源人群。此时,总人群的随机样本不一定与源人群的随机样本一致。当使用医院病例时,改进对照系列的一个方法是将对照限制为那些与暴露没有联系迹象的病人。
选择对照时必须考虑对照的代表性,对照与病例的可比性,以及可能出现的选择偏倚等。对照的选择应遵循四个目的:①排除选择偏倚;②缩小信息偏倚;③缩小不清楚或不能很好测量的变量引起的残余混杂(准确测量的混杂因素在分析阶段可以控制);④符合真实性要求和逻辑限制的前提下使统计学把握度达到最大。
(四)样本含量的估计:⒈ 影响样本大小的因素:(1)研究因素在对照组中的暴露率P0;(2)预期的该因素引起的相对危险度RR或暴露的比值比OR;(3)希望达到的检验显著性水平,即假设检验第I类错误的概率α;(4)希望达到的检验把握度(1-β),β为统计学假设检验第Ⅱ类错误的概率。⒉估计方法需注意:A、所估计的样本含量并非绝对精确的数值,因为样本含量的估计是有条件的,而这些条件并非是一成不变的。B、应当纠正样本量越大越好的错误看法。样本量过大,常会影响调查工作的质量,增加负担、费用。C、病例组和对照组样本含量相等时效率最高。
(五)获取研究因素的信息:1.变量的选定:取决于研究的目的或具体的目标。与目的有关的变量不但绝不可少(如吸烟与肺癌关系的研究中,有关调查对象吸烟或不吸烟的信息),而且应当尽量细致和深入(如还应调查吸烟持续的时间、每日吸烟量、烟的种类等)以获得较多的信息。2.变量的规定:每项变量都尽可能地采取国际或国内统一的标准。3.变量的测量:定性的指标可通过询问而获得是与否,经常、偶尔等信息。通过询问、仪器或实验室检查可获得定量的资料。
(六)资料的收集:主要靠询问调查对象填写问卷收集信息资料。有时需辅以查阅档案,采样化验,实地查看或从有关方面咨询获得。无论什么方法,都应实行质量控制。
五、数据资料的整理与分析:
(一)资料的整理:1.原始资料的核查修正、验收、归档2.原始资料的分组、归纳,或编码输入计算机。
(二)数据的分析
1.描述性统计(1)描述研究对象的一般特征:描述研究对象人数及各种特征的构成,例如性别、年龄、职业分布等。(2)均衡性检验:为检验病例组与对照组的可比性,比较病例组和对照组某些基本特征是否相似。
2.统计性推断病例对照研究中表示疾病与暴露之间联系强度的指标为比值比(oddsratio,又译比数比、优势比、交叉乘积比,简写OR)。所谓比值(odds)是指某事物发生的可能性与不发生的可能性之比。概率的分母中包括未发生事件数,而比值的分母中不包括未发生事件数。因此比值取值在0~∞之间,而概率取值在0~1之间。
相对危险度(relative risk)的本质为率比(rate ratio)或危险比(riskratio),即暴露组与非暴露组发病率之比,或发病的概率之比。但是病例对照研究不能计算发病率,所以病例对照研究中只能计算OR。OR的含义与相对危险度相同,指暴露组的疾病危险性为非暴露组的多少倍。OR>1说明疾病的危险度因暴露而增加,暴露与疾病之间为“正”关联;OR<1说明疾病的危险度因暴露而减少,暴露与疾病之间为“负”关联。但是,在不同患病率和不同发病率的情况下,OR与RR是有差别的。疾病率小于5%时,OR是RR的极好近似值。无论以暴露比值和非暴露比值计算,或是以有病比值和无病比值计算,比值比的结果都是一样的,OR恒等于ad/bc。
(1)不匹配不分层的资料分析 这是病例对照研究资料分析的基本形式。
1) 每个暴露因素可整理成表5-5的四格表形式
表5-5--5 病例对照研究资料整理表
暴露或特征 | 疾 病 | 合 计 | |
病例 | 对照 | ||
有 | a | b | a+b=n1 |
无 | c | d | c+d=n0 |
合计 | a+c=m1 | b+d=m0 | a+b+c+d=t |
2)利用χ2(卡方)检验,检验病例组与对照组两组的暴露率有无统计学的显著差异。
χ2=(ad-bc)2n/(a+b)(c+d)(a+c)(b+d)χ20.01(1)=6.63,如果χ2=>6.63,则p<0.01,结论为不能拒绝无效假设,即两组暴露率有统计学很显著差异。
3)计算暴露与疾病的联系强度OR。
p<0.01。理论上该检验应当与χ2检验的结论(即是否有统计学的显著意义)一致。
5)OR的可信区间(confidence interval, C.I.)前面计算的OR值是关联程度的一个点估计值,即用一次研究(样本人群)所计算出来的一次OR值。考虑到抽样误差,可按一定的概率(称为可信度)来估计总体OR的范围,即OR的可信区间,其上下限的值为可信限。
(2)不匹配分层资料分析
分层分析是把人群根据某特征分为不同层次(流行病学统计学的术语称为“层”),如按性别可分为男女,按年龄可分为20-39岁40-59岁及60岁及以上等,然后分别分析各层中暴露与疾病的关联。借以分层的因素是可能的混杂因素,通过分层可以调整这些因素的干扰。
1) 分层资料的整理
表5-7病例对照研究分层资料整理表
暴露特征 | i层的发病情况 | 合计 | |
病例 | 对照 | ||
有 无 | ai ci | bi di | n1i n0i |
合计 | m1i | m0i | ti |
以表5-4的数据为例,考虑到年龄与口服避孕药有关,也与MI有关,可能是个混杂因素。故可按年龄分层,分为<40岁和≥40岁两层,如下表按年龄分层的结果
<40岁≥40岁 | ||||||
服OC | 未服OC | 合计 | 服OC | 未服OC | 合计 | |
病例 对照 | 21(a1) 17(c1) | 26(b?SUB>1) 59(d1) | 47(m11) 76(m01) | 18(a2) 7(c2) | 88(b?SUB>2) 95(d2) | 106(m12) 102(m02) |
合计 | 38(n11) | 85(n01) | 123(n1) | 25(n12) | 183(n02) | 208(n2) |
OR1=2.80OR2=2.78
2) 计算各层的OR
OR1=(26×76)/(59×47)=2.80
OR2=(18×95)/(7×88)=2.78
两层的ORi均较不分层时OR大。
进一步分析在非暴露组年龄与MI的关联,见表年龄与MI 的关联
<40岁 | ≥40岁 | |
MI 对照 | 26 59 | 88 95 |
OR=0.48,χ2=7.27,说明年龄与MI有联系(小年龄有保护)。
再分析对照组中年龄与口服避孕药的关联,见表年龄与OC的关联
<40岁 | ≥40岁 | |
OC 对照 | 17 59 | 7 95 |
OR=3.91,χ2=8.89,说明年龄与口服避孕药也有联系。年龄也不是OC与MI联系的中间环节,故可以认为年龄是研究OC与MI关系时的混杂因素。这种情况下可以用分层分析方法控制年龄的混杂作用。
3) 计算总的OR值
4)计算总的卡方值
(3)分级暴露资料的分析:如能获得某暴露不同暴露水平的资料,可用来分析疾病和暴露的剂量反应关系,以增加因果关系推断的依据。
1) 将资料整理归纳成列联表为整理方便,该整理表中的a0与b0分别相当于前面四格表中的c与d。
表5-11病例对照研究分级资料整理表
暴露分级 | |||||||
0 | 1 | 2 | 3 | 4 | …… | 合计 | |
病例 对照 | a0(=c) b0(=d) | a1 b1 | a2 b2 | a3 b3 | a4 b4 | …… …… | m1 m0 |
合计 | n0 | n1 | n2 | n3 | n4 | …… | t |
2)做χ2(卡方)检验 自由度
3)计算各分级的OR值
(4)匹配资料的分析 成组资料的分析同非匹配资料。本节主要介绍1∶1配对资料的分析。
1)将资料整理成四格表
表5-13 1∶1配对病例对照研究资料整理表
对照 | 病例 | 对子数 | |
有暴露史 | 无暴露史 | ||
有暴露史 无暴露史 对子数 | a c | b d | a+b c+d |
A+c | b+d | t |
2)Χ2(卡方)检验用McNemar公式计算
Χ2=(b-c)2/(b+c)(5.13)
此公式适用于较大样本,对子数较少时用McNemar校正公式:
Χ2=(│b-c│-1)2/(b+c)(5.14)
(5)归因分值归因分值(attributable fraction, AF)也叫病因分值(etiologic fraction,EF)、归因危险百分比[attributable risk proportion(或percent),ARP]。
暴露人群的归因分值记为AFe,AFe=(Ie-Iu)/Ie=(OR-1)/OR(5.16)
式中Ie为暴露组发病率,Iu为非暴露组发病率。在病例对照研究中一般不能获得发病率,只能获得OR。AFe指暴露人群内某种疾病的发病中,由该暴露引起的发病占全部发病的比例。也即假如消除该暴露,暴露组发病降低的比例。人群归因分值记为AFP,AFP=(Ip-Iu)/ Ip=Pe(OR-1)/1+Pe(OR-1)(5.17)
式中Ip为总人群发病率,Iu非暴露组发病率Pe为人群的暴露率(或以对照组的暴露代替)。AFP反映暴露对人群发病的影响,表示该暴露引起的发病占全部发病的比例。也即假如消除该暴露后发病降低的比例。
归因分值是具有公共卫生意义的指标,它同时还代表人群中随机抽取一个病例可能因该暴露引起的概率。
(三)病例对照研究的功效
研究功效(power)也叫做把握度,可以解释为拒绝无效假设的能力,即当无效假设不成立时,该假设被拒绝的概率。以1∶1匹配病例对照研究资料的功效估计为例。例:假定人群中暴露于所研究的危险因素的比例P0=0.30,统计学双侧检验的显著性水平α=0.05,病例与对照各50例。计算该研究有多大的功效发现RR=2。首先计算Z值.功效=1-β=P(Z≤Zβ)(P为概率),计算出Zβ之后,根据标准正态分布查出小于Zβ时的概率,P1与计算样本量时相同。
七、病例对照研究中的偏倚及其防止
(一)选择偏倚(selectionbias):由于选入的研究对象与未选入的研究对象在某些特征上存在差异而引起的误差。常发生于设计阶段。
⒈入院率偏倚(admission rate bias)也叫Berkson偏倚。当利用医院病人作为病例和对照时,由于对照是医院的某一部分病人,而不是全体目标人群的一个随机样本,又由于病例只是该医院或某些医院的特定病例,因为病人对医院及医院对病人双方都有选择性,所以作为病例组的病例也不是全体病人的随机样本,所以难免产生偏倚,特别是因为各种疾病的入院率不同导致病例组与对照组某些特征上的系统差异。尽量采用随机选择研究对象,在多个医院选择对象等方法以减少偏倚程度。
2、现患病例-新发病例偏倚(prevalence-incidencebias) 又称奈曼偏倚(Neymanbias)。调查对象选自现患病例,可能得到很多信息可能只与存活有关,而未必与该病发病有关,从而高估某些暴露因素病因作用。另一种情况,某病的幸存者改变了生活习惯,从而降低了某个危险因素的水平,明确规定纳入标准为新发病例,或有可能做队列研究,同时将暴露程度、暴露时间和暴露结局联系起来做结论可减少偏倚程度。
3、出征侯偏倚(detection signal bias)也称暴露偏倚(unmaskingbias)。病人常因某些与致病无关的症状而就医,从而提高了早期病例的检出率,致使过高地估计了暴露程度,而产生的系统误差。如果延长收集病例的时间,使其超过由早期向中、晚期发生的时间,则检出病例中暴露者的比例会趋于正常。
⒋时间效应偏倚(time effectbias)慢性疾病,从开始暴露于危险因素到出现病变往往经历一个较长的时间过程。那些暴露后即将发生病变的人,已发生早期病变而不能检出的人,或在调查中已有病变但因缺乏早期检测手段而被错误地认为是非病例的人,都可能被选入对照组,由此产生的误差。在调查中尽量采用敏感的疾病早期检查技术,开展观察期充分长的纵向调查。
(二)信息偏倚(information bias):又称观察偏倚(observationbias)或测量偏倚(measurementbias),是在收集整理信息过程中由于测量暴露与结局的方法有缺陷造成的系统误差。
⒈回忆偏倚(recallbias)由于被调查者记忆失真或不完整造成结论的系统误差。选择不易为人们所忘记的重要指标做调查,并重视问卷的提问方式和调查技术,将有助于减少回忆偏倚。
⒉调查偏倚(investigation bias):可能来自于调查对象及调查者双方。病例与对照的调查环境与条件不同,或者调查技术、调查质量不高或差错以及仪器设备的问题等均可产生调查偏倚。采用客观指征、合适的人选参加调查、调查技术培训、复查等方法做好质量控制,检查条件尽量一致、检查仪器应精良、严格掌握试剂的要求等均可望减少偏倚。
(三)混杂偏倚(confoundingbias):当研究某个因素与某种疾病的关联时,由于某个既与疾病有制约关系,又与所研究的暴露因素有联系的外来因素的影响,掩盖或夸大了所研究的暴露因素与疾病的联系。这种现象或影响叫混杂(confounding)或混杂偏倚(confoundingbias),该外来因素叫混杂因素(confoundingfactor)。防止办法:在设计时利用限制的方法,配比的方法;资料分析阶段采用分层分析或多因素分析模型处理。
八、病例对照研究方法的优点与局限性
(一)优点:
⒈特别适用于罕见病的研究,有时往往是罕见病病因研究的唯一选择,因为病例对照研究不需要太多的研究对象,此时队列研究常常不实际。
2.虽有更多的机会发生偏倚和错误的推论,但是相对更省力、省钱、省时间,并且较易于组织实施。
3.该方法不仅应用于病因的探讨,而且广泛应用于许多方面,例如疫苗免疫学效果的考核及爆发调查等。
4、可以同时研究多个因素与疾病的联系,适宜于探索性病因研究。
(二)局限性:⒈不适于研究人群中暴露比例很低的因素,因为需要很大的样本量。⒉选择研究对象时,难以避免选择偏倚。⒊暴露与疾病的时间先后常难以判断。⒋获取既往信息时,难以避免回忆偏倚。