谢邀!
前言:生统流病PhD,Szklo的Epidemiology Beyond the Basics 和Rothman的Modern Epidemiology两本书翻黑了。对于这个学科算是有一点点概念,写下来跟大家共同探讨。对于完全没有接触过这个学科的朋友,希望这篇文章能有助于你了解这个学科大概是干什么的。而学过的朋友,有助于重新梳理一遍知识结构。文短情长,挂一漏万,就请不要纠结我这个没讲那个没提了:)
这篇文章不会具体到每一个很细的概念,重点是梳理这门学科内主干知识之间的关系,努力呈现一个整体的形态。它将以risk为核心,组织流行病学这个学科的知识体系,兼顾提及生物统计的一点知识。当然也有其他的组织方法,本文仅是个人观点。
另外,文章里面的术语都是英文,其他都尽量用中文表达。一方面是我不知道对应的中文术语是什么,另一方面,某些术语翻译得实在有点烂,内心吐槽很久。
Part 1. 流行病学是什么 ?
流行病学(Epidemiology,简称Epi),首先要澄清这并不仅仅是关于“流行的疾病”的科学。Epidemiology源自希腊语(epi=upon,demos=common people,logy=study),意指“关于民众中间发生了什么的学科”。古时的老百姓最关心的是生老病死,所以这个学科自诞生之日就与健康相关。公认的开山祖师是古希腊医生希波克拉底,因为他是目前已知第一个研究疾病与环境之间关系的人,尽管理论和方法都与现在相差甚远。随后的漫长岁月,有一些著名医生(Villalba,Fracastoro,Thomas Sydenham等等)各自对这个学科做了贡献,但总体而言发展很慢。如此直到19世纪,John Snow的出现。John Snow是公认的现代流行病学的创建者。他的事迹,详见我的另一个回答:
目前统计学在国内外的发展现状是怎样的?都有哪些分支?今后的研究方向大致是向哪里走? - 姜大山的回答
一个年轻有为的医生,John Snow,这时已经是伦敦皇家外科医学院和伦敦皇家内科医学院的双料成员,盯上了这个问题。他不太相信空气传播霍乱的说法,认为水里携带的细菌才是主因。他用几年时间,走遍伦敦进行调研和病情记录,绘制了一系列的点图。
这就很大程度上挑战了“空气传染”说,因为如果是空气传染的话,霍乱的发生应该是比较均匀的才对。同时这个研究也提供了很强的证据支持霍乱是水传播的。就在图的中心,Snow将传染源锁定为一个公共抽水机(从被污染了的泰晤士河里取水),并说服政府将抽水机挪走。尽管这个研究后来还有一些波折,这里按下不表,无论如何,Snow的工作大大开拓了当时的研究视野。
Snow对于伦敦霍乱问题的研究,启发了一代统计学家和医生。自他以后,对于健康现象及其原因的研究开始飞速增长,流行病学终于成为我们今天看到的模样。
流行病学,是研究一切健康现象与其原因之间的关系的学科。Wikipedia上对epi的定义是研究健康现象和疾病的“patterns,causes,and effects”,Szklo在书里说epi是健康状态和健康事件的“distribution and determinants”的学科。其实都一样,对象是健康现象和它的原因,核心是它们之间的关系,这个关系经常用风险Risk来描述。我们通过搞清楚各种分布、趋势、决定因素和作用,实现控制健康风险的目的。
可以这样进行简单的梳理:以risk为核心,我们定义了一些基本的指标;为了测量这些指标,我们发明了一系列的实验设计和统计方法;因为这些实验和方法有可能受到各种各样的干扰,所以才有了bias, confounding和effect modification的研究来分析这些干扰来自什么地方;正是为了抵消这样的干扰,我们才有了matching,stratification和adjustment等手段。总之在某种意义上,出发点是risk,落脚点也是risk。通过对真实的risk的追求,我们清楚了事物之间的因果关系,在这个基础上,我们才有可能采取措施,控制那些原因,达到维持人类健康的目的。下文一一论述。
Part 2. 什么是 Risk ?
Risk顾名思义指风险,在流行病学里指“发生某种健康问题的风险”,也就是发生某种健康问题的可能性。健康问题不一定是疾病,也可能是肥胖,吸烟,喝酒,吸毒等等。
Risk的测量是来自于对以往事件的统计,这体现了一个基本的思想:过去是什么风险水平,未来的“一段时间之内”仍然“很有可能”面临同样的风险水平,除非我们使用一些手段去改变现状。
Risk有两个最基本的指标:incidence 和 prevalence。Incidence指的是人群中“新的”的健康事件发生的比率(incidence = number of new events / population at risk),是最直接反映risk的指标。比如,A市今年发生了比去年更多的感冒事件,那么今年的incidence就比去年高,也就意味着今年面临着更大的感冒的风险。
Incidence有两个地方一定要明确指出:必须统计new events,以前发生的不算;必须是population at risk,那些与risk无关的人口不算。比如,统计上海今年的感冒incidence,那么去年及以前的感冒事件就不必计入,非上海居民也不必计入。
Incidence有几种:cumulative incidence,incidence proportion,incidence density。区别在于对分母的处理:简单来说,考虑人口的变动,就是第一个,如何考虑,有各种correction技术;不考虑人口的变动,就是第二个;将每一个人在统计期内停留的时间考虑在内,就是第三个。不能说某一种绝对比其他的好用,要根据具体问题具体分析,这里就不展开了。
第二个基本的指标是prevalence,人群中现存的健康事件相对于人群中所占的比例(existing events / population)。分为两种: point prevalence和period prevalence。前者是某一个时间点上的数据,后者则是某一个时间段内的数据(需要根据人口的波动来调整分母)。各有各的用处。比如得病时间长的疾病,用point prevalence就可以估测出真实情况,取数据方便又便宜。而对于得病时间短的疾病,则应选用period prevalence,比如感冒,如果只在一个时间点上测量prevalence,那么那些得了感冒又痊愈了的人,就不会被计算在分子内,这显然低估了真实的风险。
如果人群A患感冒的比例高于B人群,我们倾向于相信A人群有更高的感冒的“风险”。但这只是“倾向于”,并不意味着我们一定会这么认为。玄机在于existing events是一个存量的概念,而incidence涉及的new events是一个流量的概念。我们更关心的是流量,是新事件。如果一种疾病在现有人群中所占比例很高,但是再也不发生新的病例了,那么这种病对我们来说,就是低风险甚至无风险的,反正再也不会有人得病了嘛。反之,如果一种疾病目前在人群中比例很低,但是每年都有大量新病例发生,这就是高风险。所以在risk的两个基本指标中,incidence是主要使用的,prevalence是辅助使用的,incidence和prevalence的类型要根据情况选用最合适的。这一点一定要搞清楚,因为使用的指标并不是越多越好!我们使用它们,究其根本还是为了揭示真实的“风险”水平。
Part 3. 如何使用 Risk 来表达 exposure 与 outcome 之间的关系 ?
上一部分反复举例,就是在比较不同人群的risk。Risk 不同,意味着某个人群遭遇过使他们更容易得病的一种原因。所以我们要引入两个新的东西:exposure和outcome。Exposure 不一定是致病(或治病)的主要原因,但有可能是增加(或降低)风险的原因,比如吸烟增加了得肺癌的风险,或者一种新型手术降低了得肺癌之后死亡的风险,等等。
由于一群人经受了exposure,而另一群人没有,两组人面临的risk往往是不同的。如何衡量这种不同呢?我们有这么几种基本的指标:
1. Relative Risk (也叫Risk Ratio,RR)。两组的risk相除即得到relative risk。
2. Attributable Risk (AR)。两组的risk相减即可。
3. Odds Ration (OR)。Odds是一个人群中得病人数与未得病人数之比值,而OR是两个人群的Odds的比值。
4. Rate Ratio (也简称RR)。常常把Rate Ratio与Relative Risk混为一谈,但实际上还是有细微的差别。Rate Ratio是两个Rate之间的比值,而这个rate可以是任何rate,不一定指risk。比如常用的一个指标是prevalence rate ratio,这里rate指的是prevalence rate,并不是risk。
各个指标还有不同的变形,比如AR有Percent AR(%AR),Population AR(PAR),和Percent Population AR (%PAR)。OR又根据实验设计的不同,计算公式也不一样。
Part 4. 如何测量 risk ?
如何测量Risk是整个流行病学最核心的方法论。某种程度上可以简单地认为,流行病学是研究如何通过实验拿到数据,而生物统计是拿到数据后如何分析数据(实际情况比这复杂的多)。两者是上下游的关系,合在一起构成公共卫生的两个基本的支柱。虽然本文是关于流行病学的介绍,顺便也说一部分生物统计的知识。
首先,为了测量risk,我们需要各种实验设计。最好的study design是RCT。其次是observational study,包括cohort study,case-control study,cross-sectional study。再次是Ecological study。本质上都是两组人(或者多组人)相互比较risk,但区别还是很大的。下面分别解释一下(下列图片来自于Gordis的教材和网络)。
RCT全称是Randomized Control Study。这个实验将吸收进来的人们随机的分为两组,观察在不同的exposure(此处的exposure是治疗手段)之下,人们的风险是否改变(此处是病的症状是否缓解)。RCT之所以最好,是因为红字标注的“Randomly assigned”(又称randomization)。这个过程可以理解为通过随机分组,使得两组人从总整体上看“几乎一模一样”,也就不会因为两组人具备不同的特征而导致治疗的结果受到干扰。比如,5000名20岁的人跟5000名50岁的人,没法比。但是一旦将这10000个人随机分成两组,则两组人的平均年龄就都约等于35岁,这就可以比较了。
然而,RCT总是很贵的,想找那么多的实验者,总不能把人家绑过来吧?一般都是用钱来吸引。再一个就是从实验前到实验中再到实验后,都有一系列要严格遵循的规范,并且要控制各种外界因素的干扰,这本身也是很耗钱和精力的。所以我们需要一些不那么耗钱的实验方法来进行流行病学研究,即unexperimental study,包括cohort study,case-control study和cross sectional study。
Cohort study的大致流程如下图。一组人有exposure,另一组人没有,经过一段时间的跟踪之后,我们比较两组的risk。这个方法的优势在于事先确定好了exposure,并且跟踪了一段时间(此处不再解释retrospective和mixed structure),所以对于exposure和outcome的测量还是比较准确的。这个实验的逻辑很容易理解,但由于exposed group 和unexposed group并没有经过随机分配,有可能本身的差异是比较大的,从而影响了实验结果。
下一类实验是case-control study。与cohort study不同,case-control study是从得病的情况出发,研究得病的人和没得病的人,各自exposure的情况。这类实验比cohort先天不足的地方在于,受到selection bias和information bias干扰比较严重。为了矫正这种先天不足,有两个变形:nested case-control study和case-cohort study,不再展开。Case-control study又是被使用最广泛的方法,主要原因还是它简单、便宜,因为一般来说不需要跟踪,只需要回溯以往的数据。
再往下是cross-sectional study。这个实验简单来说就是在某个时间点上截取横截面数据,同时获得exposure和outcome的信息,来比较不同exposure情况下的risk。这个比前两种都要差一些,因为横截面数据很有可能无法反映真实情况。比如,我们想研究穿衣和感冒的关系,由于感冒痊愈快,那些得过感冒又好了的人,就会被归为没得病的人群,这就大大影响了我们对于risk的判断。
如果我们无法获得每个人的数据,连cross-sectional study都进行不了,就只剩下最后的选择了:ecological study。这类方法使用aggregate data来研究risk的变化,比如一个地方感冒十年来incidence的曲线。如果incidence越来越高,我们倾向于认为风险在增加。但这种研究比较粗糙,往往作为pilot study来寻找可以深入研究的课题。因为aggregate data的变化容易受到太多因素的影响了。
上述这些实验方法只是第一步:如何拿到数据。而拿到数据后,首先要把outcome 和 exposure以及实验中所有测量过的东西,都变形成能够处理的variables(outcome variables和explanatory variables),然后如何分析,则需要用到生物统计学的知识,这是我们的第二步。我们在这里简要把各种方法陈述一下。
1. 当outcome是continuous variable,explanatory variable是categorical variable的时候,我们使用t-test,Wilcoxon Rank-Sum test,ANOVA,Friedman's test, Kruskal-Wallis test, ANCOVA,MANOVA,MANCOVA等等。每种方法都各有具体的前提条件,要辨别清楚根据情况使用。
2. 当outcome是categorical variable,explanatory variable也是categorical variable的时候,可选择的方法包括:chi-square test,McNemar test,Fisher's exact test,用contingency table直接计算OR,RR,AR,PAR,%PAR等等。
3. 当outcome是continuous variable,explanatory variable也是continuous variable的时候,可以使用:Pearson correlation,Spearman correlation,linear regression,等等。
4. 当outcome是categorical variable,explanatory variable是continuous variable的时候,可以使用logistic regression。
5. 当outcome是rate或者count时,可以使用poisson regression。
6. 当outcome是time to event,使用survival analysis,包括Cox Proportional Hazard Model,Exponential Model,Weibull Model,generalized gamma model等等。
上述方法使用中的各种前提和细节不再详述。
通过上述方法,我们可以估计出outcome与explanatory variable之间的association,而这种association正体现了risk在不同exposure程度下的变化。为了估计这种association的精确程度,我们使用confidence interval和Goodness Of Fit(GOF)。
Part 5. 影响 risk 真实性的因素有哪些 ?
上文讲述了risk及其指标,以及如何测量risk。但是我们测量得到的risk就一定是真实的risk吗?并不一定。事实上在研究中,我们经常受到三类因素的迷惑:
1. Bias。要么是选的样本不合适,要么是搞错了信息,要么是混淆了序列关系,总之在实验的各个环节都有可能出现偏差,影响我们对于risk的测量。
2. Confounding。有一类variable同时与exposure和outcome有关系,并且不在他们因果链条上,这就是confounder。他们严重干扰我们对于risk的估计,所以必须想办法控制这些variable。
3. Effect modification。有一类variable能改变(放大或缩小)exposure和outcome之间的关系,举个不恰当的例子:假如一年之内吸烟1000支会导致年底得肺癌,但如果规定一天只能吸一支烟,则“吸烟”和“肺癌”之间的关系就被改变了,可能五年之后才得肺癌。这个“规定”就是外界的effect modifier,影响着exposure和outcome之间的关系。
如何去减轻这三类东西对我们测量的risk的迷惑?这就是我们在研究中要考虑的事情。如果说第四部分是Epi的核心方法论,那么第五和第六部分才是Epi真正的“艺术性”的体现。所谓艺术性,往往意味着我们在科学研究中融入了某种“主观”的选择。比如confounding variable,理想的情况自然是考虑一切confounder,但现实中这是不可能的:我们没有那么多数据!所以如何尽可能合理地使用手上的数据,使用哪些作为confounder,抛弃哪些,最终确定什么样的模型,这是一种艺术。
Part 6. 如何确保测量得到的 Risk 是可靠且有效的 ?
先来介绍两个东西:reliability和validity。这是我们做Epi研究希望实现的两个目标。
上面这个图生动地体现了reliability 和validity的含义。测量risk如同打靶,我们希望多次测量的结果都比较一致(紧密围绕在靶上某个位置),这就是reliability,我们也希望多次测量的平均值正好是真实的risk,这就是validity。如果这两点同时做到,我们就基本上枪枪都在10环附近了。
有几个手段能帮助我们实现这一点:
1. matching, 指的是将实验组和对照组根据某些因素匹配起来,比如让他们在同样的自然环境中,这样就避免了不同的组身处不同的自然环境,而对实验结果产生影响。
2. stratification,是指根据某类(某几类)因素,将实验结果分成几层,在每一层之内,对risk进行比较和分析。这样就避免了这些因素对于risk测量的干扰。举例如下图,我们比较肥胖对于心血管病患病risk的影响,最好是根据家族心血管病史来分成两层各自进行比较,否则家族病史就会对risk的测量产生干扰。
3. adjustment,统称各种用来调节干扰因素的手段。比如age adjustment,是对年龄进行调节,Standardized Mortality Ratio,是对一个人群中各组的比例进行调节,从而计算标准化的mortality ratio(注意:不是死亡率!而是实际发生的死亡率与期望的死亡率之间的比值)。最常见的adjustment是将一个variable放入regression model中。
与Part 5类似,这一部分也体现了某种艺术性。比如,我们不可能match所有的variable,那样会导致可研究的样本非常少,但也不可能不match,那么match哪些,或者根据哪些因素stratify,这就是实际操作中的艺术。
Part 7. Risk的测量与 因果关系
我们测量Risk,归根结底还是为了判定一个因素是不是一种健康问题的原因。这个判定不是随意,被广泛遵循的原则来自Bradford Hill:
a. Temporality: temporal sequence of cause and effect
b. Strength (magnitude of RR or OR): a small association does not mean there is not a causal effect, though the larger the association, the more likely that it is causal
c. Consistency: consistent findings observed by different persons in different places with different samples strengthens the likelihood of an effect
d. Specificity: causation is likely if a very specific population at a specific site and disease with no other likely explanation. The more specific an association between a factor and an effect is, the bigger the probability of a causal relationship
e. Biological gradient: greater exposure should generally lead to greater incidence of the effect. However, in some cases, the mere presence of the factor can trigger the effect. In other cases, an inverse proportion is observed: greater exposure leads to lower incidence
f. Plausibility: a plausible mechanism between cause and effect is helpful
g. Coherence: coherence between epidemiological and laboratory findings increases the likelihood of an effect.
h. Experiment: occasionally it is possible to appeal to experimental evidence
i. Analogy: the effect of similar factors may be considered.
显然,对risk的测量和验证几乎贯穿在每一条原则之中。
Part 8. 流行病学可能发生的变革
流行病学经过了百余年的发展,不断容纳新的知识和技术而获得发展。在互联网时代,理应容纳现在的新技术,对方法论的部分进行变革。以我不成熟的认识,我认为这种变革将会集中在两个方面。
第一,从“由实验获取数据”变为“依靠实验和互联网共同获取数据”。在互联网时代,人们的信息在网上越来越多,而且随着移动健康设备的火热,企业积累了大量的个人健康和运动(及睡眠)数据。如果能使用这些数据,无疑会给流行病学带来革命性的变化,也许很多结论要推翻重来。
第二,从“依靠经验筛选模型”变为“依靠经验和计算机共同筛选模型”。这一块在computer science其实早就有人在做,比如用遗传算法之类的来筛选最佳的模型。但流行病学至今仍然是依靠科学家的经验来筛选较好的模型。当然,这里面有数据的限制。但是如果我们突破了数据的限制,那么由计算机来辅助进行模型筛选,无疑会大大提高研究的效率。一个反面的观点是,我们建立模型,是为了估计risk,是为了搞清楚原因和结果之间的关系,并不需要模型过于繁琐酷炫。但是,计算机筛选就一定会得到繁琐的模型吗?并且,假如数据的暴增和知识的发展突破了我们已有的框架,也许我们今天认为“正确而优美”的模型,那时都不再成立了。
后记
总之,这篇文章的目的是梳理流行病学的结构,介绍这门学科的知识。同时也是想说明一个观点,不能用统一的逻辑串联起来的知识体系不值得传播。
Reference
1. Szklo, Moyses, and F. Javier Nieto. Epidemiology: beyond the basics. Jones & Bartlett Publishers, 2014.
2. Rothman, Kenneth J., Sander Greenland, and Timothy L. Lash, eds. Modern epidemiology. Lippincott Williams & Wilkins, 2008.
3. Gordis L. Epidemiology: W.B. Saunders; 2000.
版权声明
任何转载一定要通过知乎私信获得本人许可。知乎转载请@姜大山。
PS:
如果你对Public Health,流行病学、卫生经济学、生物统计、卫生政策、医学等等方面感兴趣,并且希望与相同专业的朋友交流探讨,欢迎加入我们的学术共同体。我们的微信群是“青年公卫人”,如果有兴趣加入跟大家一起聊天,可以私信我。