百科问答小站 logo
百科问答小站 font logo



目前统计学在国内外的发展现状是怎样的?都有哪些分支?今后的研究方向大致是向哪里走? 第1页

  

user avatar   yiorfun 网友的相关建议: 
      

已有珠玉在前,就不班门弄斧了。以下均为一家之言。


1、统计学,现代统计学,以及国内外的发展现状


先啰嗦几句统计学学科。广义的统计学算是一门古老的学科,其诞生非常之早,早到但凡有数据的记录、合并与整理的需求的时候,就人们就已经开始接触到统计学的雏形。这可以一直追溯到近代人们对天文数据的使用,以及随之出现的最小二乘法(OLS),这一段时期可以称为统计学的古典时期,而误差概念的逐步成熟、最小二乘法的出现及使用,私以为可以类比为牛顿力学之于物理。


现代统计学萌芽于大约100年前,个人认为其标志性在于R. A. Fisher 在1922年发表的文章 On the Mathematical Foundations of Theoretical Statistics,里面将统计学从实际应用问题的讨论推向了理论性的研究,并且给出了许多统计学术语的“原始”定义。比如,似然被定义为给定参数值以后,正比于观察数据出现的概率(的一个值):

Likelihood: The likelihood that any parameter (or set of parameters) should have any assigned value (or set of values) is proportional to the probability that if this were so, the totality of observations should be that observed.

从中我们可以看出,在当时,贝叶斯的观念已经颇具成熟,以至于Fisher在提出似然概念时借助了其思想,并且后面在提出极大似然估计的时候,也将其与贝叶斯估计量进行比较。该篇文章可以视为极大似然估计的诞生。


随着概率论的公理化和发展(1931年,Kolmogorov出版 Foundations of the Theory of Probability,标志概率论的公理化),J.L. Doob (周元燊的导师,也是Rao–Blackwell 定理里那个David Blackwell的导师,Rao是Fisher的学生)于1934年发表了文章 Probability and statistics,尝试于将极大似然估计方法为什么有效(即后来所谓的相合性,H. Hotelling在1930年在文章 The consistency and ultimate distribution of optimum statistics 中称其为consistency)提供严格的数学证明。1946年,H. Cramer在专著Mathematical Methods of Statistics中将这一时期的统计学进展进行了归纳整理,其中的章节顺序几乎奠定了以后数理统计学教材的写作范式(随机变量以及概率分布、抽样分布、统计推断、显著性检验),其中一整章讨论了极大似然估计的渐进性质。1949年,A. Wald简化并发展了Doob对MLE的相合性的证明,成为后续模型证明相合性的范本。再后来统计学研究越来越专门化系统化,比如统计决策理论的发展等,以至于1973年数理统计年刊( Annals of Mathematical Statistics)分为了统计年刊(Annals of Statistics)和概率年刊(Annals of Probability)两本杂志。这些成就私以为可以类比为量子力学之于物理。


由上可以看出,统计学在国外的发展是一直连续并逐渐成熟的,这里的成熟包括学科的建设、学术期刊的发展、学生的教学模式等等。Fisher虽然是英国人(当年许宝騄也是留学英国),但随后因为二战的缘故,学术中心迁至北美,逐渐奠定了目前北美统计学top高校的格局。目前一般北美公立学校(非统计名校)的统计学教学大致分为:

1-- level,为所有对统计学感兴趣的同学的入门课程,包括统计绘图和计算软件,包括加减不包括积分运算;

4-- level,为理工科本科同学准备的统计学课程,相比1--级别要更加详细,并且运算要求更高;

4--/5-- level,为数学系或者统计系本科同学准备的课程,强化概率论基础,强化抽象积分的运算;

7-- level,研究生课程,以测度论为基础重新学习、构建统计学体系;并且将统计学方法应用于不同的统计学对象,因此存在以线性模型、非参数模型、半参数模型等等为核心的课程。


统计学在国内的发展存在巨大的潜力,以统计学教材来说,绝大部分都是相对浅显(小于等于400 level)的内容(并且因为专职化的统计学教师的缺失,绝大部分的教材的编者来自于应用数学),非常非常少的教材(目前来看只有陈希孺院士的著作)涉及到比较深入(400 - 500 level)的内容(并且一些所谓高等统计学教材是像素级"翻译"他人著作),含有近现代统计学内容(700及其以上)的教材几乎不存在。举个例子,线性模型应该是第一个应用统计学概念(充分统计量、最小二乘估计、MLE、检验统计量、极限分布等)的统计学对象,它包括(不限于)线性回归模型、方差分析模型、协方差模型(回归模型与方差分析模型的混合)、实验设计模型(区组模型、拉丁方模型以及2^k模型)、随机/混合效应模型、广义线性模型(GLM),在北美统计学博士资格考试中,这些模型的理解、求解(非数值求解)以及设计都是要求手算的;而国内的资料相当程度依赖于SAS或R等软件求解,很难将一个模型的原理讲透彻,要知道有方差分析用R求解,变量的输入顺序会直接导致不同的结果,所以不知道原理而依赖于软件是学不好统计的。


附一道应用统计(Applied Statistics)资格考试的第一题:

设模型 中 是iid的 ,并假设对所有 满足 。

(1) 证明对照 和参数 是可估计的;

(2) 给出检验 的统计量,并且得到在 下该统计量的分布;

(3) 求出 的置信区间。


2、统计学的研究分支


要了解统计学本身的研究领域分支(而不是诸如生物统计学、空间统计学等学科分支),看看斯普林格的统计学专著涉及哪些领域即可,Springer Series in Statistics。目前而言,已有197本,可以说其中每一本都涉及到一个非常具体的统计学分支。


比如该系列最早的五本:


1979,Goodman, L. A., Kruskal, W. H.,Measures of Association for Cross Classifications

1980, Berger, James O.,Statistical Decision Theory

1981,Seneta, E.,Non-negative Matrices and Markov Chains

1981, Miller, Rupert G. Jr.,Simultaneous Statistical Inference

1981,Anscombe, Francis John.,Computing in Statistical Science through APL;


以及该系列最新的五本:

2018,Filzmoser, Peter, Hron, Karel, Templ, Matthias.,Applied Compositional Data Analysis:With Worked Examples in R

2018,van der Laan, Mark J., Rose, Sherri.,Targeted Learning in Data Science:Causal Inference for Complex Longitudinal Studies

2017,Pfanzagl, Johann.,Mathematical Statistics:Essays on History and Methodology

2017,Yi, Grace Y.,Statistical Analysis with Measurement Error or Misclassification:Strategy, Method and Application

2017,Ramsay, James, Hooker, Giles.,Dynamic Data Analysis:Modeling Data with Differential Equations.


该系列的网红爆款即是所谓的ESL统计学习:

2001,Hastie, Trevor, Tibshirani, Robert, Friedman, Jerome.,The Elements of Statistical Learning:Data Mining, Inference, and Prediction.


3、Q & A

(1) 假设学完本科理工类的概率统计的知识(比如盛骤的《概率论与数理统计》),是否就对统计学已经有了了解呢?

答案是否定的,因为统计味最浓的一些知识并未在这类教材中体现。这类教材可以称为入门,但还谈不上让读者了解。比如,我们来看看一些统计味很浓但依然初等的定理(这里的初等是指表述意义上的初等,但证明可以非常不初等):

Basu 定理:设 是完全的极小充分统计量,则 与任意辅助统计量都独立。

评:这是相当漂亮的一条定理,刻画了充分统计量与辅助统计统计量的关系。独立性是测度论概率论相对于一般实分析的特色所在,因此独立性也是统计学中最中心的概念之一。回想一下一般证明两个统计量独立,都是根据独立性的定义证明,即求出联合分布和边际分布再做对比。而Basu定理直接跳过了联合分布。给定 下,在知道样本均值 是 完全统计量,样本方差 是 辅助统计量,利用Basu定理,自然地 与 独立。

同变性原理。比如度量同变,要求对于参数 的推断不依赖于所选用的测量尺度。

评:例如要估计某城市某一时期的平均气温,如果一份记录用华氏温度为单位,另一份记录用摄氏温度为单位,那么两份记录的单位都转为第三种温度(比如卡尔文)时,得到的估计值要相同。同变性原理的讨论要涉及到群结构的不变性(函数族在群作用下的不变性)。

Rao-Blackwell 定理:设 是 的任意一个无偏估计量,而 是关于 的一个充分统计量,若定义 ,则不仅 ,而且 ,对于所有 都成立。

评:该定理进一步展示了充分统计量的重要性,即只要已知充分统计量和一个无偏估计,那么总可以通过求条件期望,得到一个依然无偏、但方差减小的估计量。也就是说,通过充分统计量就能改善原有的无偏估计。

Lehmann-Shceffe 定理:完全充分统计量的无偏估计量是唯一的,即Rao-Blackwell定理中,如果 不仅是充分统计量,还是完全充分统计量,那么 就直接是 的UMVUE了。

评:该定理给出了一个寻找UMVUE的一般性方法。特别地,对于指数函数族的完全充分统计量都很好找。另外,Shceffe在1959年出版了一本名为《方差分析》(The Analysis of Variance)的名著,至今依然是学习线性模型的必备书目之一,缺点是符号太晦涩。

Neyman-Pearson 引理:从略。

评:根据UMP的定义,看上去条件似乎很强,以至于并不是很自然地就能看出满足定义的检验是否存在。而该引理就给出了一个UMP的存在性证明,即针对于简单假设来说,似然比检验即为其UMP。特别地,Neyman和Pearson即为许宝禄在英国求学时的博士导师,Neyman也是前文Lehmann的导师。Lehmann在Berkeley的学弟Le Cam,即为现在大牛Yu Bin的导师。

Karlin-Rubin 定理:从略。

评:由于Neyman-Pearson 引理只是针对简单假设,那么对于更复杂的复合假设,该定理给出了UMP的条件和检验水平,即需要关于 的充分统计量 具有单调似然比(MRL)。

Glivenko-Cantelli 定理:设 是服从分布函数 的iid随机变量(抽样),定义经验分布函数 ,那么 。

评:该定理在俄系教材中称为“统计学基本定理”,因为它保证了随机抽样对总体的推断的合理性。陈家鼎老师在其教材中用纯分析的方式对其进行了证明。数学上看,经验分布函数不仅收敛于原来的分布函数,而且可以强化到一致收敛(几乎处处意义下)。以该定理为基础,才能讨论非参数模型和半参数模型的理论结论。

Donsker 定理:定义 ,则 ,其中 是[0, 1]上的Brownian bridge过程, 是有supremum范数的cadlag函数集合。


user avatar   philosanitas 网友的相关建议: 
      

=============================前言===============================

准备大体介绍一下什么是统计学、北美的统计系,大致分支、近年来的某些热点。才疏学浅,挂一漏万,希望数学和统计方面的同学来作更全面的解答。PS:感谢 @张雨萌 博士的建议和指点!已根据他的建议将部分答案做了修改。

===========================开始答题==============================

首先,“统计学的发展现状是怎样的?都有哪些分支?”


1. 在回答之前,先要澄清一下统计学是什么。统计学是以数据为对象的一门科学。可以把它归类为形式科学(formal science,像数学、逻辑学、系统论),因为它的研究领域是抽象的形式(abstract structures)。另外有些人认为它是自然科学或社会科学,因为它研究了自然科学的问题或者社会领域的问题。但是如何分类并不重要


统计学的方法论里有一部分内容是抽象的形式为研究对象,比如中心极限定理,比如正态分布,这些内容是无法证伪的,因为它是按照严格的逻辑关系推导出来的,是数学的一个分支,是一种逻辑体系。而另外一部分内容,尤其是贝叶斯主义兴盛之后,则是可以证伪的。比如我先观察了飞机起飞的间隔大约是五分钟,然后预测下一班飞机将于五分钟后起飞。这个统计推断就是可证伪的。所以非要把统计学归为某类科学没什么意义,知道它是研究数据的科学就够了。


插一段题外话:可证伪性是卡尔·波普尔的理论,也是从20世纪以来最流行的科学哲学理论。因为科学理论是建立在“观察现象—提出理论—进行实验—修改理论”的科学方法之上,所以可证伪性成为一个理论是不是科学理论的必要条件。比如“神爱众人”,这个理论不可能检验,因为没法观察到“神”,也没法定义什么才是“神”的“爱”。但另一些建立在观察基础上的推断,比如“摩擦力导致运动着的小球停止,摩擦力越大,运行距离越短”,则是完全可以证伪的。这就是伽利略开创的科学方法,经由这套方法发展出来的理论才是科学理论:并不是说凡是可被证伪的理论都是科学理论,但是科学理论一定要具备可以被实验推翻的可能性。


话题回来。我们大概追溯一下现代统计学的发展。统计方法可以追溯到很早,几乎在计数方法被发明的时候就有了原始的统计方法。到了16世纪,由于掷筛子赌博的兴盛(据说),学者们开始研究点数的频率,推算概率。这是早期的概率论。与此同时,政府为了增强控制力需要了解人口的特征。学者们发展了国情学,开始应用在人口统计上,比如男女性别。统计方法以概率论和国情学为两个方法论的源头,有了进一步的发展。


统计方法发展成为现代(数理)统计学,则是更近的事。17、18世纪的数学家继续发展了概率论,为现代统计学的奠定了部分理论基础。这其中就有数学家Thomas Bayes,他在18世纪中期提出条件概率的贝叶斯公式之后,他并不知道会给统计学带来多大的变化。


不得不提到的一个巨人是Karl Pearson。没错,就是Pearson test 那个Pearson,他还很任性地用姓氏首字母命名了一个折磨了统计系学生们一百年的变量—— p value。除此之外,他在统计理论的各个方面都有创新,最重要的是,他创建了世界上第一个统计系。他被公认为是现代(数理)统计学的创建者,也是我们生物统计的创建者(第一个生物统计学期刊就是他开的)。其实能者是无所不能的,此君在业余还取得了大律师资格,还是一个坚定的基因改良主义者,要知道那才是1890s!


下面这幅图是Pearson的老婆为他的学术著作画的插页(1),主题就是:Chance of death。从左到右意思是人从出生到老要经历不同的死亡风险。不知道为什么采用桥这个元素,有可能是听过奈何桥的传说??


Pearson之后,统计学就发展得非常快了:Spearman、Bonferroni、Neyman、Tukey、Cox、Box等等,基本上我们现在常用到的工具在1950s之前已经被发展的比较完备了。在这之后,比较大的变化是贝叶斯主义的兴盛。


1950s,统计学家内部还是一边倒地偏向frequentist。不过城堡都是从内部被攻破的。当时Irving Good还跟同事打了赌,他预测贝叶斯理论将成为统计思想的主流,同事则坚信频率主义。后来事实的发展支持了Good (2)。


我说一点对于贝叶斯主义的理解(很有可能是根本不着调的,但。。。不管了!)

在贝叶斯主义之前,使用prior knowledge是不规范的。你必须比较确切地知道某个随机事件发生的概率,才能用它来计算一些东西。怎么知道呢?你得去吭哧吭哧统计这个随机事件发生的频率,如果遇到一个很大的总体,那可能等你统计出来人家的paper早发了。贝叶斯主义者比较简单粗暴,根据一些prior knowledge,直接给概率赋值。看似武断,其实大大拓展了统计学的发展和应用空间。


因为建筑在各种prior knowledge基础上的统计推断,天然具备了可证伪性,比如我们前面举的例子:“五分钟后飞机起飞”这个推断。要检验这一点非常直接:你只需要再观察五分钟即可。如果起飞了,说明我们的推断是还算准确的,如果没起飞,说明我们用的prior有问题,要修改它的值,然后再做下一次的统计推断。如果是frequentist,他会搭好观察台,在机场长期观察各类型飞机的起飞时间和架次,统计出来比较精确的频率,然后再做推断。这个时候人家Bayesian早迎娶白富美走上人生巅峰了!


你可以把贝叶斯主义看做“尺蠖式”前进:往前两步再后退一步,后退是没有问题的,马老师说过这叫“螺旋式上升”,毛老师说过撤退就是转进嘛!关键是要行动:大量应用prior knowledge和贝叶斯定理,做出推断,然后再根据观察去修正prior knowledge。


统计学的历史简单介绍到这里(还是挺啰嗦的T^T....)下面开始回答问题(这次是认真的....)


2. 统计学可以这样划分:理论统计学应用统计学

  • 统计学的基础理论包括概率论、实分析、线性代数、asymptotic theory 等等数学内容。现在又包括了computational statistics。Computational statistics发展了bootstrapping、Monte Carlo simulation这些新的方法,在计算机被发明以前,这些技术是没法想象的,因为计算量太大了(不太确定computational statistics是否应该放在理论统计学里,不过这个不重要)。


  • 应用统计学基本分为两大块:descriptive statistics 和 inferential statistics。前者是从总体中抓样本数据进行描述,后者是通过对于样本的分析对总体的特征进行推断。

这样直观的记忆比较好:

前者:population ---> sample

后者:sample ---> population


从population到sample,这个是以使用概率论为主。不过descriptive statistics本身并不发展新的理论知识。从sample到population,这个才是应用统计学的重要目的。因为统计学面对的是随机事件,而且是不完整的信息(sample),但要对完整的世界(population)做出估计。


划分理论统计学和应用统计学意义也不是很大。统计学起源之一是国情学,这就注定了“应用”的基因。但是现在科学进步这么快,而一部分人对理论研究更感兴趣,说不定就突然发现新的方法打开了一片新天地。对这些新方法加以应用,统计学才得以保持旺盛生命力,过去五十年不正是这样吗?


统计学经过漫长的发展,尤其是计算机的大量应用,目前包括但不限于下面这些分支(或者交叉领域):

  • 理论研究:概率论(比如stochastic process),计算统计理论(比如asymptotic theory,在CS系的computational theory下面)当然应该包括很多我听也没听过的理论知识(搞应用的伤不起。。。),这里就没法列举了。
  • 统计模型(在前人基础上继续发展各种regression model,stratification,clustering,blocking,classification等等)、各种test的发展(比如time series,likelihood ratio test, Wald test, permutation test 等等)。
  • 计算统计方法的发展(比如Monte Carlo simulation,Bootstrap)
  • 数据采集(census,survey和clinical trial等)
  • 生物统计(比如longitudinal analysis, spatial analysis)
  • machine learning
  • data mining

目前最火热的学科都是跟计算机结合比较紧密的。统计学领域也不例外,data mining 和 machine learning都是一出生就建立在统计学(和概率论)基础之上的,现在大量的人在做这个。而解决的实际问题包括:卫生、环境、行为等等。比如你的每一次点击都部分地决定了Google将要给你投放什么样的广告,你的每一个手机使用行为都部分地决定了苹果下一款手机的开发方向。这里面海量的数据的搜集、统计分析、行为分析,都是以统计学为核心的。(PS:上述研究分支的分类也不是很完备,欢迎多多补充!尤其是各个分支搞前沿研究的PhD们,可以在评论里留下各自有趣的方向,我一一补充进来。不管学有所成还是刚上本科,我们都可以充分共享信息!)


3. 如果要高屋建瓴地评价各个分支的“研究现状和研究前沿”,有这个能力的人估计也不多,也不会来知乎,那个已到了methodological philosophy的层面。


但我们还是有间接的方法——通过阅读top journal知道行业内现在流行的研究趋势和最新的进展。统计领域的top journal包括下面这些(3,4):

  • Journal of American Statistical Association (JASA )
  • Biometrika (Bka )
  • Journal of Royal Statistical Society (Series B, and Series A) (JRSB, JRSA)
  • The American Statistician (AmSt )
  • Survey Methodology (SrvM )
  • Annals of Statistics (AoS )
  • Journal of Official Statistics (JOS )
  • Biometrics (Bcs )
  • International Statistical Review (ISR )
  • 另外还有计量经济学领域的Econometrica也是统计学家们会去投的top journal。 PS:经济学领域投这个比投AER还难。。。吧?

有兴趣的可以结合自己的背景去翻一翻最新的期刊。


4. 送给留学党:北美的统计系PhD项目,一般在数学系下面或者统计系下面(有一些在商学院的运筹学系)。好一点包括:Stanford,UC Berkeley,Harvard,NYU (专指Courant),MIT,U Washington, Johns Hopkins, Chicago, Princeton, CMU, UPenn等等, 还有加拿大的UBC。US NEWS每年都做美国的统计系排名: Best Statistics Programs,可以作为参考。当然也欢迎大家来读生物统计系,一般是在公共卫生学院,学生的背景比较多样,学生物的学医学的学统计的都不少,也有个别像我这样从经济系过来的(异端T^T)。最好的学校有John Hopkins, Harvard school of public health, Columbia (Mailman school),北卡教堂山。加拿大的UBC也不错,医学院和统计系都挺强。一般来说,统计系好的学校生物统计也不差,大概是因为教师资源可以共享吧。


根据 @张雨萌 的介绍,统计系的就业还有一点分化。偏概率的就业要稍微窄一点差一点,跟数学系差不多,多数还是去学术界。偏统计的则好一些,因为现在IT界有大量的data analyst需求。他介绍说:(他们统计系)

这一届10个人,4个概率6个统计。统计的几个人中还没毕业就被google挖走2个了,另外一个也在湾区找了工作。概率的2个人想走业界路线的也都在自学统计/机器学习。

虽然工作走向有差别,不过还是觉得大家根据自己的兴趣来就好,喜欢搞理论就研究理论,喜欢应用就搞应用,follow your heart (烂俗的鸡汤话。。。)



=========================生物统计的热点========================


先讲一个spatial analysis的小故事,来作为后面介绍Bayesian disease mapping的引子。同时也希望更多的人关注这个问题,这是统计领域目前很火也很有发展潜力的一个方向!而且这是个交叉领域,数学、CS、流行病学、地球科学、经济学都可以有很强的input


尽管已经经历了工业革命,19世纪的英国对于公共卫生的重视还远远不够,各种烈性传染病时有发生。1840s末期,伦敦又爆发了严重的霍乱疫情,不少人死去。


当时主流的理论认为霍乱是靠“肮脏的空气”传染的。但是又怎么可能识别和隔离“肮脏的空气”呢?所以当时对霍乱的预防其实是毫无办法的——理论的误导太严重了。一个年轻有为的医生,John Snow,这时已经是伦敦皇家外科医学院和伦敦皇家内科医学院的双料成员,盯上了这个问题。他不太相信空气传播霍乱的说法,认为水里携带的细菌才是主因。他用几年时间,走遍伦敦进行调研和病情记录,绘制了一系列的点图。比如:

从图中可以清晰看到,霍乱的发生跟地点的关系很大,呈中心发散型。这就很大程度上挑战了“空气传染”说,因为如果是空气传染的话,霍乱的发生应该是比较均匀的才对。同时这个研究也提供了很强的证据支持霍乱是水传播的。就在图的中心,Snow将传染源锁定为一个公共抽水机(从被污染了的泰晤士河里取水),并说服政府将抽水机挪走。尽管这个研究后来还有一些波折,这里按下不表,无论如何,Snow的工作大大开拓了当时的研究视野。


这就是Snow锁定的抽水机,现在已经成了一个地标:


这就是早期的最有影响力的spatial analysis的研究!从中可以受到启发,关键的是两块信息:

1. 某个outcome (eg 霍乱的发生)

2. 地理位置


这个outcome可以千变万化,疾病发生率,死亡率,收入水平,就业率,入学率等等。地理位置也可以上至大洲大洋,下至左邻右坊,可以是单中心,也可以多中心,可以有不同类型的分布,不同的方差,等等等等。当信息量超过一定程度,又需要更好用的数学模型,更有效率的算法,更强大的硬件……所以这个领域能结合各学科知识,能重新诠释很多问题。就像课上老师说的:given enough data, with spatial analysis you could act like a God!


故事讲完。


我们已经得到了一个信息:疾病的发病率跟地理位置是相关的,所以spatial analysis在生物统计方面应该是大有用处的。但是以前这方面的研究很少,没别的,就是缺少数据。不是每个人都肯像Snow那样跑遍伦敦——所以他四十多岁就累死了。。。


题外话:Snow也是乙醚麻醉剂定量研究的第一位科学家,维多利亚女王生孩子的时候,他使用了乙醚进行麻醉。当时连毒理实验也没做过,真是奔放的年代!


要应用spatial analysis在疾病的统计上,需要两门核心基础课:longitudinal data analysis和Bayesian Biostatistics (更基础一点的课比如400 level的就不提了)。


1. longitudinal data analysis

最好的教材,由浅入深依次是:

  • 1. Hedeker, Donald, and Robert D. Gibbons. Longitudinal data analysis. Vol. 451. John Wiley & Sons, 2006.
  • 2. Fitzmaurice GM, Laird NM, and Ware JH. 2011. Applied Longitudinal Analysis (2nd Edition). Wiley.
  • 3. Diggle PJ, Heagerty P, Liang KY, and Zeger SL. 2002. Analysis of Longitudinal Data (2nd Edition). Oxford University Press.

Hedeker的教材语言平易,容易入门。Fitz的书覆盖面很广。Diggle最难,但公式和推导都给得很全,是最严谨的。


2. Bayesian Biostatistics

参考书目是:

  • 1. Berry DA and Stangl DK (eds). Bayesian biostatistics. Taylor & Francis, New York
  • 2. Carlin BP and Louis TA. Bayes and empirical Bayes methods for data analysis. Chapman
    & Hall, New York.
  • 3. Gelman A, Carlin JB, Stern HS, and Rubin DB. Bayesian data analysis. Chapman & Hall,
    New York
  • 4. Congdon P. Bayesian statistical modeling. Wiley, New York.
  • 5. Andrew B Lawson. Bayesian disease mapping. Chapman & Hall, New York

我们老师主要用的是Berry和Lawson的。这里重点推荐一下Lawson的书给所有学统计的朋友,语言简单易懂,理论与实践的应用结合得很好,关键是做disease mapping是统计学和公共卫生交叉的一个未来研究趋势,在北美已经做了不少了,中国在这一块潜力很大。(不过要吐槽一下,现在国内像样的数据还没有。大城市也只是有全病因mortality的location数据而已,数据量少、单一,而且还不公开)


在这两门课掌握好之后,就可以开始Bayesian Disease Mapping的入门了。


1. 先看看“别人家的孩子”。

北美的disease mapping开始得早,所以应用的也早。比如加拿大的British Columbia省,就有这个很好的官网(要安装 Microsoft Silverlight):

在网页地图里选择某种outcome(比如心脏病),很快就会显示这个outcome在各地的发病率是多少,非常直观,很容易看到跟location的关系,从而有助于政府制定相关的预防措施。


2. 目的。我们能用disease mapping干什么?

  • 了解疾病在各地的发生
  • 预测各地的疾病发生率
  • 测量地区之间在疾病发生率上的差异
  • 总结数据的“pattern”,看看有什么规律没有

这一切都是为了能够更好的评估各地的health service outcome,从而将有限的资源更加合理地分配,实现最大化的效用。比如蒙古和卢旺达在Ebola上的发病率肯定是显著不同的,联合国要援助,显然是要先援助卢旺达。但是卢旺达和纳米比亚相比?这就需要更加精细的spatial analysis了


3. 数据。

要做成iMapBC里面的效果,必须要有足够丰富的数据。NASA data是一个好的来源(data.nasa.gov )。柴静那个片子里面用到NASA的图片来说明问题应该是有人指点过吧,思路挺对的,虽然不够严谨,但没关系。真正要深入研究还是要先define一个良好的问题,然后从NASA下载数据,用统计学手段好好分析。当然也不一定局限于NASA的数据。考古学、地质学的数据,都可以拿来应用,只要能拿来数据!


比如这篇堪称丧心病狂的农业经济学文章:

Bowles, Samuel, and Jung-Kyoo Choi. "Coevolution of farming and private property during the early Holocene." Proceedings of the National Academy of Sciences 110.22 (2013): 8830-8835.

用了考古数据——四万年的地表温度数据,来估计当时原始人的迁徙,以及对于农业和私有制产生的影响。四万年!!!


那我们一般需要什么样的data呢?

最好是这样的:

  • 来自于一个大型的有很多观察结点的follow-up study,这样就可以使用longitudinal analysis看看时间跟发病率之间有什么样的关系。
  • 数据结构有几个hierarchy,比如省、市、医院、个体四级,这样就可以使用Bayesian hierarchical
  • model
  • 地位信息是完备的(spatial data),这样就可以使用spatial analysis。

一般是没有这么理想,但是即便只满足一个要求,也是质量很不错的data了。


其中spatial data是非常有趣的:

  • 可以是John Snow那样的静态位点信息;
  • 可以是动态的位置连续变化,比如汽车的移动;
  • 还可以是Lattice data,这是以区域为单位的一块一块的数据,就像这样:


4. 模型。

我们现在有一些常用的模型去处理disease mapping。比如:

  • Mixed effects model for longitudinal data (5)
  • Bayesian hierarchical model (intrinsic conditional autoregressive, iCAR)(6)
  • spatial model. Eg. BYM model (7)

还有一些不太常用的。模型就不在这里展开了,提供了模型的文献,有兴趣的可以随意观赏。但是我建议把例子看一下。


这是BC省的injury情况的Bayesian spatial analysis (8),图是这样的:


而通过下面这个图,又能看到从1991-2000的变化:




第二个例子是英国的一个地区:喝酒引起的死亡率的spatial analysis (9),如图:




5. 未来发展的方向。

随着更先进的卫星、更庞大的监测体系、更长跨度的跟踪,我们会有更加丰富也更加复杂的数据,体现在:

  • Areal data:现在往往是以省、市为单位做Bayesian spatial analysis,将来一定囊括比现在更广阔的地区;
  • Multilevel data:现在基本是三级数据已经很难得,将来的数据会有更多的层级;
  • Dynamic data:现在的数据还基本是静态数据,将来也许会容纳很多的动态数据,来反映即时的位置变化和状态变化。


终于把这个大坑基本填完了!谢谢各位朋友的点赞和感谢!如果想交流更多的disease mapping和Bayesian spatial analysis,我们可以另外开新的题目继续交流!



Reference

(1)Pearson, Karl. The chances of death, and other studies in evolution. London ; New York : E. Arnold, 1897.


(2)Good, Irving John. "Some history of the hierarchical Bayesian methodology."Trabajos de estadística y de investigación operativa 31.1 (1980): 489-519.


(3)Theoharakis, Vasilis, and Mary Skordia. "How do statisticians perceive statistics journals?." The American Statistician 57.2 (2003).


(4)04.25.2010 - Journals Ranked by Impact: Statistics & Probability


(5) McLean, Robert A.; Sanders, William L.; Stroup, Walter W. (1991). "A Unified Approach to Mixed Linear Models". The American Statistician (American Statistical Association) 45 (1): 54–64. doi:10.2307/2685241. JSTOR 2685241


(6)Besag, Julian, and Charles Kooperberg. "On conditional and intrinsic autoregressions." Biometrika 82.4 (1995): 733-746.


(7)Besag J, York J, Mollie A: Bayesian image restoration with two applications in spatial statistics. Annals of the Institute of Statistical Mathematics 1991, 43:1-59. OpenURL


(8)MacNab, Ying C. "Bayesian spatial and ecological models for small-area accident and injury analysis." Accident Analysis & Prevention 36.6 (2004): 1019-1028.


(9)Strong, Mark, et al. "Mapping gender variation in the spatial pattern of alcohol-related mortality: a Bayesian analysis using data from South Yorkshire, United Kingdom." Spatial and spatio-temporal epidemiology 3.2 (2012): 141-149.




  

相关话题

  怎么看待考研数学老师李林「神押题」? 
  理想情況下,对于任意一种台球布局,是否存在一个击球方案,一杆就能使所有球进洞? 
  数学该不该被踢出高考?数学有什么用处? 
  为何诺贝尔奖得主大多白发苍苍,但规定得主年龄必须在四十岁以下的菲尔兹奖是数学界的最高荣誉之一? 
  如何理解主成分分析中的协方差矩阵的特征值的几何含义? 
  在学生时期独立地探索出自己的数学发现,是什么体验? 
  这个图形的面积是多少? 
  维数可以是虚数吗? 
  为什么 sin(x²)+sin(y²)=1 的图像这么复杂? 
  椭圆的一般方程 Ax²+Bxy+Cy²+Dx+Ey+F=0,其中心点坐标如何推导? 

前一个讨论
反全球化/全球贸易协定有哪些经济学原因?
下一个讨论
今年的高考生 估了分上985没问题 想学生态学但是有点迷茫。?





© 2024-05-16 - tinynew.org. All Rights Reserved.
© 2024-05-16 - tinynew.org. 保留所有权利