蟹妖。
我来从统计学角度来谈叭,正好未来两周我要在seminar上给相关报告~
Seminar上主要讲的文章是范剑青老师2014年发的一篇综述:Challenge of Big Data analysis. 同时也补充了一些我的老师、同学以及好朋友们近年来(2014年以后)的工作,还有一些我自己的总结。
这里摘抄几段不涉及公式的废话,以及列一下方法论的提纲。
欢迎各位知乎的朋友于北京时间4月29日上午9点,点开知乎直播听我扯淡~我校师生请使用教务办公室提供的Zoom会议号和密码(〃'▽'〃)
没有录播回放。pdf版报告原文会随着学院微信推送的删减版一起出现。
1.1 什么是大数据?
我们都知道,21世纪是数据科学的时代,而统计学是数据科学的基础。现代统计学理论所面临的挑战是对复杂数据的分析、推断及预测。如果暂时不考虑非结构化的数据(例如所有格式的办公文档、文本、网页、图像和音频、视频等等),则数据的复杂性可以表现为
1、形式上的海量(massive)、高维/超高维(high dimension/ultra high dimension)、异质性(heterogeneous)、缺失/稀疏(missing/sparse)、删失/截断(censoring/truncated)等;
2、结构上的异常值(outliers)、非线性关系(nonlinearity)、非平稳性(nonstationarity)、多重相关性(multi-relational)、多重共线性(multicolinearty)、异方差性(heteroscedasticity)、时空相关性(spatial-temporal correlatedness)、不规则分布域(irregular domain)、函数型甚至物体型(functional/object data)等;
3、概率分布上的重尾/厚尾性(heavy/fat tail),长度偏差性(length-biased),时变性(time-varying)、长记忆性(long memory)等。
这些复杂特征常常同时出现在同一组数据中,而大数据则是复杂数据中的一个重要组成部分。更进一步地说,大数据指的是可用信息的爆炸,它是由一个事实驱动的:大量数据可以更大规模地、更便宜地产生和存储,并且这样的趋势正不断地加速上升。时代的进步、科学的发展正变得越来越以数据为导向,研究人员将越来越多地认为自己是数据的消费者。大数据为现代社会带来了新的机遇,也为统计学家、数据科学家带来了前所未有的挑战。
1.2 大数据无处不在及其作用
我们的生活中处处有大数据。比如,基因组学中,大量的基因组测序数据使发现罕见疾病的遗传标记,并发现疾病与罕见序列变异之间的关联成为可能。生物医学成像技术的突破使科学家能够同时监测许多基因和蛋白质的功能,使我们能够研究调节过程和神经元活动的相互作用。此外,公开可用的基因组数据库的出现,使综合分析成为可能,它将来自许多来源的信息结合起来,从而得出科学结论。又比如,神经科学领域中,许多重要的疾病,包括阿尔茨海默病、精神分裂症、注意力缺陷多动症、抑郁症和焦虑症,都被证明与大脑连接网络有关。了解大脑的层级性、复杂性和功能性网络组织是研究大脑如何随着疾病改变的第一步。以功能性核磁共振成像(FMRI)为例,这是一种非侵入性技术,不断产生大量高分辨率的大脑图像。这些图像使我们能够探索大脑连接和潜在反应如疾病或心理状态之间的联系。对于每个数据点,受试者的大脑被扫描数百次。因此,它是一个包含成百上千像素的三维时间过程图像,大量,并且高维。同时,由于其技术限制和可能的头部运动,FMRI图像存在噪声。再者,在过去二十年里,经济学和金融学领域内有越来越多的公司采用数据驱动的方法来进行更有针对性的服务,降低风险,提高绩效。他们正在实现专门的数据分析程序来收集、存储、管理和分析来自各种来源的大型数据集,以识别可以用来支持更好的决策制定的关键业务眼界。例如,可用的金融数据来源包括股票价格、货币和衍生品交易、交易记录、高频交易、非结构化新闻和文本、隐藏在社交媒体和互联网中的消费者信心和商业情绪等。分析这些庞大的数据集有助于衡量企业风险以及系统风险。
对大数据的处理分析正成为新一代信息技术融合应用的结点。以社交网络数据分析为例,大量的社交网络数据由诸多社交软件产生,这些数据解释了众多个体的特征,比如消费者偏好和信心、领先的经济指标、商业周期、政治态度以及社会经济和社会状态等等。
在大数据时代,一些新的应用程序也正在成为可能,包括:
结构化的数据和非结构化的数据,都可以形成大数据。其中,结构化数据所形成的大数据的“大”体现在样本容量大(大N),维数高(大p),以及异质性(heterogeneous);而非结构化数据所形成的大数据,则意味着数据结构不标准且复杂、格式多样、存储占比高、信息量丰富。
基于以上特征,大数据创造了传统数据集无法拥有的独特功能。同时,这些特征产生了一些在大数据分析中不可忽视的性质,并推动了新统计方法的发展。
2.1 异质性
异质性本质上是指数据拥有不同的中心,这是因为大数据通常是通过聚合多个对应于不同子群体的数据源来创建的,而每个子群体都可能表现出一些其他种群所没有的独特特征。
异质性所带来的挑战在于,对于大型数据集的混合模型的推断需要复杂的统计和计算方法。在低维情况下,可以采用有限混合模型的期望最大化算法等标准技术。然而,在高维情况下,我们需要谨慎地调整估计过程,以避免过度拟合或噪声积累,并设计出良好的计算算法。
2.2 噪声累积性
噪声累积性源于我们分析大数据时,需要同时估计或测试许多参数。当决策或预测规则依赖于大量这样的参数时,这些估计错误就会累积。这种噪声积累效应在高维空间中尤为严重,甚至可能控制真实信号。它通常由稀疏性假设处理。
2.3 伪相关性
高维度也会带来伪相关性。这是因为在高维中,许多不相关的随机变量可能具有较高的样本相关性。伪相关性可能导致虚假的科学发现和错误的统计推断。
2.4 偶然内生性
偶然内生性是另一个由高维性引起的微妙问题。在线性回归 中,“内生性”意味着一些预测 和残差噪声 相关。
不同于伪相关性,偶然内生性指的是变量之间在无意中存在的真实的相关性,这两者都是由于高维性造成的。伪相关性类似于发现两个人长得很像但没有遗传关系,而偶然内生性类似于偶遇熟人,两者都很容易在大城市发生。更普遍地说,内生性是选择偏差、测量误差和遗漏变量的结果。这些现象在大数据分析中经常出现,主要有两个原因:
其一是,得益于新的高通量测量技术,科学家能够并倾向于收集尽可能多的特征,这就增加了其中一些可能与噪音有关的可能性。
再则,大数据通常来自多个数据源,它们可能具有不同的数据生成方案。这增加了选择偏差和测量误差的可能性,也会导致潜在的偶然内生性。
随着大数据时代的到来,数据已经成为一种新的资产类别,就像货币、黄金一样。同时,随着大数据应用的发展,大数据的价值得以充分体现,它在企业和社会层面成为重要的战略资源,数据成为新的战略制高点,是大家抢夺的新焦点。
应用大数据力量可以获得商业上更大的成功,并且生物制药、医疗、电信、金融等行业也在应用大数据来提升自己的竞争力。我们有理由相信,大数据将不断成为机构和企业的资产与提升竞争力的有力武器。
科学是第一生产力,而大数据分析则是现代科学的依据。
大数据分析中,挑战与机遇并存。目前,处理非结构化数据尚未有很好的方法。基于结构化大数据的特点,我们分析大数据时,有以下目标:
针对高维数据,我们的目标是开发有效的方法来预测未来的观测,同时获得特征和响应之间的关系;而样本容量大,要求我们理解异质性以及不同子群体之间的共性——换而言之,要探索数据中每个子群体的隐藏结构,这在传统上是不可行的,在样本量小的情况下,甚至可能被视为“离群值”;另外,即使存在较大的个体差异,也要在许多子群体中提取重要的共同特征。
因此,我们也面临着以下挑战:
由于样本容量大,产生实验差异、统计偏差的问题;高维性带来了噪声积累、伪相关性和偶然同质性;大样本和高维度相结合,会产生诸如沉重的计算成本和算法不稳定性等问题。此外,异质性数据由于采用不同的技术,在不同的时间点,从多个来源进行聚合,因而数据拥有不同中心,这要求我们开发更具适应性和稳健性的程序。
由于处理适量样本的方法无法处理海量样本,对低维数据表现良好的统计方法在分析高维数据时也面临巨大挑战,传统方法不再适用,因此,为了应对大数据的挑战,我们需要新的统计思维与计算方法。这要求我们平衡统计准确性和计算效率的同时,还需要解决大数据的异质性、噪声积累性、伪相关性和偶然内生性等大数据问题。
综上所述,在统计精度方面,降维和变量选择在高维数据分析中起着关键作用,从而激发了新的正则化方法和独立性筛选;在计算效率方面,大数据推动了新的计算基础设施和数据存储方法的发展,因此,优化成为了统计学家在大数据分析中的工具。但需要注意的是,尽管研究范式有所转换,可是,为人所认可的好的统计学研究标准是亘古不变的:
1、好的统计学研究是应用导向的(application oriented)。统计方法效果的好坏,不以小圈子的同行评议为转移,而必须由各行业的真实数据集,经由该统计方法延伸出算法程序的结果来证实有效。
2、好的统计学研究(大概率)使用复杂多变的数学工具(mathematically sophisticated)。在一个统计学新领域的早期发展阶段,简单的代数运算加上一些微积分可能就足够了,直到这些问题被穷尽。以目前的局势,即便有只需要简单的代数运算与微积分就能解决的统计问题,交给一台计算机就能解决,根本轮不到让一个统计系学生为此大费周章写一篇论文。
3、好的统计学研究在计算上具有挑战性(computationally challenging)。在大数据时代,对高性能计算能力的要求是不可或缺的。简单地按照公式化的随机模拟,无法满足真正的实证研究。
4、好的统计学研究蕴含的理论性质优越(theoretically superior)。这样的理论性质例如较快的渐近速度、精简的估计方程、一致置信域等。但这样的理论性质不应该是人为构造的。
5、好的统计学研究能产生方便用户使用的程序(user-friendly)。这些程序具有直观的吸引力、速度快、数值准确且易于解释。
第一条是有能力在现代数学上有所造诣的统计学工作者经常轻视的。轻视这一条的结果,是在不考虑现实问题的描述的情况下,就对已有的统计学结果进行假设条件的减弱,或者增加一些模型的结构,人为的制造出一个较为复杂的数学问题,然后求解这个人造的问题,最终发表一篇新文章。而轻视第一条的人,大概率也不会重视第五条。毕竟,发表的文章反正也不会有人拿来分析任何实际数据,哪里还有动力去费时费劲儿地去编写一个直观、准确、快速、易于解读的程序呢?
忽略第二条,则是另一个有害的极端。一些统计学年轻人,过早的告别了测度论与公理化的抽象概率论,对于生存分析、空间统计、极大极小理论、非线性时间序列、半参数统计推断、无穷维数据分析这些需要大量现代数学做铺垫的研究方向,是不可能得心应手的。即便勉强做出来什么名堂,也难登大雅之堂。可是,即便是大量使用复杂的数学工具证明出的定理,也未必符合第四条。因为,“天意从来高难问”,殚精竭虑地使用heavy machine也不一定能让定理走向一个理论性质优越的结果,从而创造一套优美的数据分析方法。
第三条则是第四次工业革命前夜的必然。解决这个时代的人类长期生存所面临的特有问题,比如“黄河流碧水,赤地变青山”,又如“呼风唤雨,撒豆成兵”,新时代的“木牛流马”——人工智能等等,都需要按照大自然的规律,与大自然进行深度互动,而非按照既定的公式化规律,如打牌下棋一般按照人类指定的规则与之互动。
然而不可否认,大数据时代的范式转换,的确导致了快速算法的重大进展,这种算法可扩展到高维度的海量数据,这就形成了不同领域的交叉。例如,可以证明计算机领域中的非确定性多项式时间困难(NP-hard)最佳子集回归可以重新转化为一个统计学领域中的l范数惩罚的最小二乘问题,该问题可以用内点法求解。除了大规模优化算法外,大数据还推动了优化-最小化算法、“大规模筛选和小规模优化”框架、并行计算方法和可扩展到大样本规模的近似算法的发展。
如前文中我们提到的,大数据的诸多特征导致了一些不可忽视的新性质,这些性质使得传统方法失效,给数据分析工作带来挑战。下面,我们将具体来谈大数据对统计思维和计算效率的影响,并介绍能够处理大数据分析中的挑战的新方法。
4.1 大数据对统计思维的影响
在统计思维方面,目前我们对非结构数据尚未有很好的处理办法。针对结构化大数据的三个特征,我们发展出了不同的统计方法。
4.1.1 样本容量大
分块征服法的思想非常简单,即:将N个样本分成K份,在每一份上进行推断,再融合到一起。如果有数据集,其样本量太大而不能装入一台计算机,或者对于计算密集型的数据分析太昂贵时,我们就可以考虑使用分块征服法。需要注意的是,将K有限和K趋于无穷的情况加以区分。
K有限时,则是我们经典的meta方法;当K趋于无穷时,认为K与N有关,目前已有的方法通常只能做到N/3的情况。
子抽样主要就是从总的数据集中随机找出子集S,然后根据子集S做推断,依次重复R次,最后取平均值。当R越来越大的时候,算出来的值和真实值就会非常接近。
大数据的数据量很多,但真正有用的,可能是经过处理的摘要数据,例如均值、方差,或者整个数据集中的一小部分子数据集。类似于实验设计的基本动机,摘要数据的目的是通过选择信息最丰富的数据点,使得较小规模的子数据能保留完整数据中包含的大部分信息,从而使得我们可以最大化地获取信息。传统上,优化实验设计不是一个数据分析工具,而是侧重于数据收集。然而,我们还是可以借鉴“最大化”信息矩阵的思想来建立一个框架,从完整的数据中识别出信息最丰富的子数据,用于估计未知参数。
4.1.2 维数高
4.1.3 异质性
辅助信息方法
由于异质性数据来自不同的中心,直接使用存在相当的困难。在处理上,可能需要采用非常规的方法,比如可以在一个中心中进行建模,而其他的中心仅采用一些概括性的信息,就可以提高统计推断的精度。在建模中,也可以通过简约模型来提供全模型的辅助信息,提高全模型推断的可靠性。
4.2 大数据对计算的影响
大数据是海量的、高维的,这对大规模优化的计算基础设施及计算方法都提出了重大挑战。从计算设施的角度上看,许多应用中,我们需要分析包含数十亿甚至数万亿个数据点的互联网级数据,这甚至使整个数据集的线性遍历变得难以负担。此外,这些数据可能是高度动态的,不可能存储在集中的数据库中。从计算方法的角度,使用大量变量进行优化不仅代价高昂,而且遭受缓慢的数值收敛速度和不稳定性。因此,为了适应大数据时代的要求,我们需要在计算基础设施和计算方法上进行发展。
4.2.1 大数据对计算基础设施的影响
在“大数据对统计思维的影响”一节中,我们提到,存储和处理海量数据的一个方法是“分而治之”的分块征服法,其思想在于将一个大问题划分为更易于处理的子问题,每个子问题由不同的处理单元并行处理,然后将每个中间结果组合起来产生最终的输出。在小范围内,这种分块征服法可以通过多核计算或网格计算来实现,然而,在非常大的范围内,它对计算基础设施提出了根本的挑战。
此外,对于大型计算任务,我们希望将其均匀地分配给许多计算机,并使工作负载平衡。设计超大规模、高自适应和容错的计算系统是一个极具挑战性的工作,它需要新的可靠的计算基础设施来支持大规模的并行数据存储和处理。
Hadoop最初是由Google研发的基于java的大规模分布式并行计算模型,用于分布式数据管理和处理以及海量数据离线计算。后来由Apache作为开源项目推出,成为现如今大数据处理的主流系统框架之一。
它包含一组用于分布式计算的开源库,这些库使用MapReduce编程模型和它自己的分布式文件系统HDFS。Hadoop自动促进可拓展性,并负责检测和处理故障。
在过去的几十年里,计算科学与我们的工作以及家庭生活密切相关,可是,即便环网被大量使用,几乎所有的计算资源也仍然都是本地的。然而,随着云计算的发展,大多数计算资源都被托管在了网络上。
云计算是一种通过网络按需提供可动态伸缩的廉价计算服务,并革新了现代计算范式。它允许一切——从硬件资源、软件基础设施到数据集——作为一种服务随时随地交付给数据分析师。云计算最引人注目的特点是它的弹性和可伸缩能力,这使得它适合存储和处理大数据。
4.2.2 大数据对计算方法的影响
一方面,惩罚拟似然估计在高维数据上的直接应用要求我们解决非常大规模的优化问题,大规模非光滑优化过程的可伸缩实现是非常必要的;另一方面,庞大规模的大数据也导致了数据管理和查询方面的密集计算。应该寻求并行计算、随机算法、近似算法和简化实现。因此,在统计程序的发展过程中,必须认真考虑统计方法对高维度和大样本的可扩展性。我们将在“非光滑优化的一阶方法”一节中引入可伸缩的一阶算法来解决这些估计器。我们还注意到,现代数据集的容量正在爆炸,它往往是不可计算的直接作出推断的原始数据。因此,为了从统计和计算的角度有效地处理大数据,在许多应用中提倡并利用降维作为一个重要的数据预处理步骤。
为了求解惩罚拟似然估计,而对于大多数损失函数,这个优化问题没有封闭形式的解,需要迭代过程来解决它。
在大数据时代,直接对原始数据矩阵进行推理通常是计算上的难题。一个重要的数据预处理过程是降维导入,即找到一个低维的矩阵D的压缩表示,但在D中保留尽可能多的信息。
本文从统计和计算方面讨论了大数据分析的进展,并根据大数据的几个独特的特点,战略性地讨论了一些解决方案。
除了大样本容量和高维数的挑战之外,大数据还有其他几个重要的特征值得关注。这些包括
(1)复杂数据挑战:由于大数据通常是来自多个来源的聚合,它们有时会表现出具有非平凡尾部依赖关系的行为。
(2)噪声数据挑战:大数据通常包含各种类型的测量误差、离群值和缺失值。
(3)依赖数据挑战:在各种类型的现代数据中,如金融时间序列、fMRI、时间序列微阵列数据等,样本之间相互依赖,信号相对较弱。
The world comes to us. 这个世界向我们涌来。每一天,这个世界都以一种几乎处处收敛的速度向我们涌来——它有纷繁复杂的善变人事,却也有充沛肥沃的眼见为实。而作为当代青年统计学工作者,我们需要有更高的追求。应当凭借自己在统计推断与数据分析方向上无可取代的专长,与物理学、工程学、材料科学、环境科学等领域的专家合作,改善人类生存的物理环境与社会环境;与医学、化学、生命科学等领域的专家合作,为公民提供精准的医疗保障;与经济金融的专家合作,使经济健康稳定可持续发展,维护国家金融安全……而不仅仅是制造“啤酒和尿布应该在超市里摆在一块”、“大数据预测《花木兰》的电影票房价值”这类茶余饭后的谈资。