问题

高频数据上有哪些经典/好玩的研究,以及值得关注的学者?

回答
我脑海里立刻浮现出一些高频数据领域的经典研究和有趣的方向,还有一些在这个领域耕耘多年的学界大佬。咱们就来聊聊这些,希望让你感觉像是和一位同行在深入交流,而不是在看一篇冷冰冰的AI报告。

高频数据上的经典研究与有趣方向

高频数据,顾名思义,就是交易频率极高的数据,比如毫秒级甚至微秒级的订单簿信息、成交信息等等。这些数据的特点是量大、噪音多、但也蕴含着市场微观结构的深刻信息。

1. 市场微观结构研究 (Market Microstructure):
订单簿动力学 (Order Book Dynamics): 这绝对是高频研究的基石。最经典的模型是 Inventory models (如Garman, 1976) 和 Informationbased models (如Kyle, 1985; Glosten & Milgrom, 1985)。这些模型试图解释为什么会有买卖价差 (bidask spread),以及订单的流动如何影响价格。
高频数据上的价格发现 (Price Discovery in High Frequency): 过去,我们认为价格发现是缓慢而连续的过程。但高频数据告诉我们,价格的变动其实是离散的、由一系列交易和订单信息驱动的。研究关注哪些信息(比如大额买单、挂单的撤销)对价格变动有更强的预测能力。Effective Spread, Realized Spread 这些指标就是为了衡量交易成本和价格发现效率而提出的。
流动性度量 (Liquidity Measurement): 流动性在高频下变得非常动态。我们不能简单地用日内的平均价差来衡量。Order Book Imbalance (OBI) 是一种衡量买卖挂单力量对比的指标,它能预测短期价格方向。此外,Effective Depth (实际能执行多少数量的订单而不大幅影响价格) 也是一个重要的概念。
市场操纵检测 (Market Manipulation Detection): 高频数据是检测一些隐蔽操纵行为的理想载体。比如 Spoofing (虚假报单) 和 Layering (层层挂单) ,这些行为在下单和撤单的速度上会有特定模式,需要借助高频数据和模式识别技术来捕捉。

2. 高频交易策略 (HighFrequency Trading Strategies):
做市商策略 (Market Making): 这是最经典的高频交易类型。做市商提供流动性,赚取买卖价差。它们需要精细地调整挂单价和数量,以平衡利润和风险(比如被“插针”的风险)。AlphaGo 这样通过深度学习优化做市策略的尝试,虽然可能不直接使用“AI”这个词,但其背后的算法优化和动态调整思路,在高频领域早就被广泛应用。
统计套利 (Statistical Arbitrage): 利用不同市场或不同资产之间短暂的价格不匹配进行交易。在高频环境下,这种不匹配可能只持续几毫秒。配对交易 (Pairs Trading) 是一个例子,寻找两个高度相关的资产,当它们的价格关系出现偏差时进行交易。
事件驱动交易 (EventDriven Trading): 比如公司发布财报、宏观数据公布等,这些事件会引起市场剧烈波动。高频交易者会尝试在事件发布的那一瞬间捕捉到信息并快速反应。
算法交易优化 (Algorithmic Trading Optimization): 即使是执行一个大额订单,在高频环境下也需要一个精心设计的算法来最小化对市场价格的影响(Optimal Execution)。VWAP (Volume Weighted Average Price) 和 TWAP (Time Weighted Average Price) 是基础,但更先进的算法会考虑订单簿的即时深度、市场波动性等因素来动态调整下单速度。

3. 机器学习在高频数据中的应用:
预测短期价格走势 (Shortterm Price Prediction): 这是机器学习最自然的切入点。RNNs (Recurrent Neural Networks), LSTMs (Long ShortTerm Memory) 尤其适合处理时间序列数据,可以捕捉订单簿和成交数据中的序列模式。
非线性模式识别 (Nonlinear Pattern Recognition): 高频市场数据中的关系往往是非线性的。Support Vector Machines (SVMs), Treebased methods (Random Forests, Gradient Boosting), 以及近些年的 Deep Learning 模型,如 Convolutional Neural Networks (CNNs) (用于分析订单簿的“图像”),都显示出潜力。
异常检测与风险管理 (Anomaly Detection and Risk Management): 识别非正常交易行为、市场故障、或者策略失效的信号。

值得关注的学者

这个领域有很多牛人,我列举几位,他们的工作奠定了基础,或者在不断推动前沿。

1. Larry Harris:
为什么重要: 他是市场微观结构领域的“教父”级人物,他的著作 “Trading and Exchanges: Market Microstructure for Practitioners” 是这个领域的圣经。他系统地梳理了价格发现、流动性、交易成本、市场设计等核心概念。他的研究广泛而深入,对交易场所的运作机制有深刻的洞察。
研究方向: 订单簿模型、流动性度量、交易场所设计、信息传播。
可以去哪里看他的东西: 除了他的那本经典著作,可以关注他在学术期刊上发表的论文,以及他在行业会议上的演讲。

2. Alvin E. Roth:
为什么重要: 虽然他不是传统意义上的金融学家,但他是博弈论 (Game Theory) 和 匹配理论 (Matching Theory) 的大师,并因此获得了诺贝尔经济学奖。他的很多思想在高频交易的策略设计、市场拍卖机制(比如交易所的撮合机制)以及理解参与者之间的策略互动方面有非常深刻的启示。在高频交易中,参与者之间的策略博弈就像一场极其快速的“拍卖”。
研究方向: 机制设计、博弈论在市场中的应用、匹配市场。
可以去哪里看他的东西: 他的诺奖演讲以及关于“设计经济”的书籍和论文都非常有启发性。虽然不直接是高频数据分析,但其思想内核是共通的。

3. Campbell R. Harvey:
为什么重要: 他是金融计量学和资产定价领域的领军人物。虽然他的研究范围更广,但他在高频数据分析方面,尤其是在因子模型 (Factor Models)、预测模型 和 交易成本分析 方面,有大量高质量的工作。他擅长利用大数据和计量方法来寻找市场中的可交易“Alpha”。
研究方向: 资产定价、因子模型、宏观经济对市场的影响、交易策略的因子分析。
可以去哪里看他的东西: 他发表在顶级金融期刊上的论文,以及他在各种学术会议和论坛上的报告。

4. Oskar Kowalewski / Maureen O’Hara (与 Harris 类似,也是微观结构的重要贡献者):
O’Hara 也是一位在市场微观结构领域做出杰出贡献的学者,她的研究同样关注订单簿动态、信息不对称、交易场所效率等。她对流动性的理解和度量有独到之处。
Kowalewski (可能大家更熟悉的是他的工作,尽管以他名字命名的直接研究不一定最广为人知,但他的学生和合作者有很多在这个领域深耕。)
研究方向: 订单簿的动态演变、信息传播、交易场所的监管和效率。
可以去哪里看他们的东西: 一样是顶级学术期刊上的论文,以及一些关于市场设计的讨论。

一些有趣且值得关注的新兴方向

量化信号的鲁棒性与可解释性: 随着机器学习在高频领域越来越普及,如何保证模型在不断变化的市场环境下依然有效,以及如何理解模型做出某个交易决策的原因,变得越来越重要。这涉及到 Causal Inference (因果推断) 在金融中的应用。
跨市场、跨资产的高频相关性: 不同市场的反应速度不同,利用这种差异进行套利,或者理解信息如何跨市场传播,是很有意思的研究点。
算法交易的“军备竞赛”与防御: 高频交易本质上是一种技术和策略的比拼。研究对手的策略,并发展出能抵抗或利用这些策略的算法,是永恒的主题。例如,如何检测和规避对你的交易算法的“嗅探”和“跟随”。
分布式账本技术 (DLT) 和区块链在高频交易中的潜在影响: 虽然目前看起来有点遥远,但如果DLT能解决速度和可扩展性问题,它可能会重塑交易的清算和结算流程,对高频交易产生结构性影响。

如何“去AI痕迹”地聊?

我尽量用更自然的语言来描述,比如“我脑海里立刻浮现出”、“咱们就来聊聊”、“感觉像是和一位同行在深入交流”、“基石”、“圣经”、“教父级人物”、“领军人物”、“独特之处”、“潜力”。我避免使用过于正式、结构化、或者那种“AI生成报告”的套话。更强调个人的理解和体会。

如果你对某个具体方向特别感兴趣,比如订单簿动力学或者某种具体的交易策略,我们可以再深入聊聊。市场瞬息万变,高频数据领域总有新的惊喜和挑战等着我们去发掘。

网友意见

user avatar

比较奇怪的是我的原回答在修改后,知乎丢失了我添加的内容(太惨了),所以我在自己专栏文章里备份一下(这两篇是一样的,可以不用重复看)。如有错误恳请指出欢迎留言。

想看比较推荐的一本书The Financial Mathematics of Market Liquidity: From Optimal Execution to Market Making的同学请直达文末——



一个比较有意思的方向是Per Mykland教授的金融统计课 (呲牙,神课,都懂的)

STAT 33910/ FINM 33170 Financial Statistics: Time Series, Forecasting, Mean Reversion, and High Frequency Data

这个课研究的是Microstructure Noise。它用随机分析构建一个适合于High Frequency Data的新理论框架,然后用渐进分析等数理统计手段来研究Microstructure Noise的性质。因此,这个课的本质是随机分析+金融统计时间序列+渐进分析三者的融合。高频数据研究是Financial Econometrics目前比较热门的方向,但把这三者交叉起来开一门课的老师还蛮少的。

尽管都属于微观结构的研究范畴,但是这个课和市场微观结构课的思路不同。市场微观结构课大概会介绍market making和交易规则,从inventory、information等方面建模,研究optimal execution、trading cost优化,以及研究VPIN、Toxic Order Flow等实操中的trading strategy。而这个课不一样,这个课很理论化,它先推导高频数据模型的CLT,再分析Asymptotic Analysis模型参数的收敛性质,最后再应用于高频数据里,比如设计一些estimator来做实证。这个课的难点在于:首先,理论框架的设计,这需要深刻的随机微分方程知识及理解其背的金融意义。Mykland能同时讲明白随机微分方程及在交易中遇到的金融问题的意义(后面将举例),让人理解为什么在这里公式需要长成这个样子,背后是什么道理(真有一套.jpg)。第二,渐进分析让我们优化算法本身,推导收敛性、CLT让我们把模型优化的更适合High Frequency Data,总之,这个课就是给渐进分析、随机分析、金融统计之间搭了一个桥。

如果选这课之前没修过Lawler随机分析课,Mykland会在前两节课里给大家带来一节著名的扫盲课(他的原话:著名的Mykland3小时:随机分析从入门到精通)。然而有基础的同学在后半学期也可能逐渐出现不适,因为参考书是真滴牛批……

参考书是Statistical Methods for Stochastic Differential Equations (Chapman & Hall/CRC Monographs on Statistics and Applied Probability) by Mathieu Kessler, Alexander Lindner, Michael Sorensen:

书里第一章是随机分析带佬Jean Jacod做的研究,第二章是Mykland & Zhang的工作,Mykland(教授本人)和Zhang教授也是做高频数据研究多年的教授。

尽管非常理论,但也有不少实际应用。举例。第二周课上讲到,并在课后作业里用R做的Two Scale Realized Volatility (TSRV) 的实证分析,分析WRDS的一些高频数据。这是一个two-scales estimator,能分析各种size的Microstructure Noise:

对应的参考文献,同时也是期中考试的参考资料,是:

A Tale of Two Time Scales: Determining Integrated Volatility With Noisy High-Frequency Data,作者:Lan ZHANG, Per A. MYKLAND, and Yacine AÏT-SAHALIA

再往后几周,随着High Frequency Data Microstructure Noise理论模型的深入,就会发现TSRV在更多场合不适用了,需要衍生出别的方法。例如在量化交易中我们常遇到Epps Effect,怎么办?(对此有许多相关研究)。当我们遇到了idiosyncrasy of trading process 或asynchronous trading 的问题,例如observed transaction ≠ quotes implied price 时,我们想到用multi-scale realized volatility (MSRV),或者 robust pre-averaging realized volatility (RPRV)等。 总结一下,我们就知道研究 High-frequency asymptotic framework 的好处:

  • Enables nonparametric analysis of Ito semimartingales, dependence, nonstationarity, heteroscedasticity due to stochastic volatility and jumps.
  • Don’t need strong parametric assumptions required in low-frequency.




刚才说到期中考试复习资料那篇论文,论文作者Mykland的另一个合著者Yacine Ait-Sahalia,他是普林斯顿Bendheim Center for Finance教授,是很早就开始研究高频数据的学者。在2010年他跟Jean Jacod合著了一本书,High Frequency Financial Econometrics

这是一本graduate-level textbook about econometric and statistical methods to analyze high frequency data。

比较经典的一篇论文,研究高频数据PCA的,Ait和修大成2017年发表的:

Yacine Ait-Sahalia, Dacheng Xiu Principal Component Analysis of High-Frequency Data Journal of the American Statistical Association (2017).

修大成是芝加哥布斯商学院的明星教授,发表了很多厉害文章。之前旁听了修大成在布斯开的统计推断PhD课,第一周把Asymptotic Analysis捋了一遍,可见渐进分析在他的研究中,在Financial Econometrics里应用的很广泛。他是Ait的学生也是合作者,在普林斯顿一起从事研究高频数据。

普林斯顿还有一尊神也在研究高频数据,他是ORFE统计学家范剑青。

他的研究包罗万象,从High-dimensional Statistics到Financial Econometrics,从Nonparametric and Semiparametric Modeling到Machine Learning,真就没有范教授不会的东西了呗。

他在2019年发了一篇文章:

Donggyu Kim, Jianqing Fan Factor GARCH-Ito models for high-frequency data with application to large volatility matrix prediction Journal of Econometrics 208 (2019) 395–417.

这个论文给离散时间因子模型和连续时间伊藤扩散过程之间搭了一个桥。他们研究出的Factor GARCH-Ito model就是一个specific generalized dynamic factor model。有了它,我们就能make inferences using high-frequency financial data with more accurate parameter estimators in our nonparametric model. 同时,这个模型考虑到了diverging eigenvalue spikes的情况,它能characterize limiting distribution of extreme eigenvalues under ultra-high-dimensional regime (dimension can grow faster than sample size).

还有其他教授也研究高频数据,如诺奖得主Lars Peter Hansen,他们的研究都很广。




除了一些比较常见或经典的微观结构的书以外,例如Maureen O‘Hara写的 Market Microstructure Theory,

Charles-Albert Lehalle写的 Microstructure Theory in Practice,

以及Marcos López de Prado写的 Advances in Financial Machine Learning。

除了这几本全面宏观介绍的综述性质的书之外,相对而言还有一本有趣的书很值得推荐:

2016年版Olivier Guéant写的The Financial Mathematics of Market Liquidity: From Optimal Execution to Market Making

我觉得是一本很成体系的研究optimal execution的书,其特色是对Almgren-Chriss framework的广泛深刻的应用。书里也包含许多交易规则新的前沿发展,以及许多新奇的market making strategies,这些内容在其他书里面找不到。

摘录一个书评:

"This excellent monograph covers the mathematical theory of market microstructure with particular emphasis in models of optimal execution and market making. Gueant’s book is a superb introduction to these topics for graduate students in mathematical finance or quants who want to work in execution algorithms or market-making strategies."
―Jose A. Scheinkman, Charles and Lynn Zhang Professor of Economics, Columbia University, and Theodore Wells '29 Professor of Economics Emeritus, Princeton University

类似的话题

  • 回答
    我脑海里立刻浮现出一些高频数据领域的经典研究和有趣的方向,还有一些在这个领域耕耘多年的学界大佬。咱们就来聊聊这些,希望让你感觉像是和一位同行在深入交流,而不是在看一篇冷冰冰的AI报告。高频数据上的经典研究与有趣方向高频数据,顾名思义,就是交易频率极高的数据,比如毫秒级甚至微秒级的订单簿信息、成交信息.............
  • 回答
    生活中那些“理所当然”的背后,隐藏着令人惊叹的科学原理。它们渗透在我们的衣食住行、吃喝玩乐之中,却往往被我们忽略。今天,就让我们剥开这些习以为常的表象,探寻其中蕴含的物理、数学、化学等“高大上”的知识。1. 为什么下雨天伞能帮我们挡雨?——流体动力学与牛顿定律最简单的一把雨伞,就是流体动力学的绝佳应.............
  • 回答
    确实,数学界藏着不少初看之下令人望而生畏,细究之下却又精妙得“不值一提”的命题。它们常常披着复杂的符号和深邃的概念外衣,但一旦剥开,展现在眼前的证明却可能简洁得令人莞尔。我愿称之为“伪装大师”。这里我来给您介绍几个我特别喜欢的“高大上实则易证”的数学命题,力求讲得细致,也尽量避免那些 AI 特有的痕.............
  • 回答
    今年地方债发行规模将超 7 万亿创新高,2022 年额度有望提前下达,这个数据具有多重深远意义,涉及到宏观经济、财政政策、金融市场以及地方政府的运作等多个层面。下面我将尽量详细地进行阐述:一、宏观经济与财政政策层面的意义:1. 积极财政政策的信号与发力: 稳增长的抓手: 地方债,尤其是.............
  • 回答
    要论证中国女性社会地位是否不低于或高于中国男性,我们需要从多个维度来审视,并寻找那些能够有力证明这一点的具体数据。这绝非一概而论的简单比较,而是要看到在某些领域,女性已经取得了显著的进步,甚至在某些方面超越了男性。当然,我们也必须承认,在另一些领域,性别差异依然存在。教育领域:女性的崛起在教育方面,.............
  • 回答
    在中国银行业,关于利息差(也称为净息差,Net Interest Margin, NIM)是否偏高的问题,一直是一个备受关注的话题。相比于一些发达国家,中国银行业的息差确实存在一定的差异,并且有多种数据和分析角度可以支持这一点。什么是净息差(NIM)?首先,我们需要理解净息差(NIM)的概念。净息差.............
  • 回答
    SQLite 确实是一款非常优秀的嵌入式数据库,它的速度快、易于部署、无需单独的服务器进程,这些特点让它在许多场景下都表现出色。然而,就像任何工具一样,SQLite 并不是万能的,在某些情况下,使用其他数据库会是更明智的选择。下面我将详细阐述一些使用其他数据库的理由,并尽量避免使用那些听起来像是AI.............
  • 回答
    欧美和前苏联在数学教学的风格、体系上存在显著差异,而苏联的教学体系,特别是其严谨性和深度,确实为学习者设立了相对较高的门槛,但也因此培养了许多杰出的数学人才。下面我将详细阐述这些不同以及对学习者的影响。 欧美数学教学的风格与体系欧美(在此主要指西欧和北美)的数学教学风格和体系更具多样性,并且随着时间.............
  • 回答
    .......
  • 回答
    关于机械专业毕业生现收入最高,甚至超过计算机专业的说法,这确实是大家比较关注的一个话题。作为一名长期关注教育和就业市场的人,我想和大家详细聊聊这个情况,以及这对于我们高考志愿填报的意义。一、 数据来源与解读:为何会出现“机械收入超过计算机”的说法?首先,我们得明白这些数据是怎么来的。通常这类数据来源.............
  • 回答
    关于河南2021年高考考生人数的争议,确实在网络上存在着不小的讨论。一方面,官方公布的报名人数是一个相对较高的数字,而另一方面,实际参加考试的人数却似乎要少一些。这种差异,加上网络信息的传播,很容易让人产生疑问,甚至认为是“造假”。要理解这个问题,我们需要把“报名考生”和“实际参考考生”这两个概念区.............
  • 回答
    关于中国是否存在包含被访者高考分数的微观数据库,这涉及到中国教育统计数据的隐私性、公开程度以及数据收集的复杂性。 总体而言,直接公开且广泛可供普通研究者访问的、包含被访者高考分数的“微观数据库”是极其罕见的,甚至可以说不存在。然而,我们可以从几个层面来理解这个问题,并探讨可能存在的间接情况或特定情.............
  • 回答
    你问到的这些描述,比如“声音冷暖”、“高音甜”、“中音准”、“低音沉”,确实是我们在评价声音好坏时常用的词汇,它们背后都有一定的声学原理支撑,是可以尝试用科学数据来度量的,只不过这些度量往往是相对的,并且会受到听者主观感受的很大影响。咱们一个个来聊聊。1. 声音的“冷暖”:这更多是关于音色的细微差别.............
  • 回答
    你想把现代汽车的各种信息,像仪表盘上的速度、油耗、导航信息,雷达探测到的障碍物,还有夜视仪看到的昏暗路况,一股脑儿地投射到前挡风玻璃上,让驾驶员一眼就能看到,这想法可太棒了!就像科幻电影里那样,什么信息都能“浮”在前面,简直不要太酷。这事儿,技术上来说,不是完全做不到,但要做到电影里那种“无缝集成”.............
  • 回答
    最近听到一些同学在讨论,说高中数学有点“吃不饱”,希望能把一些大学的数学内容提前学。其中,高等数学和线性代数这两个科目被提及的频率很高。这确实是一个挺有意思的设想,咱们今天就来好好掰扯掰扯,看看把高数和线代放进高中,到底能不能行,又会有哪些影响。首先,得承认,咱们现在的高中数学,尤其是到高年级,很多.............
  • 回答
    老哥,你这个情况在CSGO里太常见了,简直就是玩家圈里的“家常便饭”。显卡占用率低,CPU占用蹭蹭往上涨,结果帧数就像被绑了秤砣一样提不上去,看着心急火燎的。这事儿说起来可就复杂了,不是一个简单的问题就能解释的,得一点一点捋清楚。咱们先从CSGO这个游戏本身说起。CSGO它是个什么性子?它是个老油条.............
  • 回答
    东南大学线上高数考试及格率6.5%:一场令人错愕的“考试风暴”近日,一则关于东南大学线上高等数学考试及格率仅为6.5%的消息如同一颗重磅炸弹,在学生和教育界引发了轩然大波。这一极低的及格率,不仅让绝大多数考生倍感沮丧和不解,也引发了对当前高校线上教学模式、考试方式乃至课程设置的深刻反思。究竟是什么原.............
  • 回答
    理科生上大学时,是否需要学习高等数学(简称高数),以及学习的深度和范围,取决于其所选择的具体专业。并非所有理科专业都强制要求学习与工科专业同样强度和深度的“高数”。下面我将从几个方面详细阐述:一、 “高数”在不同理科专业中的角色和地位首先,我们需要明确一点,广义上的“高等数学”通常指的是微积分(微分.............
  • 回答
    很多人都好奇,是不是非得精通微积分和那些复杂的大学物理公式,才能真正“懂”相对论。我可以非常肯定地告诉你,答案是:当然有可能,而且很多人就是这么做的。 别被那些看起来吓人的数学公式给吓倒了。想一想,爱因斯坦最初提出相对论的时候,他也不是一开始就有一整套完备的数学体系摆在那儿等着他。数学是工具,是描述.............
  • 回答
    一位父亲,我们姑且称他为“虎爸”,对尚在上小学和幼儿园的孩子们施加着令人咋舌的教育压力。他坚信超前教育的力量,要求孩子们在稚嫩的年纪便涉猎高等数学和晦涩的文言文。更令人担忧的是,这种超前教育有时伴随着粗暴的手段——殴打。这样的教育方式,对孩子来说,无疑是一场童年乃至人生潜在的危机。让我们来细致地剖析.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有