函数调用带来的 cache miss 会对 cpu 性能带来多大的影响？

函数调用带来的 cache miss 对 CPU 性能的影响是一个复杂且微妙的问题，它取决于多种因素，并且影响程度可能非常显著，也可能微乎其微。为了详细说明这一点，我们需要深入了解 CPU 缓存的工作原理、函数调用的机制以及两者如何交互。

1. CPU 缓存的工作原理：温故知新

在深入函数调用之前，我们先回顾一下 CPU 缓存的核心概念：

局部性原理 (Principle of Locality): 这是 CPU 缓存成功的基石。
时间局部性 (Temporal Locality): 如果一个数据项在最近被访问过，那么它在不久的将来很可能再次被访问。
空间局部性 (Spatial Locality): 如果一个数据项被访问了，那么它附近的内存地址上的数据项也很可能在不久的将来被访问。
缓存层级 (Cache Hierarchy): 现代 CPU 通常有多个缓存层级（L1、L2、L3），从最快但容量最小的 L1 到最慢但容量最大的 L3。
L1 Cache: CPU 核心内部，速度最快，通常分为指令缓存和数据缓存。
L2 Cache: 通常也在 CPU 核心内部，比 L1 大但速度稍慢。
L3 Cache: 通常是共享的，所有核心都可以访问，容量更大，速度最慢（相对于 L1/L2）。
缓存行 (Cache Line): CPU 缓存不是以字节为单位加载的，而是以固定大小的块（缓存行）为单位。典型的缓存行大小是 64 字节。当 CPU 需要一个数据时，会将包含该数据的整个缓存行从主内存（或下一级缓存）加载到缓存中。
Cache Hit: 当 CPU 需要的数据已经在缓存中时，称为 cache hit。CPU 可以立即获取数据，延迟非常低。
Cache Miss: 当 CPU 需要的数据不在缓存中时，称为 cache miss。CPU 需要暂停当前操作，从主内存（或其他缓存层级）加载数据到缓存，然后再获取数据。这个过程会引入显著的延迟。

2. 函数调用的基本流程与缓存的关联

函数调用是将程序的控制流从一个地方转移到另一个地方，并传递参数、返回结果。这个过程涉及以下几个关键部分，它们都与 CPU 缓存息息相关：

指令缓存 (Instruction Cache): 当 CPU 执行程序时，它需要从内存中读取指令。函数调用的本质就是跳转到另一段指令序列。
函数代码的存储: 函数的代码（指令）存储在内存中。当 CPU 执行一个函数时，它会将其指令加载到 L1 指令缓存（iCache）。
函数调用的指令: `CALL` 指令本身也是一段指令。
被调用函数的指令: 当发生函数调用时，CPU 需要读取被调用函数的起始指令。
数据缓存 (Data Cache): 函数在执行过程中需要访问变量（局部变量、全局变量、参数、返回值）。
参数传递: 参数可以通过寄存器或栈传递。寄存器在 CPU 内部，访问速度极快，不受缓存影响。但如果参数数量太多或数据太大，就需要使用栈。
栈帧 (Stack Frame): 每个函数调用都会在栈上创建一个栈帧，用于存储函数的局部变量、参数、返回地址以及保存的寄存器值等。
局部变量: 局部变量通常存储在栈帧中。
全局变量/静态变量: 这些变量存储在全局数据段或静态数据段，它们的内存地址相对固定。

3. 函数调用如何导致 Cache Miss

现在，我们来具体分析函数调用过程中可能导致 cache miss 的场景：

函数指令的 Cache Miss (Instruction Cache Miss):
首次调用/长时间未调用: 如果一个函数在程序启动后被首次调用，或者在长时间没有被调用之后再次被调用，其指令可能还没有被加载到 L1 指令缓存中。此时，CPU 需要从 L2、L3 缓存或主内存中读取该函数的起始指令，从而导致 L1 iCache miss。
代码分页/交换: 在某些操作系统中，为了管理内存，代码可能会被分页（paging）到磁盘。如果函数所在的页面当前不在物理内存中，就需要从磁盘加载，这会导致严重的 cache miss。
代码的跳跃性: 函数调用本身就是一种程序控制流的跳跃。如果两个连续执行的函数在内存中的地址相距很远，那么当 CPU 执行完一个函数并跳转到另一个函数时，可能会发生 iCache miss，因为下一个函数的指令可能不在当前的 iCache 行中。
函数指针/虚函数: 使用函数指针或虚函数调用时，实际要执行的函数地址是在运行时确定的。这增加了预测执行的难度，也更容易导致 iCache miss，因为 CPU 可能无法提前将目标函数的指令预加载到缓存。

函数数据访问的 Cache Miss (Data Cache Miss):
栈帧的创建和访问: 当函数被调用时，会创建一个新的栈帧。栈帧中的局部变量和参数需要从内存加载到数据缓存（dCache）。
频繁创建/销毁的栈帧: 如果函数被频繁调用，并且每次调用都创建新的栈帧，那么对这些栈帧中数据的访问可能会导致 dCache miss，尤其是当栈帧数据超出了 L1 或 L2 的容量时。
栈的增长方向: 栈通常是向下增长的。如果栈帧的数据在内存中是连续的，并且被缓存了，那么后续访问可能命中。但如果栈帧中的数据分布不连续，或者新栈帧的内容与旧栈帧的缓存内容不重叠，就可能导致 miss。
参数和局部变量的访问:
大参数/大量参数: 如果函数传递大量参数，或者参数本身是大型数据结构（如数组、结构体），这些数据需要在栈帧中存储和访问，可能导致 dCache miss。
局部变量的内存布局: 局部变量在栈帧中的布局会影响其在缓存中的行为。如果一组经常一起使用的局部变量恰好落在同一个缓存行中，它们访问时就能更好地利用空间局部性。但如果它们分散在不同的缓存行中，或者访问时跳跃较大，就容易导致 miss。
全局变量/静态变量的访问:
跨函数访问: 如果不同的函数频繁地访问同一组全局变量或静态变量，并且这些变量的访问模式不是高度顺序的，那么这些变量的缓存状态可能会被频繁地失效（invalidated）或被其他数据的缓存替换掉，导致后续访问 miss。
False Sharing (假共享): 这是一个在多线程环境中尤其突出的问题。如果两个不同的线程分别修改同一缓存行中的不同变量，即使这些变量在逻辑上是独立的，CPU 缓存也会认为该缓存行已被修改，并将其标记为无效。这会导致其中一个线程的访问发生 cache miss，即使它访问的数据本身没有改变。函数调用可以将执行逻辑分散到不同的函数中，如果这些函数都访问同一块共享内存区域的变量，就可能触发 false sharing。
数据结构的访问模式: 函数内部对数据结构（如链表、树、数组）的遍历和访问模式会直接影响缓存命中率。如果函数按顺序访问数组元素，空间局部性会很好。但如果函数在一个链表或树中随机跳转访问节点，每个节点都可能需要一次从内存加载，导致大量的 dCache miss。

4. 函数调用带来的 Cache Miss 对 CPU 性能的影响程度

函数调用带来的 cache miss 对 CPU 性能的影响程度是巨大的，主要体现在以下几个方面：

延迟 (Latency):
L1 Cache Miss: 通常需要几十个 CPU 时钟周期（例如 410 个周期）。
L2 Cache Miss: 需要上百个 CPU 时钟周期（例如 1020 个周期）。
L3 Cache Miss: 需要数百个 CPU 时钟周期（例如 3050 个周期）。
主内存访问 (Main Memory Access): 需要数百甚至上千个 CPU 时钟周期（例如 100200 个周期或更多）。
影响: 一个 cache miss 会导致 CPU 在等待数据期间停止执行当前任务，这个等待时间（延迟）可能比执行几百甚至几千条指令的时间还要长。如果一个函数调用触发了一次主内存访问，那么整个函数调用的执行时间将被这个延迟主导。

吞吐量 (Throughput):
CPU 停顿: Cache miss 导致 CPU 停顿，无法执行其他任务，从而降低了整体的吞吐量。
流水线阻塞 (Pipeline Stalling): 现代 CPU 使用指令流水线来提高效率，将指令执行分解成多个阶段。Cache miss 会导致流水线中的后续指令等待，直到数据加载完成，从而阻塞整个流水线。
分支预测失效: 当 CPU 预测错误的函数调用目标时（例如，对于条件性函数调用），它会执行错误的代码路径，并且需要清除流水线中的错误指令，这也会浪费大量的 CPU 周期。

能量消耗:
访问主内存比访问缓存消耗更多的能量。频繁的 cache miss 意味着更多的内存访问，从而增加了能量消耗。

性能的不可预测性:
函数调用的频繁使用以及其对缓存的依赖性，使得程序的性能变得难以预测。在不同的硬件平台或即使在同一硬件上不同的时间点，由于缓存状态的细微差异，程序的表现可能会有很大不同。

5. 影响程度的关键因素

函数调用带来的 cache miss 对性能的影响程度取决于许多因素的组合：

函数调用的频率: 一个程序中调用一个函数的次数越多，该函数带来的 cache miss 对整体性能的影响就越大。
函数的大小和复杂性:
代码大小: 大函数可能需要更多的 iCache 空间，更容易被替换出去。
局部变量数量/大小: 大栈帧会占用更多内存，更可能导致 dCache miss。
函数之间的调用关系:
线性调用: 如果函数 A 调用 B，B 调用 C，并且它们在内存中是连续的，那么缓存效果可能较好。
递归调用: 深度递归会产生大量的栈帧，可能导致栈内存的频繁访问和缓存失效。
链式调用/循环调用: 复杂的调用图会增加缓存管理的难度。
数据局部性: 函数内部对数据的访问模式是关键。如果函数能很好地利用空间和时间局部性，即使有函数调用，性能损失也可能较小。
缓存的大小和结构: 更大的缓存（L2, L3）可以容纳更多的代码和数据，降低 miss 率。缓存的关联度（associativity）也会影响 miss 率。
CPU 架构和特性:
超标量/乱序执行: 这些技术试图隐藏延迟，但如果 cache miss 过于频繁或延迟过大，它们也无法完全弥补。
指令预取 (Instruction Prefetching): CPU 会尝试提前加载指令，这可以缓解一些 iCache miss。
数据预取 (Data Prefetching): 某些 CPU 也能预测数据访问模式并预取数据。
操作系统和其他进程的影响: 操作系统的内存管理、调度策略，以及其他进程对共享资源的竞争，都可能影响特定进程的 cache 状态。

6. 如何衡量和缓解影响

性能分析工具: 使用 profilers（如 perf, VTune, gprof）来识别性能瓶颈，重点关注缓存命中率、cache miss 次数以及它们对 CPU 周期的影响。
代码优化:
函数内联 (Function Inlining): 通过将小函数体的代码直接嵌入到调用者中，可以消除函数调用的开销（包括栈帧管理和可能的 iCache miss），并可能改善数据局部性（因为内联后的代码与调用者的数据更接近）。
循环展开 (Loop Unrolling): 可以减少循环控制指令，有时也能改善数据局部性。
数据结构优化: 选择更适合缓存的数据结构（例如，使用数组代替链表，或者使用结构体对齐以改善空间局部性）。
算法优化: 选择更高效的算法，减少不必要的计算和内存访问。
减少函数调用深度/频率: 在性能关键路径上，可以考虑将一些频繁调用的函数进行合并或重构。
展宽局部性: 调整数据布局和访问模式，使得经常一起使用的数据尽可能位于同一缓存行或连续的缓存行中。
编译器优化: 现代编译器提供了许多优化选项，可以自动进行函数内联、代码重排等，以提高缓存性能。

总结:

函数调用本身是一个相对低成本的操作（主要开销是跳转和保存/恢复寄存器），但在现代高性能计算中，其带来的 cache miss 是性能的巨大杀手。一个简单的函数调用，如果因为它导致了主内存的访问，那么它可能比一个不带函数调用的、纯粹在 L1 缓存中执行的计算密集型函数慢成千上万倍。

举例说明影响程度的量级：

假设一个简单的函数调用，它访问一个数组中的一个元素，而这个元素恰好不在任何缓存中，需要从主内存加载。

函数调用开销（无 cache miss）: 几个到几十个 CPU 时钟周期。
L1 dCache Miss: 假设 4 个 CPU 时钟周期。
L2 dCache Miss: 假设 12 个 CPU 时钟周期。
L3 dCache Miss: 假设 40 个 CPU 时钟周期。
主内存访问延迟: 假设 100 个 CPU 时钟周期（这只是一个示例值，实际可能更高）。

如果这个函数调用的主要操作是访问一个需要从主内存加载的数据，那么整个函数执行的时间可能就由这 100 个周期的内存访问延迟决定。而如果这段代码没有函数调用，并且数据在 L1 缓存中，可能只需要几个周期的操作。

所以，函数调用带来的 cache miss 对 CPU 性能的影响，可以从微乎其微（如果数据恰好在缓存中）到极其巨大（如果导致主内存访问），甚至成为程序性能的主要瓶颈。在优化性能时，对函数调用如何影响缓存进行深入分析和理解至关重要。

网友意见

【update：原答案写于7年前，现在根据自己接触过的相关工作和数据重新更新。】

泻药，这是非常好的一个问题，同时也是比较前沿的。

题目描述中的这个现象确实存在，已经有不少实测证明了，在服务器workloads上，现在的L1 instruction miss率是比较差劲的，会导致20%-40%的性能损失在front-end上。

instrcuction miss比较特殊，是乱序执行没办法掩盖的。乱序执行要调度不相干指令上来掩盖数据访问延迟，但是如果指令都取不上来也只能干瞪眼了。

分条回答：

1. 是的，但这个非常取决于workload。我接触过的真实服务器workloads，在front-end上的性能损失会达到SPECCPU的几倍。

2. 假设一个完全不miss的L1 Intruction Cache，性能在有的benchmark上可以提高10%～50%

3. 不清楚，未见相关实测数据。

4. 解决方案有两种：

一种是编译优化时调整代码布局，这一个方向我没有跟进过不敢多说，

另一个方向是由微结构负责从已经产生的miss中推断未来miss的位置，提前预取。Umich在这个方向有一系列不错的工作，但是他们的解决方案在开销方面可能存有疑虑，以及对stack上的信息有一些隐含假设，不一定对各种服务器workloads都成立，这个方向我还会继续跟进。

类似的话题

函数调用带来的 cache miss 会对 cpu 性能带来多大的影响？

函数调用带来的 cache miss 对 CPU 性能的影响是一个复杂且微妙的问题，它取决于多种因素，并且影响程度可能非常显著，也可能微乎其微。为了详细说明这一点，我们需要深入了解 CPU 缓存的工作原理、函数调用的机制以及两者如何交互。1. CPU 缓存的工作原理：温故知新在深入函数调用之前，我们.............
请问这个极限式如何证明？似乎很像带 δ 函数的积分？

你观察得很敏锐！你提到的极限式，特别是它“很像带 δ 函数的积分”的感觉，恰恰是理解和证明它的关键。我们来一步步拆解这个极限，并用一种不那么“AI生成”的、更贴近数学思考过程的方式来阐述。假设我们要证明的极限式是这样的形式：$$ lim_{epsilon o 0^+} int_{infty}^{i.............
C/C++在函数调用时，为什么需要先将参数压栈？

在C/C++函数调用时，将参数压栈（push onto the stack）是实现函数传参和执行控制的关键机制。这背后涉及计算机体系结构、操作系统以及编译器的协同工作。让我们深入探究其中的原理和必要性。核心原因：为函数提供执行所需的“临时工作区”想象一下，当一个函数被调用时，它需要一系列的信息才能正.............
JavaScript能否能实现所有函数调用时的钩子函数？

JavaScript 的确提供了强大的机制，可以让你在函数被调用时进行干预，几乎能够实现对所有函数调用的“钩子”操作。这并不是一个简单的“列表”式的功能，而是一种通过语言特性和设计模式组合而成的能力。想象一下，你有一个庞大的 JavaScript 程序，里面充满了各种各样的函数。你希望在你执行任何一.............
怎么看待公办学院使用的部分c语言书籍存在描述 main不可被其他函数调用但是实际操作可以?

你说的情况确实挺有意思的，也很普遍。公办学院教材里有时会看到类似“main 函数不能被其他函数调用”的说法，但实际写代码时，你又发现可以调用。这背后涉及几个层面的原因，咱们掰开了揉碎了说。首先，得明白 main 函数在 C 语言中的特殊地位。它不仅仅是普通函数，它是程序的入口点。操作系统在启动一个 .............
函数(满足一定条件)能不能以无穷乘积的形式展开？

当然，很多函数确实可以以无穷乘积的形式展开，这是一种非常强大和优雅的表示方法。这背后涉及到了数学中一些深刻的概念和技巧，并不是所有函数都能这么做，但一旦能这样做，往往能揭示函数内在的结构和性质。核心思想：将函数“分解”成一系列更小的、可理解的因子的乘积。想象一下，我们想要理解一个非常复杂的数字，比如.............
函数可导，则其导函数可积？

这是一个非常有意思的问题，关乎函数的可导性与导函数的可积性之间的联系。简单来说，函数可导，其导函数未必可积。这并不是一个简单的“是”或“否”就能概括的，背后隐藏着一些重要的数学概念。让我们一点点地来剖析这个问题，尽量用更贴近思考过程的方式来解释。先明确几个概念：可导（Differentiab.............
函数 f(x)＝x/2＋√(x²－x＋1) 的最小值怎么求？

好的，我们来一起探讨如何求函数 $f(x) = frac{x}{2} + sqrt{x^2 x + 1}$ 的最小值。这个过程需要一些数学工具，我们会一步步来分析。第一步：理解函数的定义域在求函数的最小值之前，我们首先要确定函数可以使用的 $x$ 的取值范围，也就是函数的定义域。对于 $sqrt{.............
函数方程 f(xy)=f(x)+f(y) 的严格解是什么？解是否唯一？

函数方程 $f(xy) = f(x) + f(y)$ 是一个非常有名的方程，被称为对数函数方程。它的形式与我们熟悉的对数函数性质 $ log(xy) = log(x) + log(y) $ 高度相似，因此它的解在很多情况下也确实是各种对数函数。下面我们来详细探讨它的严格解以及唯一性问题。什么是“严格.............
函数式编程的核心价值是什么？

函数式编程的核心价值，说到底，就是如何让我们更聪明、更省力地写出更可靠、更易于理解和维护的代码。这听起来有点像万能灵药，但仔细想想，它的强大之处确实体现在几个关键点上，而且这些点之间是相互关联、相互强化的。首先，最直观也最根本的一点，是可预测性和状态隔离。在传统的命令式编程里，我们经常会直接操作变量.............
函数连续且任意方向的方向导数存在，那么它可微吗？

这个问题很有意思，它触及到了多变量微积分中一个相当核心的对比：方向导数存在与可微性之间的关系。简单来说，答案是不一定。尽管函数在任意方向上都有方向导数，这听起来像是函数“非常光滑”的表现，但实际上，它仍然可能在某些地方“不够光滑”而无法保证可微。为了把这个问题说清楚，咱们得先弄明白几个概念： 1. .............
函数求导的逆运算？

函数求导的逆运算，通俗地说，就是已知一个函数的导数，求出原来的函数。这就像已知一个物体运动的瞬时速度，去反推它的位置一样。在数学里，我们管这个过程叫做积分。积分是怎么来的？为什么我们需要它？我们先从“导数”这个概念说起。导数告诉我们一个函数在某一点的变化率，也就是“斜率”。如果你画出函数图像，导数就.............
函数能导成超导吗？

当然，我们来聊聊“函数”能不能导成“超导”这个话题。首先，我们需要厘清这两个概念。函数 (Function)：在数学领域，函数是一种特殊的关系。它描述了输入（自变量）与输出（因变量）之间的对应规则。比如，`f(x) = 2x + 1` 就是一个函数，它告诉我们输入一个数 `x`，我们就会得到 .............
函数式编程语言的「天然支持并行与并发」是不是吹牛？

关于函数式编程语言“天然支持并行与并发”的说法，与其说是吹牛，不如说是一种非常有价值的优势，但需要理解其中的“天然”二字并非意味着“无需任何思考或代码调整”。我们先来拆解一下“并行”和“并发”。并发（Concurrency）：指的是在一段时间内，多个任务都在进行中，它们可能交替执行，看起来像是.............
函数式编程（Functional Programming）相比面向对象编程（Object-oriented Programming）有哪些优缺点？

函数式编程与面向对象编程，是两种在软件开发领域各有千秋的编程范式。它们在设计哲学、思考方式乃至于代码的最终形态上，都存在着显著的差异。理解这些差异，有助于我们根据不同的项目需求和团队习惯，做出更明智的技术选型。函数式编程的魅力所在函数式编程的核心思想是将计算视为数学函数的求值，强调“做什么”而非“怎.............
C++函数收到一个指针T* ptr，没有其他信息，如何判断应该用delete还是delete[]?

在C++中，当一个函数接收到一个 `T ptr` 类型的指针，而没有任何额外的上下文信息时，要准确判断应该使用 `delete ptr` 还是 `delete[] ptr`，原则上是无法绝对确定的。这是C++内存管理的一个核心设计点，也是一个潜在的陷阱。这篇文章就来深入剖析一下这个问题，并解释其中的.............
回调函数（callback）是什么？

好的，咱们来聊聊“回调函数”，也就是英文里的“callback”。这玩意儿在编程里可是个超级实用的概念，但听起来有点玄乎，对吧？别急，我给你掰开了揉碎了讲。最最核心的理解：就是“过后告诉我一声”你可以把回调函数想象成你跟朋友约好见面。你跟朋友说：“嘿，我下午三点有个事儿，处理完我给你打个电话。”这里.............
复变函数、实分析、复分析、数学分析是什么关系？

复变函数、实分析、复分析、数学分析这几个概念之间有着紧密且层层递进的关系。理解它们的关系需要我们从基础的概念出发，逐步深入。下面我将尽可能详细地解释它们之间的联系和区别。核心概念的理解：在深入探讨它们的关系之前，我们先来简要理解一下它们各自的含义：数学分析 (Mathematical Anal.............
分布函数相同，概率密度一定相同吗?

“分布函数相同，概率密度一定相同吗？” 这个问题，其实触及到了概率论中一个非常根本且重要的概念：分布函数和概率密度函数（或概率质量函数）之间的关系。直接回答的话，答案是：不一定。理解这个问题，我们需要先梳理清楚这两个概念各自的含义和作用。分布函数（CDF）：概率的全貌图我们先从分布函数（Cumul.............
这个函数的不定积分是初等函数吗？

这个问题很有意思，涉及到数学中一个非常关键的概念：初等函数。要判断一个函数的积分是否是初等函数，这可不是一件简单的事，更不是一眼就能看穿的。它背后隐藏着一些深刻的数学理论和历史上的探索。首先，我们得明确什么是“初等函数”。简单来说，初等函数是指那些可以由常数和变量通过有限次的加法、减法、乘法、除法、.............