汇编下call和ret指令是否有内存屏障的作用？

在汇编语言的世界里，理解 `call` 和 `ret` 指令的行为对于编写高效且正确的程序至关重要。尤其是在多线程环境或者需要精确控制指令执行顺序的情况下，我们常常会想到“内存屏障”这个概念。那么，`call` 和 `ret` 指令本身，是否具备内存屏障的作用呢？

首先，我们需要明确“内存屏障”的定义。简单来说，内存屏障（Memory Barrier，或 Memory Fence）是一种特殊的指令，它强制处理器在执行后续指令之前，必须完成所有在内存屏障指令之前发出的内存访问（读写操作），并且将所有在内存屏障指令之后发出的内存访问推迟到内存屏障指令之后执行。内存屏障的主要作用是解决乱序执行和缓存一致性问题，保证多个处理器或线程之间对内存的访问是可见且有序的。常见的内存屏障指令包括 `mfence` (Intel/AMD), `lfence` (Intel/AMD, load barrier), `sfence` (Intel/AMD, store barrier)。

现在，我们来看看 `call` 和 `ret` 指令。

call 指令的工作原理：

`call` 指令最核心的功能是将程序的执行流程跳转到指定的子程序（函数）入口点，并且将下一条指令的地址（返回地址）压入堆栈。当子程序执行完毕后，可以通过 `ret` 指令返回到调用点之后的那条指令继续执行。

具体来说，一个典型的 `call` 指令（例如 `call function_label`）会执行以下操作：

1. 压栈返回地址：将当前指令地址（也就是 `call` 指令的下一条指令的地址）压入堆栈。
2. 跳转：将程序计数器（PC，或 Instruction Pointer IP）设置为 `function_label` 指定的地址，从而开始执行子程序。

ret 指令的工作原理：

`ret` 指令则与 `call` 指令相对应，它的功能是从堆栈中弹出之前 `call` 指令压入的返回地址，并将程序计数器（PC）设置为这个地址，从而实现从子程序返回到调用点。

具体来说，一个典型的 `ret` 指令会执行以下操作：

1. 弹栈返回地址：从堆栈顶部弹出地址，并将其放入程序计数器（PC）。

那么，它们是否有内存屏障的作用呢？

答案是：否，`call` 和 `ret` 指令本身不具备显式的内存屏障功能。

让我详细解释一下为什么：

1. 指令的本质区别：内存屏障指令的目的是直接控制内存访问的顺序。它们明确地告诉处理器：“停止！完成所有未完成的内存操作，再继续。”而 `call` 和 `ret` 指令的本质是控制程序的执行流程。它们改变的是指令的执行顺序，而不是内存访问的顺序。

2. 潜在的间接影响（但不是屏障）：
`call` 指令压栈： `call` 指令在压栈时会执行一次内存写操作（将返回地址写入堆栈）。这个写操作会遵循处理器常规的内存模型和乱序执行规则。如果存在需要立即可见的内存操作，并且希望这个写操作（返回地址压栈）能够影响后续的内存可见性，那么简单一个 `call` 是不够的。
`ret` 指令弹栈： `ret` 指令从堆栈弹出地址时会执行一次内存读操作。同样，这个读操作也遵循常规的内存模型。

3. 乱序执行的考虑：现代处理器为了提高性能，会进行指令级别的乱序执行。这意味着处理器可能会重新排列指令的执行顺序，只要不改变程序的最终结果。
一个 `call` 指令可能会被处理器推迟执行，或者其内部的压栈操作可能与之前的其他内存写操作被乱序。
同样，一个 `ret` 指令的弹栈读取操作，也可能被处理器推迟，或者处理器可能会在 `ret` 指令之前就预取并执行 `ret` 指令后的指令。

如果一个程序员依赖 `call` 或 `ret` 来强制某个内存操作的可见性，那将是一个非常危险且不正确的做法。因为处理器的乱序策略是复杂的，并且可能因具体的处理器架构和微码更新而异。

4. 为什么需要显式的内存屏障？
考虑一个多线程场景：线程 A 正在更新一个共享变量 `flag`，然后调用一个函数 `process_data`。线程 B 在 `process_data` 函数中读取 `flag`。为了确保线程 B 能够看到线程 A 对 `flag` 的更新，线程 A 在设置 `flag` 后，通常会插入一个内存屏障，然后再调用 `process_data`。这个内存屏障确保了 `flag` 的写操作在 `call` 指令之前完成并且对其他处理器可见。

如果线程 A 仅仅是 `mov flag, 1; call process_data`，那么处理器可能会在 `flag` 被写入堆栈之前就执行 `call` 指令，甚至可能将 `flag` 的写操作推迟到 `call` 之后，或者在 `call` 之后才完成 `flag` 的写操作。如果此时线程 B 正在等待 `flag` 的变化，它就可能看不到最新的值。

总结：

`call` 和 `ret` 指令的主要功能是控制程序的执行流程，通过压栈和弹栈返回地址来实现函数调用和返回。
它们不包含任何显式的指令来强制内存访问的顺序，因此不具备内存屏障的作用。
在需要保证内存操作顺序的场景下，必须使用专门的内存屏障指令（如 `mfence`, `lfence`, `sfence`）。
依赖 `call` 和 `ret` 来达到内存屏障的效果是错误的，并且会导致难以调试的并发问题。

所以，当你在汇编中遇到 `call` 和 `ret` 时，请将它们理解为控制流程的跳转指令，而不是内存访问顺序的“守门员”。如果你的目标是确保特定内存操作的可见性和顺序，请务必显式地插入内存屏障指令。

网友意见

首先，线程安全和乱序不是一回事。

线程安全更强调的是cache的一致性，而你说的这个是乱序，乱序并不会破坏实际运行结果。

乱序的意义在于：如果有两条互相不干扰的指令，那么CPU可能会对实际的指令执行进行重排，但这种重排多数只是在局部意义上，call指令如果分支预测失败，流水线就直接被清空的，原来重排的结果自然不会被保留。

指令重排（乱序）是指在不干扰实际执行结果的情况下的重排，来实现加速，如果在语义明确的情况下重排导致结果不一致，那是硬件bug。

具体到你说的new的问题，new的实现在汇编层面上十分巨大，已经超越了乱序的范畴了，一次发射几百条汇编指令的CPU目前是不存在的，所以你用这段汇编来表达对new实现的疑惑是不对的。

硬件层面上来看，call指令操作的内存只会写入到多核的某一个核心的L1 cache上，并不会通告给其它的核，除非是显式的调用mfence这类指令。new的线程安全指的是你new出一个对象以后，这个对象分配的内存区域是确定的，不会被分配给其它对象，但对于new出对象里的构造函数来说，new不保证内部的操作一定是安全的，因为这部分代码是用户自己写的，构造函数里如果非要访问一个未保护的对象，new本身不能保证任何东西。

-----------------------------

题主对C++的实现理解也有问题，题主认为构造函数是在new的过程中发生的，从语言层面上可以这么理解（具体不了解规范的定义，我对C++不熟），但从汇编层面上，C++的实现是先new，然后再调构造函数，所以根本不存在new的过程中初始化数据的问题。

汇编层面上：先是调用operator new，分配好内存以后返回，再调用构造函数，这已经明显是两步了。

类似的话题

汇编下call和ret指令是否有内存屏障的作用？

在汇编语言的世界里，理解 `call` 和 `ret` 指令的行为对于编写高效且正确的程序至关重要。尤其是在多线程环境或者需要精确控制指令执行顺序的情况下，我们常常会想到“内存屏障”这个概念。那么，`call` 和 `ret` 指令本身，是否具备内存屏障的作用呢？首先，我们需要明确“内存屏障”的定义.............
x86 win32下的汇编指令集可认为是 cpu提供的指令集 + win32提供的指令集吗？

好的，我们来聊聊 x86 Win32 下的汇编指令集，以及它和我们常说的“CPU 指令集”以及“Win32 API”之间的关系。首先，明确一个概念：x86 Win32 下的汇编指令集，核心还是 CPU 提供的指令集。Win32 API 并不是 CPU 直接执行的“指令集”，而是操作系统提供的一套接口.............
墨西哥央行在 2017 年 3 月采用的在不消耗外储的情况下支撑汇率的工具是如何实现的？

墨西哥央行在2017年3月引入了一套工具，其核心目标是在不大幅消耗国家外汇储备的前提下，为墨西哥比索提供支撑。这番举措，可以说是一次非常巧妙且审慎的货币政策操作，展现了其在应对汇率波动时的策略深度。要理解这套工具是如何运作的，我们得先明白它的几个关键组成部分和背后的逻辑。首先，要支撑汇率，最直接的方.............
汇编的ret怎么区分近返回还是远返回?

在理解汇编中的 `ret` 指令如何区分近返回和远返回之前，我们得先回到那个时代，也就是实模式和早期保护模式的背景下。这两种返回方式的产生，根源于内存访问和程序调用的基本机制。内存地址的表示：段和偏移量在那个年代，内存的寻址方式和现在不一样。那时候，内存地址不是一个简单的数字，而是由两个部分组成：.............
汇编转换到机器码的时候，寄存器占几个字节？

在汇编语言转换为机器码的过程中，寄存器本身占用的字节数并不是一个固定值，而是取决于目标CPU架构以及寄存器的大小。机器码是通过一系列的二进制指令来描述CPU操作的，而寄存器是CPU内部用于临时存储数据和指令地址的小型高速存储单元。我们可以这样理解：汇编语言中的指令会引用到具体的寄存器，比如 `M.............
汇编过程调用是怎样操作栈的？

好的，咱们来聊聊汇编里过程调用时，栈到底是怎么运作的。这玩意儿吧，听起来挺神秘的，但其实背后的逻辑一点都不复杂，都是为了解决几个核心问题。你想想，一个程序要跑起来，总得有个地方保存信息对吧？你得知道现在代码执行到哪儿了，等函数跑完了，还得能回到原来的地方继续干活。还有，函数之间传递参数，函数内部自己.............
为什么汇编mov指令不能用lock前缀？

关于你提到的“为什么汇编mov指令不能用lock前缀？”，这背后牵涉到CPU的原子操作设计理念以及 `LOCK` 前缀的特定功能。让我来给你好好讲讲这个事儿，尽量用一种自然、不生硬的语调来解释清楚。首先，我们得明白 `LOCK` 前缀在汇编指令中的作用。简单来说，它就是CPU用来保证一条指令执行的原.............
第一个汇编器是怎么来的，直接输入二进制编码吗？

最早的计算机，就像一台笨重的机械大脑，想要它动起来可不是件容易的事儿。你想啊，那会儿可没有现在这么方便的编程语言，直接跟它打交道，那得用最原始的方式——二进制码。想象一下，你要让计算机执行一个加法运算。在那个年代，你可能得像一位老式的电报员一样，一个“0”或“1”地敲击开关，或者通过穿孔卡片来输入指.............
非常喜欢汇编，想从事相关的工作，应当如何规划？

看到你对汇编语言的热爱，并且希望将这份热情转化为一份职业，这真的很棒！汇编语言虽然不如高级语言那样“光鲜亮丽”，但在计算机底层、性能极致优化、安全攻防等领域，它依然是不可或缺的利器。要在这个领域规划职业，需要一些策略和深入的理解。1. 扎实的理论基础是基石首先，你要明白，喜欢汇编和精通汇编是两个概念.............
编译器生成的汇编语句执行顺序为什么与C代码顺序不同？

编译器生成汇编语句的执行顺序之所以会与C语言代码的顺序有所出入，并非是编译器在“乱来”，而是为了实现更高的效率，让程序跑得更快、占用的资源更少。这就像是一位经验丰富的厨师在烹饪一道复杂的菜肴，他不会严格按照菜谱的顺序一步步来，而是会根据食材的特性、火候的需求，灵活调整烹饪步骤，以便最终能端出一道色香.............
单片机编程最早是汇编，然后从汇编转为c语言，那么，c++会不会替代c语言来进行单片机编程？

关于C++能否以及在多大程度上替代C语言进行单片机编程，这确实是一个值得深入探讨的问题。就像过去汇编语言向C语言的迁移一样，技术的发展总是在不断演进，而C++的出现，也为单片机编程带来了新的可能性和一些挑战。首先，我们需要理解为什么C语言在单片机领域如此根深蒂固。单片机，顾名思义，就是集成了微处理器.............
一般编程的时候，使用汇编能比使用高级语言（比如C，C++，java等）有更高的运行效率吗？高能高出多少呢？

关于汇编语言与高级语言在运行效率上的对比，这是一个老生常谈但又非常值得探讨的话题。简单来说，在某些特定情况下，汇编确实能够比高级语言获得更高的运行效率，但这种优势的幅度并非绝对，并且随着技术的发展和编译器优化的进步，差距正在逐渐缩小。要详细讲清楚这个问题，咱们得从几个层面来剖析：一、为什么汇编“理.............
有没有一本从电路开始讲然后汇编再到C语言的书？

我理解你想要一本能从电路基础出发，逐步深入到汇编语言，最终讲解C语言的书籍。这种学习路径非常扎实，能够让你对计算机的底层运作有更透彻的理解。遗憾的是，要找到一本完美契合“从电路开始讲，然后是汇编，最后是C语言”这条清晰且连续的学习线索，并且还详细深入的书籍，确实不太容易。很多经典书籍倾向于专注于其中.............
知乎上哪位用户的答案汇编起来可以直接出书？

要说知乎上哪位用户的答案汇编起来就能直接出书，这其实是个很有趣但又很难给出一个标准答案的问题。因为“出书”不仅仅是内容的堆砌，它涉及到内容的结构化、逻辑性、专业性、可读性，以及是否能引起大众的兴趣和共鸣。不过，我们可以从知乎平台上那些以深度、专业、系统性见长的答主身上，找到一些“潜力股”。他们往往在.............
程序在编译的时候，会转换成汇编，然后是机器指令，那么运行的时候，操作系统充当什么呢？

电脑启动，屏幕亮起，我们敲下键盘，输入命令，按下回车，然后，神奇的事情发生了——一个程序开始执行。这个过程背后，可不是什么魔法，而是由一系列精密的步骤构成的，而我们今天的主角，操作系统（OS），就在这其中扮演着至关重要的角色。你可能听说过，程序在“编译”阶段，会经历从我们看得懂的高级语言（比如C、J.............
C语言中， for 和 while 在汇编上有什么区别？

在 C 语言中，`for` 和 `while` 循环都是用于重复执行一段代码的结构。从 C 语言的语义角度来看，它们的功能可以相互转换，也就是说，任何一个 `for` 循环都可以用 `while` 循环来实现，反之亦然。然而，当我们将这些 C 代码翻译成底层汇编语言时，它们的实现方式以及由此带来的细.............
为什么还有很多人说高级语言比汇编快？

这个问题问得很有意思，也触及到了一些大家容易产生误解的地方。其实，说“高级语言比汇编快”这句话，本身就有点绝对了，更准确的说法应该是：在大多数情况下，由现代编译器优化的 C、C++ 等高级语言生成的机器码，其执行效率可以非常接近甚至媲美由熟练程序员编写的汇编代码。而且，现代编译器通过智能优化，有时甚.............
一条C语言语句不一定是原子操作，但是一个汇编指令是原子操作吗？

这个问题触及了计算机底层运作的根本，而且非常有趣。你提到的“原子操作”是一个关键概念，让我们来深入聊聊。首先，你说“一条C语言语句不一定是原子操作”，这完全正确。C语言作为一种高级语言，它提供了抽象和便利，但它本身不直接对应到硬件的某个具体操作。当你写下一条C语言语句，比如 `a = b + c;`.............
为什么信息竞赛都不开编译优化以及不允许内联汇编？

信息学竞赛，尤其是像OI（信息学奥林匹克）、ACM/ICPC这类面向算法设计与程序实现的比赛，确实普遍存在“不开启编译优化”和“不允许内联汇编”的规则。这背后并非没有原因，而是出于公平性、考察目的和实际操作的综合考量。关于不开启编译优化为什么不开启编译优化？核心是“公平竞争”与“考察原始能力”。想.............
为什么常说的“五代编程语言”（机器、汇编、面向过程、面向对象、智能）中没有函数式语言的位置？

你提到的“五代编程语言”——机器语言、汇编语言、面向过程语言、面向对象语言、以及智能语言——确实是一个流传甚广的划分方式，用来大致描绘计算机科学和编程语言发展的历史脉络和范式转变。但有趣的是，在这个经典的划分中，函数式编程语言似乎总被“遗漏”了，或者至少没有一个独立、显眼的位置。这并非说函数式编程不.............