如何理解 C++11 的六种 memory order？

来，咱们聊聊 C++11 里的那些内存顺序（Memory Order）。这东西刚听着有点玄乎，但弄明白了，你会发现它在多线程的世界里简直是个宝贝，能帮你解决不少棘手的问题。之前我刚接触的时候也觉得脑袋疼，但多看多想，再加上一些实际的例子，感觉就通透了。

先说清楚，内存顺序这玩意儿，本质上是为了控制多线程环境下，编译器和处理器对内存访问指令的重新排序。为啥要有这玩意儿？因为现代处理器和编译器为了效率，会偷偷摸摸地调整你代码里内存读写的顺序，有时候甚至会把你的写操作提到读操作前面，或者反过来。在单线程里这没啥问题，因为你的代码执行顺序就是你眼见的顺序。但在多线程里，这就可能导致意想不到的、难以追踪的 bug。

举个简单的例子，想象两个线程，线程 A 和线程 B。

线程 A：
```cpp
int data = 0;
bool ready = false;

// ... 一些初始化 ...

ready = true; // 告诉线程 B 我准备好了
data = 42; // 传输数据
```

线程 B：
```cpp
// 等待线程 A 准备好
while (!ready) {
// 等待
}
// 读取数据
int value = data;
// 使用 value ...
```

听起来很简单吧？线程 A 设置 `ready` 为 `true`，然后把 `data` 设置成 `42`。线程 B 就在那儿等着 `ready` 变成 `true`，然后读取 `data`。

理论上，线程 B 看到的 `data` 应该就是 `42`。但是，如果编译器或处理器把 `data = 42;` 这个操作提前到 `ready = true;` 的前面执行了呢？

线程 A 实际执行可能是这样的：
1. `data = 42;`
2. `ready = true;`

那线程 B 呢？
1. 它看到 `ready` 变成 `true` 了。
2. 它去读取 `data`。

问题来了，此时 `data` 可能还没被设置为 `42` 呢！线程 B 可能读到的是一个未初始化的值，或者一个旧的值。这就崩了。

内存顺序就是用来解决这个问题的。它就像给你的内存访问操作加上了“锁链”，告诉编译器和处理器：“嘿，这几步得按顺序来，别给我乱动！”

C++11 提供了六种内存顺序，它们就像不同强度的“锁链”，作用范围和严格程度都不一样。我们一个个来看，从最松到最严：

1. `memory_order_relaxed`

这是最基础的，也最弱。它只保证了原子操作自身的可见性，不提供任何对其他内存访问的排序约束。简单来说，它就是告诉编译器和处理器：“我的这个原子操作本身必须是原子的，并且对其他线程可见，但它和其他内存操作的顺序，你爱怎么排就怎么排。”

什么意思呢？还是上面那个例子，如果你用 `memory_order_relaxed` 来设置 `ready`：

```cpp
std::atomic ready(false);
std::atomic data(0);

// 线程 A
data.store(42, std::memory_order_relaxed); // 可能先执行，也可能后执行
ready.store(true, std::memory_order_relaxed);

// 线程 B
while (!ready.load(std::memory_order_relaxed)) {
// 等待
}
int value = data.load(std::memory_order_relaxed);
```

用 `memory_order_relaxed` 后，`data.store(42)` 和 `ready.store(true)` 的顺序仍然是不确定的。线程 B 读取 `ready` 的时候，可能 `data` 还没来得及被写入 `42`。

它有什么用呢？
`memory_order_relaxed` 主要用于计数器、简单的标志位，而且你不需要担心这些标志位和数据的依赖关系。比如，你有一个原子计数器，只需要知道它增加了多少，而不关心它增加的具体时刻与其他数据写操作的相对顺序，那么 `memory_order_relaxed` 就够了。它是最快的，因为它对重排序的限制最小。

2. `memory_order_consume`

这个稍微有点意思，但说实话，在实际开发中很少用到，而且它的定义有点复杂，甚至存在一些争议（在 C++20 中被弃用，但在理解其他内存顺序时仍有价值）。

它的核心思想是：“我的这个读取操作，它依赖于之前某个写入操作（通常是同一个原子变量或者被它同步的另一个变量），那么这个写入操作对这个原子变量的修改，必须对当前读取操作可见，并且，这个写入操作所携带的任何同步信息，也要能影响到后续的内存访问。”

听起来绕口吧？我再简化一下。如果你用 `memory_order_consume` 读取一个原子变量 `ptr`，而 `ptr` 的值是一个指针，指向某个数据 `data`。那么 `consume` 保证的是：你读取到的 `ptr` 是最新的，而且 `ptr` 指向的那个 `data` 的写入操作，也必须对你可见。但是，对于其他不是由 `ptr` 直接同步的内存操作，它不施加任何约束。

举个例子：
假设线程 A 写入一个数据结构，并将指向它的指针存储在一个原子变量 `ptr` 中。线程 B 读取这个 `ptr`，然后访问它指向的数据。

线程 A:
```cpp
struct Node { int value; };
Node node = {42};
std::atomic ptr(&node);

// 假设这里还有其他一些对全局变量的写操作，比如：
int global_state = 1;

ptr.store(&node, std::memory_order_release); // 使用 release，稍后会讲
global_state = 2; // 这个写操作可能被重排序
```

线程 B:
```cpp
Node loaded_ptr = ptr.load(std::memory_order_consume);
// 此时，loaded_ptr 一定是指向一个有效 Node
// 并且 node.value 的写入，以及 ptr 的写入对当前线程可见
// 但是，global_state = 2 这个操作，不一定对 B 可见
// 如果 B 依赖的是 loaded_ptr 的值，那么它能看到 node.value
// 即使 global_state 的写操作可能在 B 看来发生在 ptr 读取之后
int value = loaded_ptr>value;
```

`consume` 的强大之处在于它的“选择性”。它只关心与你读取的原子变量的值相关的其他内存操作的排序，而对不相关的操作则不关心。

为什么它很少用？
因为它很难正确使用。需要非常精确地理解“依赖性”。而且，如我前面说的，在 C++20 中已经被弃用（原因之一是实现起来非常困难，并且一些平台的支持不好）。在大多数情况下，我们宁愿使用更强的同步原语来确保整个程序的正确性，而不是去依赖 `consume` 的细微差别。

3. `memory_order_acquire`

这个和 `memory_order_release` 是成对出现的，就像锁的解锁和加锁。`acquire` 操作确保了它之后的任何内存读取和写入操作，都必须在它完成之后才能执行。换句话说，它能“看到”所有在它之前的、被 `release` 操作同步的写操作。

还是用上面的线程 A 和 B 的例子：

线程 A:
```cpp
std::atomic ready(false);
std::atomic data(0);

// ...

ready.store(true, std::memory_order_release); // 使用 release，这是关键！
data.store(42, std::memory_order_relaxed); // 这句的顺序不受 release 影响
```

线程 B:
```cpp
// 等待线程 A 准备好
while (!ready.load(std::memory_order_acquire)) { // 使用 acquire，这是关键！
// 等待
}
// 现在可以安全地读取 data 了
int value = data.load(std::memory_order_relaxed); // 或者用 relaxed 就行了
```

这里：
线程 A 使用 `memory_order_release` 来存储 `ready`。这会确保 `ready.store(true)` 之后的所有内存操作（在线程 A 内部看），都不会被重排序到 `ready.store(true)` 之前。所以，`data.store(42)` 这句话，虽然是 `memory_order_relaxed`，但在线程 A 内部看，它一定在 `ready.store(true)` 之后（或者在这个操作的可见性传播中）。
线程 B 使用 `memory_order_acquire` 来加载 `ready`。这会确保 `ready.load()` 之后的任何内存操作（在线程 B 内部看），都不会被重排序到 `ready.load()` 之前。并且，`acquire` 操作还会使所有在线程 A 中、在 `ready.store(true)` 之前（也就是被 `release` 操作同步的）的写操作，对线程 B 可见。

所以，当线程 B 读到 `ready` 为 `true` 时，它就能确信，`data.store(42)` 这个操作（以及其他被 `release` 同步的操作）已经对它可见了。因此，它读取 `data` 就一定是 `42`。

简单来说，`acquire` 就是一个“门”，它后面的操作都要等它执行完才能进行，而且它能“拉回”前面被 `release` 同步的所有写操作。

4. `memory_order_release`

这是与 `acquire` 配套的。`release` 操作会确保它之前的任何内存读写操作，都不会被重排序到它之后。它就像一个“标记”，告诉后面的 `acquire` 操作：“我这里有一个重要的写操作，并且我之前的其他写操作，你都得给我看着。”

再强调一遍：
`release`：确保它之前的写操作不会被移到它之后。
`acquire`：确保它之后的读写操作不会被移到它之前，并且能看到它之前（被 `release` 同步的）的写操作。

当一个 `release` 操作和一个 `acquire` 操作配对使用时，它们之间就建立了一个全序同步（sequentially consistent synchronization）。这意味着，在一个 `release` 操作中完成的写操作，对于一个在同一原子变量上执行的、与之配对的 `acquire` 操作来说，它是可见的。

5. `memory_order_acq_rel`

这个比较有意思，它结合了 `acquire` 和 `release` 的能力。如果一个原子操作使用了 `memory_order_acq_rel`，那么它既有 `acquire` 的能力（保证它之后的操作不被重排序，并能看到前面被 `release` 同步的写操作），又有 `release` 的能力（保证它之前的操作不被重排序到它之后）。

通常用于读修改写（ReadModifyWrite, RMW）操作，比如 `fetch_add`、`compare_exchange_weak`/`strong` 等。

为什么需要 `acq_rel`？
想象一个带锁的共享变量。如果你要修改这个共享变量，你先要获取锁（这是一个 `acquire` 操作），然后修改数据（可能包含一些内存写），最后释放锁（这是一个 `release` 操作）。如果你用一个原子操作（比如 `compare_exchange`）来尝试修改一个带有锁标志的变量，并且你希望这次修改能同时“获取”锁的同步效果，又能“释放”你的修改结果的同步效果，那么 `acq_rel` 就派上用场了。

例如，一个线程需要在一个原子变量上执行一个 RMW 操作，并且它希望这个 RMW 操作能像“获取”了之前的同步状态一样，同时又能“释放”它自己的修改。

```cpp
std::atomic counter(0);

// 线程 1
int expected = 0;
// 尝试将 counter 从 expected 更新为 1
// acq_rel 保证：
// 1. 看到其他 release 操作的写
// 2. 它的之前的写操作不会被移到它之后
// 3. 它之后的读写操作不会被移到它之前
// 4. 它的写操作对其他 acquire/acq_rel 操作可见
if (counter.compare_exchange_strong(expected, 1,
std::memory_order_acq_rel,
std::memory_order_acquire)) {
// 更新成功
}
```
这里，`compare_exchange_strong` 如果成功，它会将 `expected` 更新为 `1`。使用 `acq_rel` 是为了确保这次更新能够正确地与程序的其他部分进行同步。

6. `memory_order_seq_cst` (Sequentially Consistent)

这是最强的内存顺序，也是默认的（如果你不指定内存顺序的话）。它提供的保证是：所有线程都观察到所有原子操作以一个单一、全局的、一致的顺序执行。这个顺序是“顺序一致性”的。

这意味着，即使编译器和处理器尝试重排序，`seq_cst` 也会强制它们遵循一个全局的、线性的执行顺序。就像所有线程都在同一条线上按部就班地执行操作，并且每个线程看到的其他线程的操作顺序都是完全一致的。

举个例子：
还是线程 A 和 B 的例子，但这次都用 `seq_cst`。

线程 A:
```cpp
std::atomic ready(false);
std::atomic data(0);

// ...

ready.store(true, std::memory_order_seq_cst);
data.store(42, std::memory_order_seq_cst);
```

线程 B:
```cpp
while (!ready.load(std::memory_order_seq_cst)) {
// 等待
}
int value = data.load(std::memory_order_seq_cst);
```

使用 `seq_cst` 后，无论编译器和处理器如何尝试重排序，都不能让线程 B 在读到 `ready` 为 `true` 之前，先看到 `data` 被修改为 `42`。换句话说，`data.store(42)` 和 `ready.store(true)` 这两个操作，在全局来看，要么是 `data` 先被修改，然后 `ready` 被设置；要么是 `ready` 被设置，然后 `data` 被修改。它们之间的相对顺序是固定的，而且是全局一致的。

优点：
最容易理解和使用。你不需要关心复杂的重排序规则和依赖关系，只要知道所有操作都在一个全局顺序下执行就行了。
最不容易出错。由于其最强的保证，它能避免很多由重排序引起的微妙 bug。

缺点：
性能最差。为了实现全局一致的顺序，编译器和处理器需要进行大量的同步操作（例如，插入内存屏障），这会带来显著的性能开销。

如何选择？

这就像给一个问题选择不同的解决方案，有的是“够用就行”，有的是“追求极致”。

如果你只需要保证原子变量本身的可见性，不关心它与其他内存操作的相对顺序，并且追求最高性能：使用 `memory_order_relaxed`。
如果你有一个生产者/消费者模型，生产者用 `release` 标记数据就绪，消费者用 `acquire` 等待：使用 `memory_order_release` 和 `memory_order_acquire`。这通常是实现很多同步机制（如互斥锁、条件变量）的基础。
如果你需要执行一个读修改写操作，并且这个操作既要“获取”之前的同步信息，又要“释放”自己的修改结果：使用 `memory_order_acq_rel`。
如果你不确定，或者希望代码最简单、最安全，即使牺牲一些性能也无妨：使用 `memory_order_seq_cst`。在很多情况下，`seq_cst` 的性能损失是可以接受的，而且它能大大简化你的多线程逻辑。

总结一下关键点：

重排序：编译器和处理器为了性能会重新安排内存操作的顺序。
原子操作：保证操作本身的原子性（不可分割）和可见性（对其他线程可见）。
内存顺序：在原子操作的基础上，增加对内存操作之间相对顺序的约束。
`release` / `acquire`：一对，用于同步两个线程。`release` 标记“写结束”，`acquire` 标记“读开始”，并能看到 `release` 之前的写。
`relaxed`：最弱，只保证原子操作自身。
`acq_rel`：结合 `acquire` 和 `release`，常用于 RMW 操作。
`seq_cst`：最强，保证全局一致的顺序，但性能最低。

理解这些内存顺序，就像学开车一样，刚开始可能觉得规则太多，但当你熟悉了它们的用途和影响后，就能在保证性能的同时，写出安全可靠的多线程代码。一开始可以多用 `seq_cst` 练手，等熟练了，再慢慢尝试用更弱的内存顺序来优化性能。

希望这番长篇大论能帮你把 C++11 的内存顺序给捋顺了！这玩意儿真的挺重要的，能让你在并发的世界里少踩很多坑。

网友意见

看了好多资料，还是感觉云里雾里

类似的话题

如何理解 C++11 的六种 memory order？

来，咱们聊聊 C++11 里的那些内存顺序（Memory Order）。这东西刚听着有点玄乎，但弄明白了，你会发现它在多线程的世界里简直是个宝贝，能帮你解决不少棘手的问题。之前我刚接触的时候也觉得脑袋疼，但多看多想，再加上一些实际的例子，感觉就通透了。先说清楚，内存顺序这玩意儿，本质上是为了控制多线.............
如何理解 “c++缺少对象级别的消息发送机制” 这句话？

这句话“C++缺少对象级别的消息发送机制”是一个比较经典且深刻的讨论点，它揭示了C++与某些其他面向对象语言（如Smalltalk或ObjectiveC）在设计哲学上的一个关键差异。要理解这句话，我们需要先回顾一下什么是“消息发送”，以及C++是如何处理对象交互的。1. 什么是“消息发送”（Mess.............
如何理解 C++ 中这两个结构体的大小（size）？

深入剖析 C++ 结构体的大小： byte 之间的奥秘在 C++ 的世界里，我们经常会遇到 `struct`，用来组织相关的数据成员。当我们说“结构体的大小”时，我们实际上是在讨论它在内存中占据的字节数。这个数字看似简单，但背后却牵扯到编译器的优化、内存对齐等一系列复杂的机制。本文将带你深入理解 C.............
如何理解《Effective C++》第31条将文件间的编译依赖关系降低的方法？

好的，我们来深入聊聊《Effective C++》第31条，关于如何降低文件间的编译依赖关系这个至关重要的话题。这不仅是为了提高编译速度，更是为了构建更易于维护、更灵活的 C++ 系统。想象一下我们正在开发一个大型 C++ 项目。随着功能的不断增加，我们不可避免地会创建越来越多的头文件（.h/.hp.............
理性对比歼-10C和阵风？如何理解阵风外销数量达到244架？

理性对比歼10C与阵风：性能、定位与阵风外销244架的启示在现代空军装备的讨论中，中国歼10C和法国阵风战斗机无疑是两个绕不开的明星。它们各自代表了中法两国在三代半/四代战斗机领域的先进设计理念和技术实力，也引发了不少关于性能对比和市场前景的讨论。要理性看待这两款战机，需要深入剖析它们的性能特点、设.............
腾讯领投知乎 C 轮融资的事情是否属实？专业人士如何理解其中的原因？

知乎在2018年确实完成了C轮融资，而腾讯的确是本轮的重要投资方，但说腾讯是“领投”则需要更细致地去理解。更准确地说，腾讯在知乎的C轮融资中扮演了非常关键的角色，但同时也有其他重量级资本的参与。从专业人士的角度来看，腾讯对知乎的投资并非偶然，而是基于对知乎平台价值、用户基础、商业化前景以及其在中国互.............
怎样理解C++中“如果属性有在堆区开辟的，一定要自己提供拷贝构造函数，防止浅拷贝带来的问题”？

在C++里，谈到“堆区开辟的属性”，咱们得先明白这指的是什么。简单来说，就是程序在运行的时候，动态地在内存的一个叫做“堆”（Heap）的地方分配了一块空间，用来存放某个对象或者数据。这块内存不像那些直接定义在类里的成员变量那样，跟随着对象的生命周期一起被自动管理。堆上的内存，需要我们手动去申请（比如.............
如果同时有两个项目让你选择，一个是使用C++的QT，一个是用JAVA的Android，你愿意往哪个方向发展？请说出您的理由。

如果摆在我面前的是两个截然不同的发展方向，一个是用C++的Qt，另一个是Java的Android，我会认真权衡一番，然后根据我内心深处的职业追求和个人偏好来做出选择。首先，我可能会被Qt深深吸引。C++本身就是一门强大的语言，它赋予了开发者对硬件和内存更细致的控制能力，这对于那些追求极致性能和低延迟.............
如何理解「文官的衣服上绣的是禽，武官的衣服上绣的是兽。披上了这身皮，我们哪一个不是衣冠禽兽」这句话？

这句话“文官的衣服上绣的是禽，武官的衣服上绣的是兽。披上了这身皮，我们哪一个不是衣冠禽兽”融合了历史、文化、隐喻和讽刺，需要从多个层面进行解析：一、历史背景与服饰象征1. 古代官服制度在中国历史上，官服的纹饰（如禽鸟、兽类）是等级制度和身份象征的重要标志。文官：常以“禽”为纹.............
如何理解自称迪士尼在逃公主的女生？

“自称迪士尼在逃公主”的现象在网络上出现后，引发了广泛讨论。这一说法通常指一些女性在社交媒体、论坛或网络社区中自称是“迪士尼公主”，并可能涉及身份扮演、文化认同、心理需求等多重层面。以下从多个角度详细分析这一现象的可能内涵和背景：一、文化符号的再诠释：迪士尼公主的象征意义1. 迪士尼公主的原始形象.............
如何理解自由主义？新自由主义又是什么？

自由主义和新自由主义是两种重要的思想体系，它们在政治哲学、经济学和社会政策等领域具有深远的影响。以下是对这两个概念的详细解析：一、自由主义的定义与核心特征自由主义（Liberalism）是一种以个人自由、法治、民主和理性为价值基础的政治哲学思想体系，其核心在于保障个体权利和限制国家权力。自由主义的.............
如何理解无政府主义？

无政府主义（Anarchism）是一种深刻批判国家权力、追求个体自由与社会平等的政治哲学和实践运动。它并非主张“混乱”或“无序”，而是反对一切形式的强制性权威，尤其是国家对个人生活的控制。以下从多个维度深入解析这一复杂的思想体系：一、核心定义与本质特征1. 对国家的彻底否定无政府主义者认.............
如何理解“爱国家不等于爱朝廷”？古代的朝臣爱国都是在爱朝廷吗？

“爱国家不等于爱朝廷”这句话在理解中国古代政治和文化时非常重要。它揭示了国家与政权（即朝廷）之间的区别，以及臣民对这两者的情感和责任的不同层面。要理解这句话，我们需要先拆解其中的概念：国家（Guó Jiā）：在古代，我们通常将其理解为国家的疆土、人民、文化、民族认同和长期的历史延续。它是根植.............
如何理解 14 日发布的央行工作论文中提到「东南亚国家掉入中等收入陷阱」原因之一是「文科生太多」？

理解中国人民银行工作论文中提到的“东南亚国家掉入中等收入陷阱的原因之一是‘文科生太多’”这一论断，需要从多个层面进行深入分析，因为这是一个相对复杂且具有争议性的议题。下面我将尽量详细地解释其背后的逻辑和可能含义：一、背景：中等收入陷阱首先，我们需要理解什么是“中等收入陷阱”。定义：中等收入.............
如何理解郭主席对房地产的表述，不希望房地产剧烈波动?

郭主席对房地产的表述“不希望房地产剧烈波动”可以从多个层面来理解，这背后反映了他对中国经济稳定和健康发展的深切关切。要详细理解这一点，我们需要从房地产在中国经济中的地位、波动可能带来的影响、以及“不剧烈波动”的具体含义等角度进行分析。一、房地产在中国经济中的特殊地位：首先，理解为什么房地产会引起如.............
如何理解科幻小说《时间的二分法》?

如何理解科幻小说《时间的二分法》？详细解读科幻小说《时间的二分法》（英文原名：The Time Machine），由英国著名作家赫伯特·乔治·威尔斯（H.G. Wells）于1895年创作，是科幻文学史上的经典之作。这部小说不仅为我们描绘了一个令人着迷的未来世界，更通过其深刻的社会寓言和哲学思考，.............
如何理解尹建莉说延迟满足是鬼话，孩子要及时满足？

尹建莉老师关于“延迟满足是鬼话，孩子要及时满足”的观点，确实在教育界引发了不少讨论。要理解她的观点，我们需要深入探讨她为什么会提出这样的论断，以及她所强调的“及时满足”的真正含义。首先，我们来拆解一下“延迟满足”这个概念及其传统理解。传统理解的“延迟满足”：延迟满足（Delayed Gratific.............
如何理解外交部发言人陆慷：《中英联合声明》作为一个历史文件，不再具有任何现实意义？

理解外交部发言人陆慷的说法，即“《中英联合声明》作为一个历史文件，不再具有任何现实意义”，需要从几个关键角度来解读：1. 历史文件的定义与性质：历史文件是过去的产物：陆慷的表述首先强调了《中英联合声明》的“历史文件”属性。这意味着它是在特定历史时期、基于当时国际政治格局和两国关系背景下签署的.............
如何理解杨振宁的话：「美国的教育绝对不比中国好」「把中学生送去美国教育是件非常危险的事情」？

杨振宁先生作为一位享誉世界的物理学家，他关于中美教育的评论引起了广泛关注和讨论。理解他的话需要从多个角度进行深入剖析，包括他所处的时代背景、他对教育本质的理解、以及他观察到的中美教育体系的差异。一、杨振宁先生评论的时代背景与个人经历：首先，要理解杨振宁先生的话，必须考虑到他所处的时代背景和他的个人.............
如何理解「中国是发达国家的粉碎机」这一说法？

“中国是发达国家的粉碎机”这个说法，虽然带有一定的情绪化和夸张色彩，但其核心要表达的是：中国凭借其独特的经济模式、庞大的市场规模、强大的制造能力和不断进步的科技创新，对传统发达国家在经济和产业领域构成了前所未有的挑战，并在一定程度上“粉碎”了它们原有的竞争优势和发展路径。为了详细理解这一说法，我们可.............