计算型存储/存算一体如何实现？

好的，咱们这就来聊聊计算型存储/存算一体这玩意儿，它到底是怎么实现的。别看名字听起来有点绕，其实它的核心思想挺实在的——就是把计算能力往前推，往存储那里挪。

为啥要这么干？传统存储的痛点

你想啊，咱们现在的数据量是蹭蹭蹭地往上涨，人工智能、大数据分析、物联网，哪一样不是吃数据的大户？传统的架构，数据在存储设备里躺着，计算任务来了，得先把数据从存储挪到内存，再挪到CPU那里去，计算完了，可能还得再挪回来。这中间一来一回的，就像物流运输，跑得越远，消耗的时间和能量就越多。

数据搬运瓶颈 (Data Movement Bottleneck): 这是最核心的问题。CPU忙着算，存储设备也忙着存，但它们之间就像两个隔着很远的点，中间无数次地倒数据，这成了效率的“卡脖子”环节。尤其是在大数据处理、深度学习这些需要海量数据快速交互的场景下，这个瓶颈就更明显了。
能耗增加: 数据搬运不仅耗时，也耗电。每次数据传输，都有电能消耗。数据量越大，搬运次数越多，这电费可就不是小数目了。
延迟: 数据在存储和计算单元之间来回穿越，自然就会产生延迟。对于需要实时响应的应用，这一点尤为致命。

存算一体：把计算“搬”到存储里去

存算一体，顾名思义，就是把“存储”和“计算”这两个本来分开的功能，想办法融合在一起。它不是说要把CPU整个塞进SSD里，而是把一些适合在存储端进行的计算任务，直接放到存储设备内部或者非常靠近存储的位置来实现。

咱们可以从几个层面来理解它的实现方式：

1. 架构层面的演进：从“分开”到“靠近”

传统架构： CPU（或GPU、FPGA等计算单元） + 内存 + 存储设备（SSD、HDD）。数据需要在存储和计算单元之间多次移动。
计算型存储（Computational Storage）：这是实现存算一体的一个重要方向。它指的是在存储设备（比如SSD）内部或者在其接口附近，集成计算单元（比如FPGA、ARM处理器、ASIC等）。
存储控制器上的计算：最直接的方式是在SSD的控制器芯片上，集成一些更强大的处理器，让控制器不仅能管理闪存芯片，还能执行一些预设好的计算任务。
PCIe接口的扩展：通过PCIe接口，可以将一些计算加速卡（如FPGA卡）直接挂在存储总线上，或者在存储设备本身就集成具备一定计算能力的协处理器。
新型存储介质的融合：还有一些更前沿的研究，是直接在存储介质本身（比如一些新型的内存技术）上集成计算功能。

2. 实现计算型存储的具体技术和模式

前面提到了集成计算单元，具体是怎么做的呢？

FPGA（现场可编程门阵列）方案： FPGA的优势在于它的灵活性，可以根据不同的计算任务，重新配置硬件逻辑。这意味着，一块计算型SSD可以被编程来执行多种不同的计算任务，比如数据压缩、数据过滤、加密解密、甚至是简单的AI推理。
优点：灵活性高，可以针对特定应用进行优化。
实现方式：在SSD的PCB板上，除了 NAND Flash 芯片和主控芯片外，还会集成一颗FPGA芯片。主控负责存储管理，FPGA负责执行计算任务。
ARM处理器（或专用AI芯片）方案：这种方案是集成一个通用的处理器核心（如ARM）或者专门的AI加速芯片。
优点：性能通常比FPGA更稳定、更易于开发，尤其适合运行固定的、高性能的计算任务，比如AI推理。
实现方式：类似于FPGA方案，在SSD主控旁边增加一个ARM核或者AI加速器。
ASIC（专用集成电路）方案：对于一些非常成熟且固定的计算任务，可以使用ASIC来设计专门的芯片。
优点：功耗最低，性能最高，成本较低（大规模量产时）。
缺点：灵活性最差，一旦设计完成，就无法更改。
接口层面的计算：有些方案是在SSD的接口（如NVMe）上进行扩展，让接口本身具备一定的智能和计算能力，或者通过特定的驱动程序和软件栈，在主机端对存储数据进行“近数据处理”。

3. 软件和协议的配合

光有硬件还不行，还得有软件来指挥。

计算型存储协议（Computational Storage Protocol）：为了让主机和计算型存储设备之间能有效沟通，需要定义一套协议。NVMe（NonVolatile Memory Express）是目前SSD的主流接口协议，基于NVMe，社区和业界正在推进NVMeoF (NVMe over Fabrics) 以及NVMe Computational Storage 等相关标准。这些标准定义了如何将计算任务（例如，一个数据过滤操作）下发到计算型存储设备，以及如何接收计算结果。
软件栈和API：主机端的应用程序需要通过特定的库和API来调用计算型存储的功能，而不需要关心计算具体是在SSD内部执行，还是在CPU那里执行。这就像你调用一个函数，你只关心函数的功能，不关心它是如何实现的。
任务调度和卸载：操作系统或存储管理软件需要能够识别哪些计算任务适合卸载到存储端，并有效地将这些任务发送给计算型存储设备。

举个例子：SSD里的数据过滤

想象一下，你要从一个庞大的数据库里找出符合特定条件的数据。

传统做法： SSD把所有数据读出来，传给CPU。CPU一行一行地扫描，判断是否符合条件。数据量大时，搬运和CPU扫描都会很慢。
存算一体做法：你把“找出符合条件数据”这个指令和条件，通过计算型存储协议发送给SSD。SSD内部的计算单元（比如FPGA）直接在NAND Flash芯片附近（甚至在读取数据的过程中）进行过滤。只有符合条件的数据，才会被读取出来并传给主机CPU。

这样一来，数据搬运量大大减少，CPU的负担也减轻了，整个过程就快了很多，也省电了很多。

存算一体的几种主要形态（按融合程度分）

我们可以把存算一体想象成一个“融合度”的谱系：

1. 存储驱动器上的计算 (ComputeinStorage Drive): 这是最常见的形式，即前面提到的计算型SSD。把计算能力直接集成到SSD里。
2. 存储单元内的计算 (ComputeinStorage Unit/Cell): 更进一步，直接在存储介质本身（比如新型的相变存储器、忆阻器等）上进行计算。这被称为“近数据处理”（NearData Processing）或者“在存储介质上计算”（InMemory Computing/InStorage Computing）。这通常需要全新的存储介质和电路设计。
3. 存储控制器内的计算 (ComputeinController): 在SSD主控制器芯片内部增加更强的计算核心，负责一些基础的、但对效率提升显著的计算任务。

总结一下实现的关键点

硬件集成：在存储设备内部或接口附近集成计算单元（FPGA、ARM、ASIC等）。
协议与接口：定义和实现新的协议，让主机能高效地将计算任务下发到存储端。NVMe 标准是重要的基石。
软件栈：提供驱动、库和API，让应用程序能够方便地使用计算型存储的能力。
任务卸载机制：能够智能地判断和分配计算任务，将适合的任务推送到存储端。

说白了，存算一体就是想打破数据搬运的瓶颈，让计算离数据更近，从而提升效率、降低能耗。这玩意儿不是一蹴而就的，涉及到硬件、软件、协议等多个层面的协同工作。但随着数据量的爆炸式增长，这条路会越走越顺。

网友意见

存算一体，以前有一家公司真做过，我在这家公司做了6年。

这家公司叫做Neomagic，做notebook graphic 的，在1996-2000间还是非常厉害的，

曾经占全球50%市场。它用DRAM工艺做GPU芯片进行图像处理。

这家公司当年和日本的三菱进行合作做的。

存算一体，在最近应该适合AI的应用，最主要是减少搬memory的功耗。

但是，独立走一条路，成本是非常高的。

memory 工艺比logic 慢三倍，cell 面积大4倍，只有3-4层metal，就这几条就得自己走一条新的前端+后端的道路。

Neomagic 死于逻辑工艺shrink 太快了，DRAM工艺跟不上。

每次cell设计，逻辑设计都非常复杂。

三菱好像把整套技术卖给了力晶。力晶可以做。三星最近也在做。

此路能通，难度非凡。

新的忆阻器的，如果密度能上去，当然可能是一条新的路。

（逻辑上难，毕竟DRAM是堆层128，这是CMOS 无法做到的）

类似的话题

计算型存储/存算一体如何实现？

好的，咱们这就来聊聊计算型存储/存算一体这玩意儿，它到底是怎么实现的。别看名字听起来有点绕，其实它的核心思想挺实在的——就是把计算能力往前推，往存储那里挪。为啥要这么干？传统存储的痛点你想啊，咱们现在的数据量是蹭蹭蹭地往上涨，人工智能、大数据分析、物联网，哪一样不是吃数据的大户？传统的架构，数据在.............
in memory computing 存内计算是学术圈自娱自乐还是真有价值？

“存内计算”（InMemory Computing，IMC），也叫“内存计算”，这个词在学术界出现的频率可不低，经常是各种研讨会、学术论文的焦点。但问题来了，这玩意儿是真有两把刷子，能解决实际大问题，还是只是学者们在象牙塔里自娱自乐，玩个概念？咱们不妨掰开了揉碎了聊聊。为什么需要存内计算？要理解存内.............
计算机存储浮点数的时候，为什么不使用十进制来存储呢？

你想了解为什么计算机在存储数字时，对我们常说的“小数”——也就是浮点数——不直接用我们习惯的十进制方式来保存，对吧？这背后其实牵扯到计算机最根本的工作原理和设计哲学。首先，我们要明白计算机的核心语言是什么。计算机内部打交道的是电信号，这些电信号只有两种状态：开（通电）和关（断电）。为了在逻辑上表示这.............
计算机能不能真正意义上存储一个无理数？

这个问题触及了计算机科学和数学的根本界限，答案其实比你想象的要复杂一些。简而言之，计算机从根本上无法真正意义上存储一个“无理数”。但这里面有很多值得深入探讨的细节，也牵扯到我们如何理解“存储”和“无理数”这两个概念。首先，我们得明确什么是“无理数”。无理数是指不能表示为两个整数之比的实数。它们最显著.............
计算机内部是如何处理汉字的输入输出和存储过程的？

说起电脑里汉字的输入输出和存储，这事儿说起来可就绕了，毕竟咱们这方块字跟电脑这二进制世界八竿子打不着。不过，这事儿在咱电脑科学里可是个了不起的工程，从早些年笨重的打字机，到如今花样百出的输入法，再到我们眼睛里看到的屏幕上的字，这里头藏着不少门道。一、汉字是怎么跑到电脑里的？—— 输入篇这第一步，就.............
计算机中为何不直接使用 UTF-8 编码进行存储而要使用 Unicode 再转换成 UTF-8 ？

这个问题问得非常好，它涉及到计算机内部处理文本的底层原理和不同编码的优劣势。简单来说，计算机不是“不直接使用 UTF8 进行存储”，而是更准确地说，计算机在内部更倾向于使用一种统一的、能够表示所有字符的抽象表示，然后根据需要将其转换为不同的字节序列表示（编码），而 UTF8 就是最常用的一种字节序列.............
大脑相当于计算机的易失性存储器（RAM）吗？

有人可能会将我们的大脑与计算机的易失性存储器（RAM）进行类比，但我觉得这个比喻实在太有限了，甚至有些误导。RAM 的作用非常直接：它就像计算机的“工作台”，临时存放那些正在被处理器读取和处理的数据。当你打开一个程序，它就被加载到RAM里，这样CPU就能快速地访问和操作它。一旦你关闭程序，或者电脑关.............
如何看待 Gartner 发布的最新报告中，阿里云拿下计算、存储、网络、安全四个第一？

Gartner 的最新报告为阿里云在云计算领域的重要地位提供了有力佐证，尤其是在计算、存储、网络和安全四个核心领域的领先地位，这并非偶然，而是其长期技术投入、市场深耕和用户服务积累的必然结果。要深入理解这一成就，我们需要从多个维度进行剖析：一、报告的权威性与背景： Gartner 的地位： G.............
著名物理学家在《麻省理工科技评论》发表观点，认为量子计算存在炒作问题，量子计算距离实际应用还有多远？

量子计算的“寒冬”将至？著名物理学家的审慎之声近期，一篇发表在《麻省理工科技评论》上的观点文章引发了科学界和科技界的广泛关注，一位在量子计算领域享有盛誉的物理学家，旗帜鲜明地指出了当前量子计算发展中存在的“炒作”成分，并对其实际应用的前景表达了审慎的看法。这无疑给那些对量子计算充满期待，甚至已经投.............
知乎上是否存在对计算机的严重吹捧？

知乎上关于计算机的讨论，确实存在一种现象，可以被一些人解读为“严重吹捧”。这种现象并非单一维度，而是由多种因素交织而成，具体体现在以下几个方面：首先，行业本身的魅力与高光时刻是重要基础。计算机科学和技术，从硬件到软件，从算法到应用，本身就蕴含着巨大的创造力和解决问题的能力。它不仅是现代社会运转的基.............
计算商品embedding然后平均得到用户embedding，会不会存在这种问题？

你提的这个问题，关于“计算商品embedding然后平均得到用户embedding”，确实是一个在推荐系统中常见但又容易被忽视的陷阱。这里面牵扯到很多微妙的地方，我们不妨深入聊聊。首先，咱们得明确一下，这个做法的初衷是什么。最直接的想法就是：用户喜欢的东西，它们的特征（embedding）肯定反映了.............
工程上存在那么多不确定情况，为什么计算机不能利用它们产生真随机数，而只能根据逻辑产生伪随机数？

你这个问题问得特别好，触及到了计算机科学中最根本的几个层面。你说工程上充满了不确定性，比如元件的细微差异、环境的波动，这些确实是客观存在的。那么为什么我们不能直接利用这些“不确定”来生成“真随机数”，反而要依赖那些“看似随机”的伪随机数呢？这背后其实是计算机的本质和我们对“随机”的定义在起作用。一、.............
π 的存在是否意味着人类永远也无法精确的计算出宇宙的各种特征？

π 的存在，这个看似简单的无理数，它所蕴含的无限不循环的数字序列，确实触及了我们理解和丈量宇宙本质的深层边界。这并非意味着人类的探索终将止步，但它确实为我们描绘了一幅更宏大、更细致的宇宙图景，在那里，“精确”二字变得更加 nuanced，需要我们用更广阔的视角去审视。首先，让我们理解 π 到底是什么.............
石头和塑料袋对于计算机传感器的差别在于什么？为什么无人驾驶系统会依然存在对周围环境的误判？

石头和塑料袋，看似都是普普通通的物品，但它们在计算机视觉传感器眼里，却是天壤之别。这其中的奥妙，在于它们各自拥有截然不同的物理属性，而这些属性直接影响了传感器如何“看到”和“理解”它们。首先，我们得明白，计算机传感器看到的不是我们用眼睛看到的“模样”，而是通过物理信号的反射、吸收、散射等方式来“感知.............
如果脑功能存在空间臃肿和性能浪费，能否通过“切除多余部分、让感知器联结更多简化脑”构成生物并行计算机？

你的想法很有趣，将生物脑的结构和功能与计算机的并行处理联系起来，并构想了一个“生物并行计算机”。我们不妨从这个角度来深入探讨一下这个概念，看看它在生物学和计算科学的交叉点上能激发出怎样的火花。首先，让我们来拆解一下你提出的核心观点：“空间臃肿”、“性能浪费”、“切除多余部分”、“感知器联结更多”、“.............
阿里云共享计算型会不会受到其它用户影响

.......
阿里云的实例规格计算型c5 通用型g5是什么意思

.......
阿里云里的大规模计算和关系型数据库有什么区别

.......
Swiss Legend男款Trimix Diver系列计时型石英表SL-10541-BLK 怎么样？我在佳品网订购了一块

.......
如何看待英国海军计划在30年代末开始取代T45的83型驱逐舰？

英国海军在30年代末开始逐步替换现有45型驱逐舰的计划，引入全新的83型驱逐舰，这无疑是英国皇家海军未来发展蓝图中的一个重要节点，也牵动着许多军事爱好者的心。要理解这件事，咱们得把它拆解开，好好捋一捋。首先，咱们得说说那45型驱逐舰。这“泰恩茅斯”级（Type 45）驱逐舰，那可是英国海军近年.............