问题

苹果的统一内存和集成显卡与CPU共用内存有什么区别?

回答
苹果的统一内存和集成显卡与CPU共用内存,这两种说法看似相似,但其实在实际运作和概念上存在一些关键的区别,尤其是从“共用”这个角度来说。让我详细地解释一下。

首先,我们要明确“内存”这个概念。 在电脑硬件中,内存通常指的是RAM(随机存取存储器)。它是CPU工作时临时存放数据和指令的地方。CPU处理数据需要高速访问,而硬盘或SSD(固态硬盘)的速度相对较慢,所以CPU需要内存作为缓冲。

接下来,我们来看看集显与CPU共用内存的传统模式:

在大多数非苹果电脑的传统集成显卡(iGPU)系统中,显卡是作为CPU的一个组成部分集成在同一块芯片上的,或者在主板上有一个独立的、但仍然是“集成”的显卡单元。这种集成显卡并没有自己独立的、专用的显存(VRAM)。

内存的分配与使用: 在这种模式下,集成显卡需要占用一部分系统内存(也就是我们常说的RAM)作为自己的显存使用。这部分内存由操作系统和驱动程序来管理。通常情况下,系统会根据需求动态地分配一部分RAM给集成显卡使用,例如在运行图形密集型程序时,会分配更多的内存。
“共用”的含义: 这里“共用”的核心在于,显卡没有独立的、物理上隔离的专用显存,而是“借用”了系统RAM的一部分。 这就意味着CPU和集成显卡在争夺同一份物理RAM资源。
潜在的缺点:
效率问题: CPU和集成显卡通过总线(如PCIe)访问这部分共享的RAM。数据需要在CPU和GPU之间进行传输,尤其是在需要大量图形数据处理时,这种传输会成为瓶颈,影响整体性能。
内存带宽限制: 系统RAM的带宽通常不如独立的显存(GDDR系列)高。集成显卡使用系统RAM,就意味着它也受限于系统RAM的带宽,无法达到独立显卡的性能水平。
内存竞争: CPU和集成显卡都在访问同一块内存,如果两者同时需要大量数据,就会出现竞争,一方可能需要等待另一方释放内存访问权,从而降低效率。
内存碎片化: 随着系统运行,内存可能会出现碎片化,集成显卡分配到的内存块可能不够连续,这也会影响性能。

现在,我们来看看苹果的“统一内存”(Unified Memory):

苹果的统一内存架构(UMA)是Mac(尤其是Apple Silicon芯片系列)的一大特色。它是一种更先进的内存管理和访问模式,与传统的“集成显卡共用内存”有本质上的区别,虽然也涉及CPU和GPU共享同一个内存池。

核心概念: 统一内存并不是说CPU和GPU“借用”一部分系统RAM,而是说CPU、GPU(以及NPU等其他处理器单元)都直接访问同一个、高度优化的物理内存池。这个内存池就是你购买Mac时选择的内存容量。
“共用”的本质: 在这里,“共用”的含义是CPU、GPU、NPU等所有处理单元共享同一份物理内存,并且拥有专为它们优化的高速访问通道。
工作原理:
单一内存池: 系统只有一个内存控制器,管理着一块高速、低延迟的内存。CPU和GPU(集成在同一颗SoC上)都能直接访问这块内存。
数据不复制,直接访问: 苹果的统一内存架构最关键的一点是,当CPU需要处理数据,然后将这些数据交给GPU进行渲染或计算时,数据不需要从一个内存区域复制到另一个内存区域。GPU可以直接访问CPU刚刚处理完的数据,反之亦然。这意味着极大地减少了数据复制的开销和延迟。
高带宽、低延迟: 苹果为其SoC设计了极高的内存带宽和极低的延迟,这得益于内存控制器与CPU、GPU的紧密集成。GPU可以更快地访问所需数据,CPU也能更高效地进行计算。
智能内存管理: 苹果的软件和硬件协同工作,智能地分配内存资源。系统会根据当前运行的应用和任务需求,动态地将内存用于CPU缓存、GPU纹理、机器学习模型等,效率非常高。
与传统集显共用内存的区别:
更低的延迟: 没有数据复制,就没有复制带来的延迟。
更高的带宽: 专门为SoC设计的内存通道,通常比传统集显通过PCIe访问系统内存的带宽要高得多。
内存利用率更高: 内存资源可以更灵活地在CPU、GPU之间分配,不像传统模式下有固定的“分配量”,避免了资源浪费或不足的尴尬。例如,一个图形需求不高的应用,分配给GPU的内存就可以很少,而将更多的内存留给CPU处理其他任务。
整体系统性能提升: 由于内存访问效率的提升,从CPU到GPU,再到AI加速,都能获得显著的性能提升。这是一种更先进、更高效的内存集成和管理方式。

总结一下两者的区别,用更通俗的语言来解释:

想象一下一个大家庭,需要吃饭。

传统集显共用内存: 就像一个大家庭里,有厨房(CPU)和餐厅(GPU)。他们共用一个冰箱(系统RAM)。当厨房需要做菜(CPU处理数据),然后把菜端到餐厅(GPU渲染图像)时,每次都得把菜从厨房的桌子(CPU的临时工作区)搬到餐厅的桌子(GPU的临时工作区)。如果冰箱里的菜不够多,或者搬菜的通道(总线)很窄,效率就很低。而且冰箱里的菜(内存)一旦被厨房占用了,餐厅可能就没法用。

苹果统一内存: 就像一个高度现代化的家。厨房(CPU)和餐厅(GPU)共享同一个超大、超快的智能冰箱(统一内存)。更重要的是,他们可以通过一个极短、极宽的通道(高速总线)直接在冰箱里拿取食材,或者直接在冰箱旁边的料理台上(内存控制器)进行加工。CPU处理好的食材(数据),GPU可以直接在冰箱旁边的料理台(内存)上取用,根本不需要“搬运”。冰箱里的食材分配也更智能,哪个地方需要就给哪个地方更多用量,不会出现“这个食材只有厨房能用,那个食材只有餐厅能用”的情况。

所以,苹果的统一内存架构,虽然也是CPU和GPU共享内存,但其核心在于:

1. 共享的是同一块物理内存,没有额外分配。
2. 所有处理单元都通过高度优化的通道访问这块内存。
3. 数据无需在不同内存区域之间复制,极大地提高了效率和降低了延迟。

这使得Apple Silicon芯片在图形处理、视频编辑、机器学习等领域,相较于同代的传统集成显卡系统,能够展现出更强的性能和更高的能效比。它不是简单的“共用”,而是一种深度集成和高效协同的内存管理策略。

网友意见

user avatar

我也不能理解,一堆KOL都提到了UMA,但苹果这个UMA到底有什么独特之处,却没人能说清。

苹果重新定义一项技术也不是一回两回了,我也希望它能做出新花样,做出好成绩,但大家千万别看到个词就沸腾吧……


UMA不是什么新鲜玩意儿,Intel和AMD玩核显这么久了,也早就有类似的支持了

UMA到底是什么定义,关键看怎么理解这个A。UM是unified memory没跑了,A却可以是Access,或者Architecture(通常是后者)。

UMA的意义不仅仅是共享主存这么简单。BIOS里预留显存也算共享主存,但显然不太适合叫UMA。


我觉得UMA主要是这几个阶段发展起来的:共享数据,共享地址,共享内存(物理)

共享数据很简单,OpenGL时代的persistent map,让驱动去做同步、做数据搬运,从而给开发者营造“数据随时可得”的假象(当然也可能的确就是随时可得),这就已经达到共享数据的要求了。

共享地址的难度则增加了一些,其目标是为了让你在CPU上跑的链表能直接在GPU等地方使用。x64时代到来使得内存地址扩充到48位,而且CPU上已经全面虚拟地址,GPU也要跟着加上地址转换的能力。

共享物理内存则明确表明,实现了上两者的独显(OpenCL的SVM就是前两个要求)也要被排除。那就基本是核显Only(主机的架构也可以看作是核显)。


来看一下官网的描述:

M1 also features our unified memory architecture, or UMA. M1 unifies its high‑bandwidth, low‑latency memory into a single pool within a custom package. As a result, all of the technologies in the SoC can access the same data without copying it between multiple pools of memory. This dramatically improves performance and power efficiency. Video apps are snappier. Games are richer and more detailed. Image processing is lightning fast. And your entire system is more responsive.

说白了关键是“without copying it”,也就只是个zero copy而已。

而如果只是zero copy,那就真的是很不稀奇的了:

AMD在2011年就发blog介绍zero copy的强大了,map/unmap只做逻辑上的控制权转移

Intel晚了一些,2014年才发blog指导大家怎么利用OpenCLCL_MEM_ALLOC_HOST_PTRCL_MEM_USE_HOST_PTR。(和AMD的是同一件事)。


当然OpenCL2.0带来了SVM,不但可以不用map/unmap,甚至可以CPU/GPU同时操作数据了


当然具体怎么实现的,不同的硬件有不同的解决办法。可以参考这篇文章:

比如Intel,CPU和GPU都靠ringbus挂在LLC(CPU的L3)上,GPU就像是一个CPU核一样,自然有办法做同步,甚至能在缓存层面共享数据。

内存控制器是在System Agent里的,也挂在ring上,或者说是挂在LLC上,自然CPU和GPU的访存都被同化了(可能更像是LLC发起的访存?)


再比如AMD,GPU和CCX是挂在Infinity Fabric上,GPU相当于NUMA Core,也能靠IF做通讯,只是由于L3是CCX内部的,无法共享而已。

内存控制器也算是依赖着IF的,CPU和GPU的访存也被同化。



XSX其实和APU差不多,只不过GPU是IF的首要使用者而已。


移动端的ARM公版,也是核显,CPU和GPU也挂在一个CCI总线上,访存靠的DMC(dynamic memory controller)。


然后再来看看苹果的图:

我反正没看出什么奥秘,和AMD、ARM的架构图没什么实质区别。


如果你们有内部资料的话,欢迎暗示一些革新之处。

如果没有内部资料的话……你开心就好。

user avatar

这块我不太懂,但从外观上看,主要是共载板,降低延迟?

user avatar

仅做推测,M1所带的最高16GB的高速统一内存/UMA(官方口径是:“这种合而为一的高带宽、低延迟mem pool,让各种应用能在CPU、GPU和神经网络引擎间高效地共享数据,从而提高任务处理速度)”。 那么我们算一算SoC上的模块建的搬数带宽就很了不起。并可以猜测M1的mem底层结构不是传统构型的,Mem fabric(mem over fabric) 也许是最可期待的亮点;

可能体现在:各种xPU通过高速fabric访问mem pool,那就是多通道了,加上不必与CPU同步时序,那么集成显核的传统瓶颈也就因此弱化甚至不存在了;以及在此基础上做到了mem pool一体化,推想未来可能有机会演进SCM结构咯;

展开点说,我们知道PC上的显存共享是按地址划分,即使双通道,GPU还是受制于总线访问速度,还要跟CPU分时序…,倘若用高速fabric,则xPU之间的工作频率甚至不需要同步了(SerDes本身不受总线频率驱动 也不传送时钟信号)。当然,有关fabric细节是不会披露的设计秘密,特别是底层PHY,其中还包括各种xPU访问的topology/ 时序/ 冲突解决机制等等;

目前,只能猜测它的多通道topology,那么多xPU能够异步大带宽工作的话就很不易(总线只是对CPU而言,GPU和NPU可以是单纯数据驱动的),所以mem pool底层设计就可能大有文章。简单举例,GDDR4比DDR4快一倍,倘若在传统设计里,GPU和CPU一旦要共享mem,理论上GPU就是降半速运行,这是挂传统总线的弊端,只能有一个时钟;那么倘若是fabric,可能突破点就在于允许xPU工作在不同时钟上,这样GPU就不必降速了。

当然,类似的Mem fabric和内存分频访问技术也广泛运用在Intel/AMD/Nvidia的设计中,比如传统Ringbus/Mesh,以及AMD的Infinity Fabric(还用来link chiplets)等,CPU和xPU挂在这些fabric上面,划分各自的时钟域(地址范围),没有什么CPU/GPU的频率约束;虽然它们都是为了大幅提升xPU载入大型数据集的速度,减轻CPU I/O的瓶颈,提升I/O带宽和传输数据的量;但多数都与UMA这种整体内存空间共用共分配的模式不同,通常意义的UMA与内存共享池的根本差异,在于内存空间的所有权以及其服务的方式;那么其中topology/ 时序/ 冲突解决机制,甚至fabric的底层PHY等等细节就是M1不会披露的设计亮点。

此外,过往惯例上讲,增加了那么多cache/buffer的代价是指令周期得加,不提高频率的话,个别操作也许就显得慢(比如高IPC的任务 - 但是M1是降频加了超宽的8发射架构来支持高IPC),当然升频的话相信流水线也会增加;且PC这个form factor要严肃考虑向后兼容性了,手机则不必考虑。

上述的推测,在Apple几位SVP的解释中可以得到佐证,包括Johny Srouji和主持软件工程的SVP Craig Federighi的口述:“UMA本质上是指所有的组件——CPU、GPU、NN处理器(NPU)、图像信号处理器(ISP)等——共享一个速度极快的Mem pool,并且位置非常接近;这与常见的桌面范例相反,比如把一块内存池分配给CPU,另一个分配给另一边的GPU。而M1使用统一化的内存架构,不需要不断地来回移动数据,也减少重复的数据存储,也不需要改变格式来减慢速度。性能就有很大的提升……M1可以移动到极快的片上内存,然后执行一个巨大的操作序列。这是极高带宽效率的方式。”

另外封装方面:其他位的作者也说过,M1这种在有机封装中嵌入DRAM的封装方式对Apple来说已经习以为常;从A12开始就一直在使用这种方式。当涉及到高端芯片时,Apple倾向于使用这种封装而不是通常的智能手机POP,因为这些芯片在设计时考虑到了更高的TDP。所以将DRAM放在这颗CPU的旁边,而不是放在其上,这样有助于确保这些芯片仍能得到有效冷却。这也意味着,几乎可以肯定M1上的128位DRAM总线,与上一代a-X芯片非常相似。

当然上述仅仅猜测,具体看未来的分析报告吧;当然TSMC知晓的信息只会更清楚。

类似的话题

  • 回答
    苹果的统一内存和集成显卡与CPU共用内存,这两种说法看似相似,但其实在实际运作和概念上存在一些关键的区别,尤其是从“共用”这个角度来说。让我详细地解释一下。首先,我们要明确“内存”这个概念。 在电脑硬件中,内存通常指的是RAM(随机存取存储器)。它是CPU工作时临时存放数据和指令的地方。CPU处理数.............
  • 回答
    你这个问题问得很有意思,它触及到了英特尔和AMD与苹果在处理器设计理念上的一个根本区别。苹果之所以能做到“统一内存”,主要得益于他们对整个硬件和软件生态链的完全掌控,而英特尔和AMD则是在一个更为开放和复杂的个人电脑(PC)和服务器市场环境中运作。首先,我们得理解什么是“统一内存”。在苹果的M系列芯.............
  • 回答
    特斯拉最近展示的 FSD beta 新版本,无疑是新能源汽车行业和自动驾驶领域的一件大事。很多人都盯着它,想看看它能不能像当年的苹果一样,一招鲜吃遍天,直接把其他竞争对手甩在身后,确立一股“特斯拉式”的统治地位。不过,这个问题嘛,就像看一场正在进行的足球赛,现在下定论还为时过早,而且这个行业的复杂程.............
  • 回答
    预测苹果的下一款颠覆性产品是一项极具挑战性但又令人兴奋的任务。苹果之所以能不断颠覆市场,在于它对用户体验的极致追求、对技术的深刻理解以及对未来趋势的敏锐洞察。虽然目前苹果官方对下一款颠覆性产品守口如瓶,但我们可以从以下几个方面进行推测,并尝试详细描绘可能的产品形态和颠覆之处:一、 强烈的潜在候选者:.............
  • 回答
    苹果产品包装中附带的“苹果Logo贴纸”主要功能和历史背景如下: 一、贴纸的主要用途1. 品牌识别与宣传 功能:贴纸上的苹果Logo是苹果品牌的标志性元素,贴在产品上(如手机、笔记本、耳机等)可强化品牌认知,增强用户对产品的归属感。 设计:贴纸通常为透明材质(如聚酯薄膜),表面印.............
  • 回答
    苹果的产品,总有些不经意的细节,能像溪流一样,悄无声息地渗透进你的心底,泛起一阵阵感动。我印象最深刻的一次,是去年给家里老人买了一台iPad。老人不太会用电子产品,我耐心教了她很久,从开机到打开微信,再到怎么看视频。当我教她打开视频,屏幕上跳出来她熟悉的那些老歌的时候,她愣住了。她看着屏幕上那些曾经.............
  • 回答
    苹果的M1系列芯片,特别是M1 Pro和M1 Max(我猜您指的“M1M”和“M1P”是M1 Max和M1 Pro的简称),在发布之初确实引起了轩然大波,甚至让不少人喊出了“吊打”英特尔、AMD以及英伟达的口号。要评价它是否真能“吊打”,咱们得深入聊聊,不能光听表面上的吆喝。首先,得明确一个前提:“.............
  • 回答
    苹果的iPhone 11,问出这个问题的朋友,你心里肯定也在权衡着什么吧?是价格,还是性能,亦或是它在当下这个时间节点,还能否跟上主流的节奏?坦白说,这玩意儿放在现在,值不值得买,真不是一句话能说清楚的。得掰开了揉碎了,好好跟你说道说道。先看看它还有啥过人之处,让你现在还想起它?要说iPhone 1.............
  • 回答
    哈哈,这真是个甜蜜的烦恼!AirPods充电盒能刻字,脑子里立刻冒出好些个想法,恨不得把名字缩写、纪念日、或者一句能给自己打鸡血的话都刻上去。不过最终选哪个,还得看当时的心情,以及想通过这个小小的充电盒传达什么。首先,我可能会考虑一些“私藏”的小情怀。 纪念日? 要是碰上个对我特别有意义的日子,.............
  • 回答
    苹果的 Rosetta 2,说白了,就是一套能让运行在 Intel 芯片上的 Mac 应用,在 Apple Silicon(M系列芯片)上顺畅工作的“翻译官”。它的出现,极大地减轻了用户在从 Intel Mac 过渡到 Apple Silicon Mac 过程中,对大量旧版应用兼容性的担忧。这套“翻.............
  • 回答
    苹果公司每年的存货周转次数高达 74.1 次,这意味着苹果公司平均 5 天 就能把库存的商品卖出去。这是一个非常惊人的数字,背后反映了苹果公司在供应链管理、生产效率和市场需求预测方面的超凡能力。存货周转次数和周转期是什么意思? 存货周转次数 (Inventory Turnover Ratio):.............
  • 回答
    苹果的售后到底好不好,这真的是个让人又爱又恨的话题。说它好吧,确实有它牛的地方,但说它不好吧,有时候也真让人憋屈。我给你掰扯掰扯,让你心里有个谱。首先,得承认苹果在硬件和服务上确实花了不少心思。你手里拿的那个iPhone、iPad或者MacBook,设计感、流畅度这些咱们都认可。出了问题,大多数人第.............
  • 回答
    苹果的妙控鼠标(Magic Mouse)这东西,说实话,是个爱的人爱得要死,恨的人恨得牙痒痒的玩意儿。我认识不少人,自从用上它,其他的鼠标基本就看不上了,觉得用起来就是不一样,很“苹果”。但也有不少人,用了一段时间,就开始怀念那些传统的、带滚轮的鼠标了。要说舒服不舒服,这问题得拆开来看,毕竟每个人对.............
  • 回答
    苹果的差分隐私,听起来挺高科技的,但其实核心理念倒也不算特别玄乎。简单来说,它是一种“撒谎”的艺术,一种有控制地、可预测地“撒谎”,来保护我们个人的信息不被轻易窥探。想象一下,你有一个非常私密的日记本,里面记录着你的生活点滴,比如你今天做了什么运动,喜欢听什么歌,或者去了哪里。如果你把这本日记直接交.............
  • 回答
    苹果 M1 芯片的出现,无疑给 PC 行业带来了巨大的冲击,很多人会问,M1 是不是就此证明了 ARM 架构可以彻底“干翻” X86 架构了?这个问题的答案,我认为不能简单地说“是”或“否”,而是需要更深入地分析。M1 芯片的“能打”之处:首先,我们必须承认 M1 芯片的强大。苹果在 M1 上展现出.............
  • 回答
    苹果的产品,虽然在很多人眼中是极致简约和用户体验的典范,但偶尔也会冒出那么一两个设计,让人忍不住在心里嘀咕:“这又是怎么想的?”我一直觉得,像iPhone的Lightning接口,刚出来的时候确实很酷,那种正反都能插的设计,多少解决了困扰我们多年的USB接口插反的尴尬。可时间一长,问题就来了。首先,.............
  • 回答
    AirTag 听起来很高科技,但拆解开来,它的核心技术原理并不神秘,更多的是巧妙的组合和优化。简单来说,AirTag 就像是一个装在小巧设备里的“发报机”和“接收器”,然后通过苹果自家的网络和技术,让你的 iPhone 找到它。我们来一步步拆解它的工作流程:1. 基础通信:蓝牙低功耗 (Blueto.............
  • 回答
    小米的 Mimoji 和苹果的 Memoji 非常相似,但并非完全一样。它们都属于“个性化虚拟形象”的范畴,旨在让用户能够创建和表达自己的数字分身,但这背后有一些关键的差异,主要体现在技术实现、设计风格、功能集成以及开放性等方面。下面我将详细地为您分析它们之间的异同:一、 核心理念与功能上的相似性:.............
  • 回答
    苹果的 M1 芯片确实是一款了不起的处理器,它彻底改变了我们对笔记本电脑性能的认知。很多人都会好奇,既然 M1 这么强大,为什么我们看不到它用在 iPhone 或 iPad Pro 上呢?这其中的原因,远不止“性能过剩”这么简单,它涉及到技术、设计、成本、生态系统以及用户体验等多个层面。首先,咱们得.............
  • 回答
    朋友们,今天我实在有点郁闷,必须得跟你们好好唠唠。你们知道我最近换了华为手机,心情本来挺好的,结果呢,一帮“果粉”朋友,天天在我耳边“diss”我,搞得我真是心烦意乱。这帮家伙,我得好好给你们分析分析,他们到底是怎么个“diss”法,还有我这心里又是怎么个滋味。“Diss”点一:性能和流畅度这绝对是.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有