百科问答小站 logo
百科问答小站 font logo



dpu芯片发展前景如何? 第1页

  

user avatar   verilog_buddy 网友的相关建议: 
      

2019年,NVIDIA 69亿美金收购了一家以色列的公司,Mellanox。

虽然贵,但是很值。

收购Mellanox之后,老黄把其中Mellanox产品线中一个不起眼的可编程的网卡系列bluefield改名为DPU。

后来的事情,就超出了老黄的想象,各种DPU公司风起云涌,甚至压过“AI”一头,成为了VC眼中的“新贵”,成为了风口。

对于网卡芯片行业,大家都在讲smartnic(智能网卡)的故事,智能网卡已经很高大上了,smartnic,智能网卡。

DPU这个故事一来,smartnic这个名字就从“小甜甜”成了“牛夫人”。

此一时,彼一时。

Mellanox成立于1999年,是以Infiniband产品而起家的,Infiniband主要是是一个用于高性能计算的计算机网络通信标准。Infiniband具有极高的吞吐量和极低的延迟,可以理解成串行化的总线。

infinity 无限的。band 带宽;infiniband这个名字直译“无限带宽”,非常霸气。

和普通人用的计算机网络比起来,Infiniband在带宽和时延上有优势。成本比网络高多了。 但是由于要额外部署的Infiniband交换机,其成本限定了只能在超算和存储领域这些商用领域使用。

Infiniband的HCA卡和Infiniband交换机。对应就是普通组网的网卡和网络交换机,因为Infiniband的HCA卡和网卡基本上外观一摸一样,技术也类似。都是一端PCIe,另一端高速的serdes。所以Mellanox轻车熟路的切入了网卡芯片领域。

在网卡芯片领域,这个和Infiniband不同,这个市场要“内卷”的多,intel在10G网卡时代,凭借82599,X710等多个型号,可以说在服务器网卡市场上,呼风唤雨。和intel的CPU一起配合,成为了各个厂商的首选。

而在网络从10G到25G转换节点上,Mellanox异军突起,成为了市场的佼佼者,Microsoft和Mellanox深度合作,让Mellanox在25G成功上位,取代了Intel和Broadcom在高端网卡的江湖地位。同时Mellanox给网卡带来了ROCE,一种基于ethernet的Infiniband的协议,这个是Mellanox的看家本领。数据中心向25G节点转换上,Mellanox成为了最大的赢家。

在2019年时,Mellanox已经称霸服务器网卡市场,是25G/100G解决方案最重要玩家之一。

Mellanox被intel和NVIDIA同时都看上了,intel开出了55亿-60亿美金的“彩礼”,而NVIDIA开出了接近70亿美金的价格。

最终NVIDIA赢了。

平心而论,intel有自己的网卡芯片团队,收购Mellanox只不过是锦上添花,而NVIDIA在网络这个方面毫无积累,所以NVIDIA更迫切,业务协同性更优,也更志在必得。

事实也证明如此!

从智能网卡到DPU,不仅是名字的称呼的改变。

说到DPU,先讲三个故事,看看DPU都干些什么东西。

1:卸载offload

很多刚刚入手固态硬盘的朋友,可能会对于固态硬盘容量标识产生疑惑。以某厂商 1TB固态硬盘为例,按道理来说1TB=1024GB,但是在电脑上只能看到953GB。

为什么?

因为放了一部分FTL 固件的表项,用于均衡磨损。

简而言之,花了100块钱,只能得到90快钱的东西。

花两碗粉的钱,吃了一碗粉,因为有一个空碗需要承担的开销

问顾客爽不爽。

肯定不爽。

云服务厂商也不爽。

以目前的公有云为例,IaaS:Infrastrure-as-Service(基础设施即服务)

但是对IaaS厂商来说,和普通人买SSD面临同一个情况的窘境。

买了一批处理器,内存,硬盘,机房,空调,成立了一个云中心,作为基础设施提供给各位厂家来用。

买个100核的CPU,只能用80个核.

其他20个核去哪里了?

跑一堆云上的软件,OVS,安全,存储,管理等等。

这些额外20个核的开销部分,叫做数据中心税,datacenter tax。

所以从云厂商来说,就是如何利益最大化。用行业“黑话”,降低TCO(总拥有成本)。

如何取消数据中心税,那就是要让DPU把这些活都干了。

这个故事里面。

DPU就是那个干脏活,累活的角色。

在云中心,什么脏活累活最为典型?

那非OVS卸载莫属了!

OVS的功能说白了,就是虚拟机VM之间的虚拟交换机,原本用软件来实现的。


说到交换机,那就是三板斧,协议解析,表项查找,动作执行。



二层交换机,解析MAC转发,

三层交换机,解析IP转发。

OVS虚拟交换机就是解析流表转发。

OVS的流表有三个特点:

1:表项长。

从五元组,7元组,到更多元组;从端口号,源MAC,目的MAC,VLAN,源IP,目的IP,源端口号,目的端口号等,这还不算完,还有更多项需要参与转发。

2:表项多。

从几十K到几百K的表项。随着从虚拟机到容器这些更细粒度的划分,表项也是直线增加。

3:查找时间短。

从10Gbps小包查找大约需要60ns,到100Gbps小包查找需要6ns查找到。

有一种说法, 如果是CPU软件来实现OVS,25Gbps开销需要大约20%处理器核处理,100Gbps大约需要80%的处理器核来处理,数据中心税高了,留给业务的就更少了。

简而言之,随着网络的发展,处理器的能力跟不上了。

解决这个问题核心就是,将OVS 卸载(offload)到一个处理单元上来做这个业务。因为本来就是网络的业务,所以卸载到网卡上是最直接的想法。

如图所示,就是软件卸载和硬件卸载的区别。

那么DPU除了除了OVS的卸载,还有哪些卸载?

1:TCP offload;

2:TLS offload;

3:加密offload;

4:压缩的offload;

这些offload,最直接就是降低数据中心税。也有把这些形式叫做IPU,基础设施处理器。

但是,单纯offload,是不能称之为DPU的。

2:hypervisor管理

很多人都去过网吧,但是不一定都去过VIP包房。

VIP包房和大厅不一样。

独立,安全,隐私性好。

VIP身份不会有和普通客户一样的待遇。

这样的客户给网吧老板带了非常高的收益。

所以要服务好VIP客户。

赚钱吗?不磕碜!

个人用户赚钱还是企业用户赚钱。

大多数是企业用户赚钱。

作为云服务厂商,天生有两个用户,个人用户,企业用户。

个人用户登录,是一个虚拟机,虚拟机好处就是一个CPU拆开来卖,分时复用,分区复用,没钱就忍了。

企业用户和普通用户不一样,肯定是VIP服务。

企业用户需要什么VIP云服务?

  • 极强的计算性能,具有和普通物理机一样的计算性能;
  • 安全隔离,物理隔离,资源独占;
  • 快速交付,物理机资源标准化和池化,随取随用;
  • 和云产品连通,如果需要可以和云主机、云存储、云数据库打通,方便业务使用。

什么是云上的VIP服务,那就是裸金属云。

裸金属云就是为企业用户的量身打造的VIP包房;

从物理机到虚拟机,容器这些技术是演进的方向。

但是没有想到。重新包装好的物理机又成了香饽饽。

还换了一个高大上的名字,裸金属云。

云服务商把全部的CPU资源都给用户去用了。

但是也不能放手不管。

怎么管,放在哪里来管。

用了一个hypervisor的卡来管理。

如果把CPU比喻成一个宾馆大楼,每个楼里的房间就是一个CPU core,住客就是虚拟机,hypervisor可以认为这个楼的的管理员,只不过这个管理员也要住在宾馆大楼里面,占用一个到几个房间(CPU core)。

现在VIP来了,整个宾馆大楼直接都给了VIP租下来了。

当然管理员(hypervisor)也不能在大楼住了,但是管理员(hypervisor)还是需要的,就得给管理员(hypervisor)找个家。

CPU里面不能住了,这个家就放在了DPU里面;

阿里云的裸金属云的建设中,提出了一种裸金属bm-hive(bm baremetal 裸金属的缩写),直接把bm-hypervisor 放在了一个网卡形态的设备上,在这种形态下,所有的计算资源都是计算板的一部分,这个可以是X86的E5,core I7,AMD ,甚至可以是ARM。也就是说,在这种结构下,X86的地位只是一个计算节点之一。

裸金属 hypervisor通过DPDK的vswitch和SPDK的云存储,替代了所有的计算板所有的IO需求,

裸金属 Hive支持VGA设备,供用户连接到bm guest的控制台,裸金属-Hive的架构不仅允许它无缝地集成到现有的云基础设施中,而且使计算板的设计高度灵活——唯一的硬要求是它支持virtio接口。

这种方案,但是其核心思想是将计算节点抽象出来,更专用,更灵活的参与到整个服务中;

这种思想提出,在AWS的的nitro卡就有了。

AmazonEC2的 hypervisor 专用硬件实现。当然是个精简的hypervisor,它基于Linux内核的虚拟机(KVM)技术构建,但不包括通用操作系统组件。

3:从网络到数据

DPU的核心是data。

为什么从网络到数据?

简而言之,TCP/IP的处理效率受到了极大的挑战。

对于10Gbps的网络来说,最大处理约14.88Mpps的包(64byte).

10 000 000 000/(64byte + 20byte)*8 = 14.88Mpps。

那么对于100G的网络来说,需要处理器包的数目是148.8Mpps(64byte)。

而linux的kernel能够处理的能力也就是1M到几MPPS量级左右。

需求和现实,巨大的落差。

要想满足需求,bypass掉kernel,是一个所有人看到的方向。

很多kernel bypass的手段被提出了。

例如DPDK。DPDK就是一种kernelbypass的框架。DPDK通过应用层的PMD的程序不断的轮询。不用中断,而是用轮询,这个是DPDK提升性能的关键。

DPDK还需要CPU一个进程不断轮询。

而RDMA,则是更彻底的kernel bypass,CPU则直接什么也不做,数据直接送给应用层。

DPU就是承载RDMA的另一个载体。RDMA的协议用的是infiniband(IB)。而为了减低成本,不用部署额外的infiniband(IB)。其底层用了IP来承载,主要有两个分支,用IP/UDP承载IB是ROCEv2。用IP/TCP承载IB

Infiniband(IB)是Mellanox的强项,IB是HPC数据交换的互联协议,高性能计算就是例如超算,全球TOP500里面有60%采用了IB进行互联。

说回RDMA,那么RDMA到底干了什么?

除了传统的send receive。最重要的就是 read,write。

read,write的是什么。

是数据。

一台主机直接直接向另一台机器的虚拟内存的地址上读或者写。

这个意味着,使用外部资源就如同本地资源一样方便。

没有比这个更简单的操作了。

大道至简!

read和write的都是data;

基于这个意义上,DPU的D才开始有点意思了。

有趣的是,RDMA(IB)是在超算中发展起来的。

超算的架构都是CPU+GPU的异构。

超算的底层互联从来不是以太网,原因无他,以太网的效率太低了,以太网只在超算边缘作为管理网络来使用。

而DPU的设想中,很多资源池化的想法,和HPC有一些异曲同工之妙;

2020年hotchips上初创DPU公司,Fungible就有非常准确的描述。通过DPU将X86计算资源,GPU/AI资源,SSD/HDD等存储资源,作为池化资源的构成一个整体,提供外部使用。

Fungible用的技术叫做TrueFabric。其与RDMA的优劣不是本文要讨论的部分。

但是通过DPU把整个数据中心连接起来,实现高速率,低延迟的效果。

这个模型下,整个结构更类似一个边缘云中心。

不过在老哥看来,更类似超算和云融合的一种解决方案。

基于目前这个意义上,DPU的data还只是搬移,并没有在严格意义上被处理。

某些安全处理也是为了数据搬移过程的安全特性,比如IPsec over RDMA;也就是端到端的安全特性,这些数据处理是保护数据,而非改变数据本质。

这个数据搬移还包括:

1:存储数据DPU搬移:

nvme over fabric,nvme over RMDA。

2:AI数据的DPU搬移:

GPUdriect over RDMA。

低延迟,高带宽,高性能;

核心目标就是像本地数据一样,访问分布式或者池化的资源。

通过DPU实现数据资源池化。

网络是手段,数据才是目的。

只不过这种连接可以是RDMA,也可以是其他技术手段,RDMA只是其中之一。

4:谁来用DPU?

第一个卸载的故事中,DPU是offload CPU的负载,是“长工”。

第二个管理的故事中,DPU是CPU的hypervisor,是“管家”。

第三个数据的故事中,DPU高效的提供CPU 数据,是“奶妈”。

这些手段的目标都是降低TCO,是因为CPU来做这些工作不经济。

无论如何,DPU都不是替代CPU做计算。

在DPU上一堆处理器,来和CPU比赛干活,这个是不是比CPU更有优势?见仁见智。

DSA只有面向一个领域定制,才能有成本的优势。

所以DPU不需要在通用计算领域来搞事情。

保持数据(data)的本色,才是真谛。

最后一个问题,关于DPU,主要场景用在云上。

云厂怎么想?

当然是自研!

AWS的Nitro系列,以及阿里的MOC等等。都是特殊定制的DPU。目前国内几大云厂,基本上全部都有自研方案或者自研计划。

每家云厂的解决方案都有所不同,特别是DPU是软件和硬件紧密耦合的产物。

云厂对业务更懂,研发能力也不弱。

目前也有很多初创公司做DPU芯片,市场一片火热。

如何把DPU芯片卖给也做这个方面的云厂“竞争对手”?

这是一个比AI芯片更难的难题。

5:后记

前段时间参加了一场智能网卡研讨会,网上听了下各路专家的演讲,云厂面临的问题多,市场能提供的大规模部署的解决方案很少,头部云厂商(阿里,腾讯)都是带着自研方案而来的,FPGA+CPU倒是成了大部分公司的DPU不约而同的系统方案,xilinx和intel的FPGA成为市场的选择,也看出来DPU芯片前路漫漫,且行且珍惜。


user avatar   lao-shi-29-98-80 网友的相关建议: 
      

首先这是Fed一月 memo

先说结论:

FOMC 维持利率在 0-0.25% 不变。且确定 3 月完全停止 QE,同时 3 月加息也是箭在弦上,基本会后声明皆符合市场预期,没有太多的意外。

Powell 记者会确实是偏一点点的小鹰派,但我也认为,Powell 的说法不至于拉升市场加息预期至 5次 、并拉升缩表预期至上半年,反而比较像是在强化加息 4 次之预期。

另外我个人觉得,一些中文媒体似乎误读了Powell 记者会的部分片段,下面 Allen 再进一步说明。


1. 3 月加息停止 QE 早已定价

本次会议 Fed 再次确认 3 月将准备第一次加息,并同时停止 QE。

Fed 也再次重申,货币政策是要支持美国经济达到充分就业、与通膨长期均值维持 2.0% 的两大目标。

这部分我想市场早已定价,这裡完全不会是问题,所以我们不讨论太多。


2.未来加息在每次会议都可能发生 (?)

Powell 的原文说法是:Won't Rule Out Hike Every Meeting.

但我有看到部分中文媒体写:不排除每次会议都加息的可能性。

上述我想或许是误读了 (还是其实是我自己误会中文的意思 ?)

我的理解是:Powell 是说加息在未来每场会议都可能发生,指的是“不会在特定月份才加息”,不是说每场都要加息。

Powell 说得很合理,经济本来就是动态的,加息本就不会侷限在什麽月份才启动,端看当时的经济状况而定。

我认为Powell 上述说法,并未延展今年加息预期至五次或更多,若有这种想法,那绝对是误读了。


3.更大规模的缩表?

Powell 在记者会上提到,Fed 需要更大规模的缩表,但请大家不要恐慌,因为我又觉得部份中文媒体过度解读了。

我认为Powell 说到的“更大规模缩表”,在思维上指的是:

因为当前 Fed 资产负债表高达 8.9 万美元,这是新冠疫情爆发之前的两倍大,显然在绝对规模上是非常巨大的。

而上一轮 2017-2019 年 Fed 缩减资产负债表,是自 4.4 万亿美元缩到 3.7 万亿美元停止,缩表的幅度大概是 15.9%,共缩减了约 7000 亿美元。

确实每次缩表的经济背景绝对是不一样的,所以幅度也绝对不会相同,但我们随便抓,假设本轮缩表将缩减 10% 资产负债表规模,那麽这也要降低 8900 亿美元,规模当然很大。

但我认为,不需要过度恐慌在“更大规模缩表”这几个字上。更重要的,我认为是“Fed 缩表的速率是多少?”

我相信缩表没问题,缩表太快才是问题,因为缩表速度若太快,将直接影响的会是美债殖利率升速、以及殖利率曲线的斜率。

这点Powell 也非常清楚,Powell 在记者会上也不断强调,联准会内部尚未具体讨论到一切缩表的进度,要等到 3 月再说。


4.缩表比较可能落在下半年

Powell 在记者会上说明,希望在加息至少一次之后,再来开会讨论缩表的事情,且委员会至少将讨论一次,才会做最终拍板。

更重要的,Powell 希望缩表的进程是有秩序的、是可被预见的过程。

从上述Powell 丢出的时间表看,我个人认为缩表将落在 2022 下半年,最快可能是 6 月份,因为在 3 月加息后,Fed 才会来讨论缩表。

我个人相信 Fed 现在内部早已在讨论缩表,但委员会显然尚未准备好来与市场沟通缩表的前瞻指引。

而缩表这麽大的事情,我个人认为 Fed 需要起次跟市场沟通 2 次,并把缩表规划说得非常清楚之后,才会开始进行,所以比较合理的缩表时间,估计将会落在下半年。


5.最大风险:高通膨

Powell 在记者会上,大概提到了 800 万次的“高通膨压力”,并认为目前美国通膨风险仍在上升阶段,但预计 2022 通膨还是会回落。

Powell 说明,目前美国通膨居高不下,主要仍是供应链所致,白话来说就是供需仍然失衡,且供给侧 (Supply Side) 改善的速度是低于预期。

Powell 强调,目前美国高通膨持续存在,而美国经济要的是长期扩张,所以若要长期扩张,物价势必需要保持稳定。

这边开始进入正题了,我认为这是本次会议的最重要核心,是让我体感上,觉得 Fed 鹰派的地方。我认为 Fed 承认自己落后给菲利浦曲线 (Behind the curve),简单而言,Fed 这次的加息速度大幅落后给通膨。

由于 Fed 在 2021 年对于通膨的误判,先前 Fed 在 2021 年认为通膨在年底就可望自然回落,但也就是因为这件事没有发生,反而通膨还更为严重,所以目前才有使用加息来追赶通膨的压力。但当前宏观环境看,通膨的压力是来自于缺工、供应链紧俏等问题,再加上拜登政府的大力推行财政刺激在那边推波助澜~

所以这一次的通膨是来自于实体经济上的供需失衡问题,并不是金融市场过度投机、企业超额投资等问题,我认为 Fed 在这次的通膨问题上,能做得空间非常有限。

这裡将产生一个不确定性的较大风险,就是 Fed 只能靠货币紧缩去压通膨预期,但实体经济的根本性通膨问题,还是没有获得解决。变成最终 Fed 只能再用更剧烈的紧缩政策,去引导通膨预期走低后,尝试来压低实际通膨率,所以这裡将让 Fed 的紧缩路径,存在著较大不确定性。

比较好的处理方式,应该是直接去解决实体经济上的缺工和供应链/例如我之前提到的塞港问题,让实际通膨率自己走低、而不是靠 Fed 挤压通膨预期之后去引导。

谁可以去把坐在白宫裡疑似患有阿兹海默的白髮老头一巴掌打醒...还我特~


结论:我个人认为 Fed 今年将加息四次,不至于加息五次,而加息四次之预期,相信市场应该已经定价;至于缩表,相信市场尚未定价,估计将落在 2022 下半年,最快可能是 6 月。

如果 Fed 今年加息五次,我会感到非常意外,因为这意味著 Fed 很可能在 2023 年底、2024 年初,就因为美国经济放缓太快而需要降息,Fed 这波操作就会变得非常韭。

最后说说股市的想法目前 Nasdaq 已经插水一段时日,抑制通胀是当务之急,而股市所谓修正才多久已出现V转。对通胀而言意义不大,修正数月才可能有帮助~所以我之前一直描述为“恐慌”。因此对白髮老头而言,怎麽做才有利于中期选举就很清晰了。

最好还是坚持认为市场或已定价加息四次之预期,但缩表预期则是尚未定价的观点。

配置上美股我倾向持有科技权值股,一些 Megacap 的估值我认为合理、前景确定性较高,而这样也可以让你的收益贴著 QQQ 走。

考虑到一堆成长股腰斩,我也愿意加仓接刀成长股,但建议佔据投资组合的比例,或许不要超过 15%,如果选股功力不错,这裡就会开始让你的收益拉开与 QQQ 之类的差距。

最后,我相信人人都会想在市场下跌的环境裡接刀,接刀不是不行,但若接刀失败,斩缆我建议速度要快,我个人不考虑价投的话一次斩缆的比例都是 50% 以上。




  

相关话题

  推进EDA工具完全国产化的难度有多大,有哪些可行的途径? 
  上海微电子新型光刻机支持多少分辨率? 
  offer比较:英特尔PE和北京中芯国际PIE技培生怎么选呢,985博女? 
  如何看待韩国芯片制造商美格纳被中资收购,对于国产芯片有哪些影响? 
  芯片(IC)在8年后还会像现在这样火吗? 
  为什么 2022 年还有麒麟芯片机器上市,华为究竟还有多少芯片? 
  据说大型芯片有几十亿个晶体管,一个都容不得出错,但为何芯片可靠性还这么高? 
  如何看待美国研究人员设计出的「无法被黑的芯片」? 
  编译器是如何编译自己的? 
  美国决定一颗芯片也不给中兴,中国大陆高端制造业能突破重围吗? 

前一个讨论
为什么有些人心里默认女生做不了程序员?
下一个讨论
如何看待商汤科技高管半年薪酬近12 亿?





© 2024-12-26 - tinynew.org. All Rights Reserved.
© 2024-12-26 - tinynew.org. 保留所有权利