百科问答小站 logo
百科问答小站 font logo



基于10nm工艺的英特尔芯片性能会比自家14nm的有大幅度提升吗? 第1页

  

user avatar   mu-tou-long 网友的相关建议: 
      

一句话结论:有,综合平均46%

这个问题下,好像大家都在谈消费级的CPU,这里回答个服务器级的产品——第三代英特尔® 至强® 可扩展处理器。

每一代新制程工艺的产品,与前代产品相比最大优势是晶体管数量。 晶体管数量多了,可以从很多方面去提升CPU的性能,例如:

  1. 增加新指令 同样的运算,新的专用指令比用通用指令组合性能更好,功耗更低。
  2. 增加运算单元 增加已有的运算单元数量,提高指令并行度——为了保持新增单元的效率,往往需要对整个CPU的指令通道进行加宽,例如更多的解码器,更深的微操作队列,更宽的乱序执行窗口等等。
  3. 扩大缓存 把更多的数据从相对低速的内存中载入高速的缓存,减少CPU等待指令、数据的时间。
  4. 采用更优秀的算法 例如分支预测、缓存替换策略等算法,更优秀有效的算法往往需要更丰富、细节更多的运行状态数据支持,产生、统计、记录这些数据,实现更复杂、细致的算法需要更多晶体管。
  5. 增加内核数量 可以同时运行更多的计算任务,而且没有频繁切换线程带来的性能开销。

上面1~4都是内核架构层面的,只要采用相同的内核,任何CPU都可以获得相同的性能提升。但是因为应用环境的不同,增加核心在主流消费级CPU上并不常见——起码不会每次升级制程就会提高内核数量。而在多线程应用常见的服务器、工作站、高端桌面领域,CPU厂商几乎是只要能提供多少核心就给多少,历代英特尔® 至强® 处理器的旗舰型号,内核数量从10~15~18~24~28~40一路提升,这才是最能直观体现出新工艺带来的性能提升的地方。

数据来源:英特尔® 产品规范[1]

采用10nm工艺的第三代英特尔® 至强® 可扩展处理器介绍

第三代英特尔® 至强® 可扩展处理器其实有两种不同的制程、架构的产品,其中4路、8路型号都是14nm制程,架构代号Cooper Lake-SP;双路型号是10nm制程,架构代号Ice Lake-SP(ICL-SP)。针对提问所问的10nm工艺,本回答提到的“第三代英特尔® 至强® 可扩展处理器”均指ICL-SP的型号。

全新的内核架构

ICL-SP的内核架构是Sunny Cove(SNC),这个其实在搭载第十代英特尔® 酷睿™ 处理器的轻薄本产品上早已出现过了。根据上面提到的性能提升方式简单谈一下SNC对比上一代产品的Skylake(SKL)内核架构的主要提升(服务器与消费级的内核稍有不同)[2]

  1. 增加新指令 新增SHA指令对加密进行加速;新增多条AVX-512指令加速向量计算、神经网络运算;新增安全方面的内存加密、SGX扩展等。

2. 增加运算单元 增加一个数据存储单元,增加一个用于存储数据的地址计算单元(AGU)。为了更好的指令并发性能,整体流水进行加宽:

  1. 更深的指令分配队列,从64提升到70,9%;如果关闭SMT,队列深度为140;
  2. 更宽的乱序窗口,从224提升到352,57%;
  3. 更多指令发射端口,从8提升到10,25%;
  4. 更宽的调度器,从97提升到160,65%。
  5. 更大的寄存器文件,整数寄存器从180提升到280,56%;浮点寄存器从168提升到224,33%。

3. 扩大缓存 更大的一级数据缓存(L1D),从32KiB提升到48KiB,50%;更大的二级缓存(L2 Cache),从1MiB提升到1.25MiB,25%。

4. 采用更优秀的算法 新的指令抓取策略,优化了分支预测算法。


上述措施的整体效果,根据英特尔公布的数据,SNC比SKL的综合平均IPC(Instruction Per Cycle,每周期指令数量,衡量CPU的同频率性能指标)提升20%(略高于消费级SNC vs SKL的18%)。



大幅增长的核心数量

从上面的规格对比可以看到,ICL-SP最多40核心,比SKL-SP的最多28提升了43%。英特尔® 至强® 可扩展处理器的Mesh内部互联总线使得数量众多的任意两个核心之间、核心与集成的其它模块如UPI控制器、PCIe控制器、内存控制器通信时有最佳的延迟-带宽平衡。


存储容量、带宽提升

支持更大容量内存。 ICL-SP支持最大6TB内存,2TB DRAM + 4TB 英特尔® 傲腾™ 持久内存,比上代产品的1.5TB + 3TB增加了33%。

内存带宽更高。 ICL-SP支持8通道DDR4-3200,单插槽内存带宽高达204.8 GB/s;比上代产品的6通道DDR4-2933提供的140.8 GB/s提升了45%。

IO设备带宽更高。 ICL-SP支持PCIe 4.0,单通道带宽16 GT/s,比上代产品的PCIe 3.0的8 GT/s提高100%。PCIe通道数量也从48条增加到64条。

这些提升,配合最新的英特尔® 傲腾™ 持久内存200系列、英特尔® 傲腾™ 固态盘5800系列、英特尔® 以太网800系列网络适配器,保证第三代英特尔® 至强® 可扩展处理器可以快速的获取需要处理的数据,无论这些数据是已经加载进内存中,还是在本地/远程存储设备上。

其它特性介绍

除了性能提升外,第三代英特尔® 至强® 可扩展处理器还有不少新增特性:

英特尔® SGX(Intel® Software Guard Extension):

英特尔® SGX 技术能在 CPU 的支持下,在内存等特定硬件环境中构建出一个可信安全的 “飞地”(Enclave)。飞地独立于操作系统、虚拟机以及 BIOS 系统之外,即便比客户应用程序更底层的基础软件或系统在恶意攻击中沦陷,飞地也可以通过基于硬件的、增强型的安全防护更有效地阻断这些攻击,尽力避免其中的数据或代码被窃取或篡改。同时,英特尔® SGX 技术是目前商用 CPU 硬件中最先进的可信执行环境(TEE)实现,也是越来越重要的“隐私计算”、“机密计算”的核心技术之一。

英特尔® SST (Intel® Speed Select Technology): 可以根据不同应用场景或应用负载的特点及其对算力的特定要求,对处理器单个及多个核心的运行状态、频率和功耗进行精细化控制,从而能在保障更优能效的前提下满足不同负载的差异化需求。

英特尔® TME (Intel® Total Memory Encryption): 集成在CPU内部的透明全内存加密技术。

英特尔® 密码操作硬件加速(Intel Crypto Acceleration): 新的指令和架构特性可以并行执行多个加密函数,减少常见的数据加密带来的性能下降,可以提升SSL网站服务器、5G基础设施、防火墙等应用的性能。针对对称加密和哈希加密等常见算法,公钥密码加速负载性能提升 5.6 倍,对称加密负载性能提升 3.3 倍。


性能对比

如果懒得了解技术细节的话,看跑分就好了。

官方评测

先看看官方给出的第三代英特尔® 至强® 可扩展处理器测试成绩:


标准性能评测,对比上代产品平均提升46%,浮点性能提升52%;


常见数据中心负载,提升最高的是网络数据包处理性能,88%;虚拟化、蒙特卡洛计算、机器阅读(BERT)三项应用获得超过70%的性能提升;其它提及的应用负载中,性能提升幅度都超过了50%。


高性能计算中,标准评测提升幅度在38%~47%之间;实际应用中,除了财务服务中的二项式期权提升幅度较低为28%外,其它应用中提升幅度都超过50%,综合平均提升幅度为53%。


最近大热的人工智能,常见的ResNet-50,实时推理提升52%,批量56%。

SPEC官网数据库成绩

可能有朋友会对官方数据的可信度存疑,其实熟悉硬件圈的朋友大部分都认为英特尔官方的评测数据是靠谱的。不过还是找一下第三方数据,看看业界标准的处理器性能评测软件SPEC CPU 2017的数据库中,第三代英特尔® 至强® 可扩展处理器实际表现如何。

这里选取Dell提交的成绩,限定双路处理器配置,第三代英特尔® 至强® 可扩展处理器的8380和第二代英特尔® 至强® 可扩展处理器的8280的成绩搜索结果[3][4]



SPEC CPU 2017的成绩分四个部分:

  1. Int Speed,单实例整数测试,ICL-SP略有提升幅度很小。 SPEC的整数测试基本上没有为并行计算优化,无法发挥多核心的性能优势,而且这类应用通常也很难为SIMD优化。
  2. Int Rate,多实例整数测试,提升幅度53%。 多实例可以很好的发挥ICL-SP的多核心优势。
  3. FP Speed,单实例浮点测试,提升幅度51%。 浮点应用往往会对多线程进行优化,即使是单实例也可以发挥核心数量多的优势。
  4. FP Rate,多实例浮点测试,提升幅度62%。 多实例,浮点,能最大化的发挥出第三代英特尔® 至强® 可扩展处理器的全部性能优势。

结论及展望

英特尔® 基于10nm制程工艺的第三代英特尔® 至强® 可扩展处理器,对比上代14nm制程工艺的产品,综合性能提升43%。其实这个成绩是被一些不适合对并行计算、向量处理优化的传统应用拉低了,如果是对海量数据量进行处理,渴求处理器性能的各种数据中心应用、高性能计算、人工智能应用等,因为数据量庞大,适合分块、分组处理,可以很好的发挥多核心、SIMD指令优势,大部分应用都可以获得50%以上的性能提升。

对于未来,我想就人工智能多说两句。随着互联网、移动设备、智能硬件的普及,我们的生活、工作中产生的数据会越来越多,同时我们也更需要用这些数据为我们的生活和工作提供便利。然而作为人类的我们,获取信息、处理信息的能力总是有限的,这就更需要计算机协助我们处理这些庞大的数据,并且从这些数据中寻找出某种规律,或者提取其中重要的部分数据出来,这就要靠人工智能的帮助。所以人工智能将会是IT界下一个重要的普及方向。

可能会有朋友觉得,GPU甚至是专用的TPU,可以提供比CPU更强大的机器学习、深度学习性能。虽然这是事实,但我要说的是,GPU和TPU提供的庞大性能,对于使用海量的数据来训练模型的确很好,然而将来人工智能的普及,更重要的是智能和各种各样业务的结合。举例来说,目前大家最熟悉的人工智能应用:人脸识别,训练一个识别模型需要对海量的照片进行分析、计算,GPU/TPU会比CPU更为合适。然而训练模型只是少量的研究机构、大型企业才会去做的事情,更普遍的应用,是某个需要识别用户身份的应用如需要实名认证的金融软件、政府应用等,只需要对少量图片或者一段几秒钟的视频结合训练好的模型进行推理,然后根据识别结果进行不同的处理流程。这种情况下,CPU比GPU更有优势:应用开发简单方便、硬件普及程度高。

所以,就人工智能来说,GPU/TPU和CPU各有优势,GPU/TPU更适合从大量数据中训练出需要的模型,而训练好的模型结合业务进行推理则是CPU更适合。第三代英特尔® 至强® 可扩展处理器大幅提升的人工智能性能,对于需要使用人工智能进行分析决策、优化业务的企业来说,可以更快速的响应,降低总体拥有成本,值得有需要的企业选用。


另附一篇和英特尔® 至强® 可扩展处理器有关的回答:


参考

  1. ^英特尔® 产品规格对比 https://ark.intel.com/content/www/cn/zh/ark/compare.html?productIds=53570,75240,84682,93790,120496,212287
  2. ^【PDF】3rd Gen Intel® Xeon® Scalable Platform Technology Preview https://newsroom.intel.com/wp-content/uploads/sites/11/2021/04/3rd-Gen-Intel-Xeon-Scalable-Platform-Press-Presentation-281884.pdf
  3. ^CPU2017 Results -- Results https://www.spec.org/cgi-bin/osgresults?conf=cpu2017&op=fetch&proj-COMPANY=256&critop-COMPANY=0&crit-COMPANY=dell&proj-SYSTEM=256&proj-PEAK=256&proj-BASE=256&proj-ENERGYPEAK=256&proj-ENERGYBASE=256&proj-CORES=256&proj-CHIPS=256&critop-CHIPS=0&crit-CHIPS=2&proj-THREADS=0&proj-CPU=0&critop-CPU=0&crit-CPU=8280&proj-CPU_MHZ=0&proj-NCPUORD=0&proj-PARALLEL=0&proj-BASEPTR=0&proj-PEAKPTR=0&proj-CACHE1=0&proj-CACHE2=0&proj-CACHE3=0&proj-OCACHE=0&proj-MEMORY=0&proj-STORAGE=0&proj-OS=0&proj-FS=0&proj-COMPILER=0&proj-HWAVAIL=0&crit2-HWAVAIL=Jan&proj-SWAVAIL=0&crit2-SWAVAIL=Jan&proj-LICENSE=0&proj-TESTER=0&proj-SPONSOR=0&proj-TESTDAT=0&crit2-TESTDAT=Jan&proj-PUBLISH=256&crit2-PUBLISH=Jan&proj-UPDATE=0&crit2-UPDATE=Jan&dups=0&duplist=COMPANY&duplist=SYSTEM&duplist=CORES&duplist=CHIPS&duplist=THREADS&duplist=CPU&duplist=PARALLEL&duplist=BASEPTR&duplist=PEAKPTR&duplist=CACHE1&duplist=CACHE2&duplist=CACHE3&duplist=OCACHE&dupkey=PUBLISH&latest=Dec-9999&sort1=COMPANY&sdir1=1&sort2=SYSTEM&sdir2=1&sort3=CHIPS&sdir3=-1&format=tab
  4. ^CPU2017 Results -- Results https://www.spec.org/cgi-bin/osgresults?conf=cpu2017&op=fetch&proj-COMPANY=256&critop-COMPANY=0&crit-COMPANY=dell&proj-SYSTEM=256&proj-PEAK=256&proj-BASE=256&proj-ENERGYPEAK=256&proj-ENERGYBASE=256&proj-CORES=256&proj-CHIPS=256&critop-CHIPS=0&crit-CHIPS=2&proj-THREADS=0&proj-CPU=0&critop-CPU=0&crit-CPU=8380&proj-CPU_MHZ=0&proj-NCPUORD=0&proj-PARALLEL=0&proj-BASEPTR=0&proj-PEAKPTR=0&proj-CACHE1=0&proj-CACHE2=0&proj-CACHE3=0&proj-OCACHE=0&proj-MEMORY=0&proj-STORAGE=0&proj-OS=0&proj-FS=0&proj-COMPILER=0&proj-HWAVAIL=0&crit2-HWAVAIL=Jan&proj-SWAVAIL=0&crit2-SWAVAIL=Jan&proj-LICENSE=0&proj-TESTER=0&proj-SPONSOR=0&proj-TESTDAT=0&crit2-TESTDAT=Jan&proj-PUBLISH=256&crit2-PUBLISH=Jan&proj-UPDATE=0&crit2-UPDATE=Jan&dups=0&duplist=COMPANY&duplist=SYSTEM&duplist=CORES&duplist=CHIPS&duplist=THREADS&duplist=CPU&duplist=PARALLEL&duplist=BASEPTR&duplist=PEAKPTR&duplist=CACHE1&duplist=CACHE2&duplist=CACHE3&duplist=OCACHE&dupkey=PUBLISH&latest=Dec-9999&sort1=COMPANY&sdir1=1&sort2=SYSTEM&sdir2=1&sort3=CHIPS&sdir3=-1&format=tab



  

相关话题

  如果我国实现 28nm 芯片全产业链国产化,能够满足国内多少比例的芯片供应? 
  中国未来五年内可能实现高端芯片自给自足吗? 
  为什么很多军用芯片都还是65nm的? 
  麒麟处理器和骁龙处理器的优劣和差距是什么? 
  如何看待因与公司存在分歧,寒武纪公司核心技术人员梁军离职? 
  基于10nm工艺的英特尔芯片性能会比自家14nm的有大幅度提升吗? 
  2021年了,还有人认为英特尔(Intel)处理器比超威半导体(AMD)的稳定吗? 
  中国何时能研制出光刻机,使芯片不再依赖进口? 
  为什么 Intel 又败给了 AMD,这次 Intel 还有机会吗,桌面处理器市场是不是要变天了? 
  如何看待全球芯片荒之际,英特尔投资 200亿美元资建立两个新工厂,将产生哪些影响? 

前一个讨论
光学显微镜受光线的波长限制只能够放大两千倍左右的极限,有办法解决么?或者这就是自然定律的一种界限表现?
下一个讨论
NBA 球员都是什么时候知道自己该退役了?





© 2024-05-14 - tinynew.org. All Rights Reserved.
© 2024-05-14 - tinynew.org. 保留所有权利