2020年底给某大厂做过一个报告,包含两部分内容:一部分是关于计算机体系结构,尤其是CPU结构的演变;另一部分关于处理器芯片设计方法。这里把第一部分内容贴出来回答一下这个知乎问题。
2. 摩尔定律让芯片上的晶体管数量不断增加,但一个问题是这些晶体管都被充分用起来了吗?最近MIT团队在《Science》上发表了一篇文章《There’s plenty of room at the Top: What will drive computer performance after Moore’s law?》,给出他们的答案:显然没有!
可以来看一下MIT团队开展的一个小实验(见下面PPT):假设用Python实现一个矩阵乘法的性能是1,那么用C语言重写后性能可以提高50倍,如果再充分挖掘体系结构特性(如循环并行化、访存优化、SIMD等),那么性能甚至可以提高63000倍。然而,真正能如此深入理解体系结构、写出这种极致性能的程序员绝对是凤毛麟角。
问题是这么大的性能差异到底算好还是坏?从软件开发角度来看,这显然不是好事。这意味着大多数程序员无法充分发挥CPU的性能,无法充分利用好晶体管。这不能怪程序员,更主要还是因为CPU微结构太复杂了,导致软件难以发挥出硬件性能。
如何解决这个问题?领域专用架构DSA(Domain-Specific Architecture)就是一个有效的方法。DSA可以针对特定领域应用程序,定制微结构,从而实现数量级提高性能功耗比。这相当于是把顶尖程序员的知识直接实现到硬件上。
3. 第二个定律是牧本定律(也有称“牧本波动”)。1987 年, 原日立公司总工程师牧本次生(Tsugio Makimoto,也有翻译为牧村次夫,故称为“牧村定律”) 提出,半导体产品发展历程总是在“标准化”与“定制化”之间交替摆动,大概每十年波动一次。牧本定律背后是性能功耗和开发效率之间的平衡。
对于处理器来说,就是专用结构和通用结构之间的平衡。最近这一波开始转向了追求性能功耗,于是专用结构开始更受关注。
4. 第三个定律是贝尔定律。这是Gordon Bell在1972年提出的一个观察,具体内容如下面的PPT所述。值得一提的是超级计算机应用最高奖“戈登·贝尔奖”就是以他的名字命名。
5. 贝尔定律指明了未来一个新的发展趋势,也就是AIoT时代的到来。这将会是一个处理器需求再度爆发的时代,但同时也会是一个需求碎片化的时代,不同的领域、不同行业对芯片需求会有所不同,比如集成不同的传感器、不同的加速器等等。如何应对碎片化需求?这又将会是一个挑战。
6. 这三个定律都驱动计算机体系结构向一个方向发展,那就是“DSA”。如何实现DSA,这又涉及到两个方面:
7. 在谈一些具体技术之前,我们可以先总体看一下过去几十年CPU性能是如何提升的。下面这页PPT列出了1995-2015这二十年Intel处理器的架构演进过程——这是一个不断迭代优化的过程,集成了上百个架构优化技术。
这些技术之间还存在很多耦合,带来很大的设计复杂度。比如2011年在Sandy Bridge上引入了大页面技术,要实现这个功能,会涉及到超标量、乱序执行、大内存、SSE指令、多核、硬件虚拟化、uOP Fusion等等一系列CPU模块和功能的修改,还涉及操作系统、编译器、函数库等软件层次修改,可谓是牵一发动全身。(经常看到有人说芯片设计很简单,也许是因为还没有接触过CPU芯片的设计,不知道CPU设计的复杂度)
8. 处理器内部有非常复杂的状态,其状态变化是由程序驱动的。也就是说,处理器状态取决于程序行为(见下面PPT),而CPU体系结构层次的优化思路就是发现程序行为中的共性特征并进行加速。
如何发现程序行为中的共性特征,就是处理器优化的关键点,这需要对程序行为、操作系统、编程与编译、体系结构等多个层次都有很好的理解,这也是计算机体系结构博士的基本要求。这也是为什么很多国外的计算机体系结构方向属于Computer Science系。
题外话:这两天看到国内成立集成电路一级学科,这是一个好消息。不过要能培育CPU设计人才,在课程设计上不要忽视了操作系统、编程与编译这些传统计算机科学的课程。
9. 举两个发现热点应用和热点代码、并在体系结构层次上优化的例子。一个例子是发现在不少领域TCP/IP协议栈五层协议(L5Ps)存在很多大量共性操作,比如加密解密等,于是直接在网卡上实现了一个针对L5Ps的加速器,大幅加速了网络包处理能力。另一个例子是这次疫情导致云计算数据中心大量算力都用来做视频转码,于是设计了一个硬件加速器专门来加速视频转码,大幅提升了数据中心效率。
10. 发现和识别这种热点应用和热点代码并不容易,需要由很强大的基础设施和分析设备。比如Google在其数据中心内部有一个GWP工具,能对整个数据中心应用在很低的开销下进行监测与统计,找到算力被那些热点程序/代码消耗,当前的CPU哪些部件是瓶颈。比如GWP显示在Google数据中心内部有5%的算力被用来做压缩。
正是得益于这些基础工具,Google很早就发现AI应用在数据中心中应用比例越来越高,于是开始专门设计TPU来加速AI应用。
11. 下面分别从三个方面来介绍体系结构层面的常见优化思路:减少数据移动、降低数据精度、提高处理并行度。
首先看一下如何减少数据移动。第一个切入点是指令集——指令集是程序语义的一种表达方式。同一个算法可以用不同粒度的指令集来表达,但执行效率会有很大的差别。一般而言,粒度越大,表达能力变弱,但是执行效率会变高。
12. 通用指令集为了能覆盖尽可能多的应用,所以往往需要支持上千条指令,导致流水线前端设计(取指、译码、分支预测等)变得很复杂,对性能与功耗都会产生负面影响。
13. 针对某一个领域设计专用指令集,则可以大大减少指令数量,并且可以增大操作粒度、融合访存优化,实现数量级提高性能功耗比。下面PPT的这组数据是斯坦福大学团队曾经做过的一项研究,从这个图可以看出,使用了“Magic Instruction”后,性能功耗比大幅提升几十倍。而这种Magic Instruction其实就是一个非常具体的表达式以及对应的电路实现(见PPT右下角)。
14. 第二个减少数据移动的常用方法就是充分发挥缓存的作用。访存部件其实是处理器最重要的部分了,涉及许多技术点(如下面PPT)。很多人都关注处理器的流水线多宽多深,但其实大多数时候,访存才是对处理器性能影响最大的。
关于访存优化,也有一系列技术,包括替换、预取等等。这些技术到今天也依然是体系结构研究的重点,这里就不展开细讲了。
15. 不再展开介绍访存优化技术,就选最近比较热的内存压缩方向介绍一下。
IBM在最新的Z15处理器中增加了一个内存压缩加速模块,比软件压缩效率提高388倍,效果非常突出。
16. 英伟达也在研究如何在GPU中通过内存压缩技术来提升片上存储的有效容量,从而提高应用性能。
17. Intel在访存优化上很下功夫,可以通过对比两款Intel CPU来一窥究竟。Core 2 Due T9600和Pentium G850两块CPU,工艺差一代,但频率相近,分别是2.8GHz和2.9GHz,但性能差了77%——SPEC CPU分值G850是31.7分,而T9600只有17.9分。
频率相当,为何性能会差这么多?事实上,G850的Cache容量比T9600还要小——6MB L2 vs. 256KB L2 + 3MB L3。
如果再仔细对比下去,就会发现这两款处理器最大的区别在于G850适配的内存控制器中引入FMA(Fast Memory Access)优化技术,大幅提高了访存性能。
18. 第二类体系结构优化技术是降低数据精度。这方面是这几年研究的热点,特别是在深度学习领域,很多研究发现不需要64位浮点,只需要16位甚至8位定点来运算,精度也没有什么损失,但性能却得到数倍提升。
很多AI处理器都在利用这个思路进行优化,包括前段时间日本研制的世界最快的超级计算机“富岳”中的CPU中就采用了不同的运算精度。因此其基于低精度的AI运算能力可以达到1.4EOPS,比64位浮点运算性能(416PFLOPS)要高3.4倍。
19. IEEE 754浮点格式的一个弊端是不容易进行不同精度之间的转换。近年来学术界提出一种新的浮点格式——POSIT,更容易实现不同的精度,甚至有一些学者呼吁用POSIT替代IEEE 754(Posit: A Potential Replacement for IEEE 754)。
RISC-V社区一直在关注POSIT,也有团队实现了基于POSIT的浮点运算部件FPU,但是也还存在一些争论(David Patterson和POSIT发明人John L. Gustafson之间还有一场精彩的辩论,另外找机会再介绍)。
20. 体系结构层次的第三个优化思路就是并行。这个题目中提到的“多核”,就是这个思路中一个具体的技术。除了多核,还有其他不同层次的并行度,比如指令集并行、线程级并行、请求级别并行;除了指令级并行ILP,还有访存级并行MLP。总之,提高处理并行度是一种很有效的优化手段。
以上是关于计算机体系结构尤其是CPU结构优化思路的一个大致梳理,供大家参考。总结来说就是两点结论:
集成电路作为技术密集的高科技产业,基本集中在国内较为发达的一二线城市。
目前形成了以京津冀地区、长三角地区、珠三角地区、中西部地区为核心的四大城市群。
从芯思想研究院发布的数据看,前十大城市中,长三角占据一半,五席分别是上海、无锡、苏州、合肥、南通;环渤海只有北京一个入围;珠三角和中西部各有两席。
过百亿的15个城市集成电路产业规模合计为8280亿元,前10大城市集成电路产业规模合计为7370亿元,占比89%。
一、上海
据上海集成电路行业协会的数据,2018年上海集成电路产业规模达1450亿,较2017年实现23%的增长,位居全国各城市之首。
上海在设计领域,部分企业研发能力已达7纳米,紫光展锐手机基带芯片市场份额位居世界第三。在制造领域,中芯国际、华虹集团年销售额在国内位居前两位,28纳米先进工艺已量产,14纳米工艺研发基本完成。在装备材料领域,中微、上微处于国内领先水平。
上海集成电路产业投资基金总额500亿元,分为100亿元的装备材料基金、100亿元的设计基金、300亿元的制造基金。基金将加快促进汽车芯片、智能移动芯片、物联网芯片、AI储存器芯片、安全芯片以及智能储存器芯片等高端芯片的研发和生产。
二、无锡
根据江苏省半导体行业协会的最新数据来看,无锡市在2018年集成电路产业规模达1014亿元,较2017年实现14%的增长。
无锡市当属江苏省集成电路产业发展水平最高的城市,无锡市原计划到2019年集成电路产业规模达1000亿元,提前一年超额完成任务,无疑已是国内集成电路产业第一方阵行列。
无锡作为“国家南方微电子工业基地中心”,近年来一直在构造集成电路“芯”版图,经年积累形成了较为完备的产业链,集聚了包括华虹半导体、华润微电子、长电科技、中科芯、中德电子(江阴润玛)、江化微、东晨电子、固电半导体、宜兴中环领先等在内的200多家企业,涵盖集成电路设计、制造、封装测试、装备与材料等多个领域,集成电路的全产业链发展格局在锡渐成,勾勒出了无锡集成电路的美丽风景。
2000年以来,先后成为国家科技部批准的8个国家集成电路设计产业化基地之一、全国仅有的两个由国家发改委认定的国家微电子高新技术产业基地之一(另一家是上海)。
不过无锡IC设计业偏弱,占比仅为10%;制造业占比25%;封测业占比高达40%,设备材料占比25%。
三、北京
2018年集成电路产业规模达970亿,较2017年实现8%的增长;排名仅仅次于上海和无锡,位居全国第三。
北京市规划到2020年建成设具有国际影响力的集成电路产业技术创新基地。经过多年发展,北京形成了 “北(海淀)设计,南(亦庄)制造”的集成电路产业空间布局,积累了一定的“家底儿”。以中芯北方、北方华创、屹唐半导体、集创北方为代表的一批产业链上下游企业,正紧密合作,协同打造北京集成电路产业的“芯”实力。
四、深圳
深圳市2018年集成电路产业规模为890亿,较2017年实现34%的增长。
深圳市的集成电路产业规模位列珠三角地区首位,规划到2023年建成具有国际竞争力的集成电路产业集群。
深圳作为国内集成电路产业重要聚集区,长期处于设计业龙头位置,在晶圆制造、封装测试领域非常薄弱。根据深圳新的产业规划,当地将补齐芯片制造业和先进封测业产业链缺失环节,聚焦提升芯片设计业能级和技术水平,注重前瞻布局第三代半导体,努力优化产业生态系统,加快关键核心技术攻关,培育龙头骨干企业和集成电路产业集群。
五、成都
2018年成都集成电路产业规模较2017年实现23%增长。
成都市要跻身国内集成电路设计第一方阵,打造中国“芯”高地,规划到2035年集成电路产业规模3400亿元。这个规划周期确实有点远。
成都的集成电路产业主要集聚在高新区。在芯片设计方面,拥有各类设计公司120多家,包括振芯科技、锐成芯微、和芯微、雷电微力、华大九天、华为海思、新华三等各具特色的企业,设计领域涵盖网络通讯、智能家电、物联网、北斗导航、IP等;在晶圆制造方面,拥有德州仪器8英寸晶圆生产线;在半导体封测方面,成都拥有华天科技(原宇芯)、士兰微、英特尔、德州仪器、芯源系统(MPS)等近十家封装测试企业,形成西南最大的芯片封装测试基地。
六、西安
2018年西安集成电路产业规模较2017年实现5%增长。
西安市打造集成电路产业新高地,规划在2021年集成电路产业规模达1000亿元。西安依靠三星电子存储芯片项目和华天科技西安、美光/力成封装项目,大大增强了西安在集成电路产业中的竞争力。
目前西安形成了从半导体设备和材料的研制与生产,到集成电路设计、制造、封装测试及系统应用的较完整产业链。
从整个产业链的发展情况来看,西安集成电路产业已经形成制造业一枝独秀,设计业与封装测试业相互依存、协调发展的产业格局。
七、苏州
2018年苏州集成电路产业规模较2017年实现7%增长。
苏州在集成电路封装测试、集成电路设计、第三代半导体材料等方面保持国内领先,拥有中科院苏州纳米所等为代表的一大批科研院所和龙头企业,随着中科曙光、澜起科技等一批旗舰项目落户,集聚效应已初步形成。目前,苏州市在芯片最有价值的设计领域,已积累了一批实力企业。当前,苏州市重点支持工业园区和昆山等地区发展集成电路封装和测试产业。园区是国内集成电路产业最集中、企业最密集的地区之一,目前已集聚集成电路设计企业40多家。
八、厦门
2018年厦门集成电路产业规模突破400亿关口。
厦门市是国家集成电路布局规划重点城市,致力构建集成电路全产业链,规划到2025年集成电路产业将达1500亿元。厦门已经形成火炬高新区、海沧区、自贸试验区湖里片区三个集成电路集聚区,目前成功引进了一大批龙头项目,初步覆盖集成电路设计、制造、封测、装备与材料以及应用等产业链环节,聚集了三安光电、联芯集成、士兰微、通富微电、紫光展锐、瀚天天成、美日丰创等200多家集成电路企业,部分环节的生产力达到国际一流水平。
九、合肥
2018年合肥市集成电路产业规模较2017年实现25%的增长。在长鑫量产后,预计2019年合肥集成电路产业规模会有较大增长。
合肥市打造中国IC之都,被列为全国九大集成电路集聚发展基地之一,计划到2020年集成电路产业规模达500亿,其中设计业100亿,制造业300亿,封测60亿,设备材料40亿。随着晶合集成、长鑫集成的投产以及强势引进的一批设计、材料企业,加上宏实自动化、易芯半导体、大华半导体、芯碁微电子等一批本土企业,合肥已逐步形成了集成电路设计、制造、封测、设备材料等全产业链,并带动其他高科技产业取得了良好的发展态势。
在产业布局上,合肥市现已形成了三大集成电路产业基地——经开区、高新区、新站高新区。2018年9月27日合肥市正式被授牌成为“海峡两岸集成电路产业合作试验区”,合作试验区包括合肥市三大集成电路产业基地——经开区、高新区、新站高新区。
十、南通
2018年南通集成电路产业规模较2017年实现23%增长。
近几年南通集成电路产业飞速发展,已初步形成完整产业体系。汇聚了包括通富微电、越亚半导体、京芯光电、捷捷微电子、启微半导体在内的一批企业。
十一、杭州
杭州市致力打造集成电路设计创新之都,从杭州市人民政府印发的《杭州市集成电路产业发展规划》可以看出,到2020年年底,全市集成电路产业主营业务收入力争达到500亿元;明确提出集成电路设计业是杭州信息经济创新发展的长期有效的驱动力,重点发展集成电路设计产业,提升全市整机系统企业的核心竞争力。杭州市的行动目标重点发展芯片设计,选择特色芯片、高端存储芯片等芯片的制造,兼顾封装测试与材料的较为完整的集成电路产业链。
杭州是八个国家集成电路产业设计基地之一,经过多年发展,在集成电路设计领域已经取得了一些优势,汇聚了包括中天微系统、广立微电子、士兰微在内的一批优质公司。目前拥有多个细分领域精尖核心技术,在嵌入式CPU、EDA工具、微波毫米波射频集成电路、数字音视频、数字电视、固态存储(固态硬盘控制器)、计算机接口控制器(包括磁盘阵列和桥接芯片)、LED芯片和光电集成电路等领域技术水平处于国内领先地位,个别甚至处于国际先进水平,进入了国际主流市场。
十二、大连
2018年大连市集成电路产业规模较2017年实现60%增长,其中英特尔大连就高达227亿。
大连市要打造世界级集成电路产业基地,计划到2025年集成电路产业规模达500亿。2108年随着英特尔大连工厂二期扩建项目投产,有力助推大连市集成电路产业发展水平迈向新的高度。
十三、重庆
重庆市规划到2022年力争成为中国集成电路创新高地,集成电路产业规模达1000亿。重庆一直是我国重要的电子信息产业基地,但电子信息产业需要高水平集成电路技术支撑产业发展。重庆将养生培育高端功率半导体芯片项目,重点解决制约集成电路产业发展的技术问题和创新生态问题,实现重庆产芯片产品全面支撑重庆市智能终端、物联网、汽车电子、智能制造、仪器仪表、5G通信等电子信息领域应用需求。
重庆的集成电路产业主要集中在西永微电子产业园区,园区已构建从EDA平台、共享IP库、芯片设计、制造到封装测试的集成电路全新产业生态,吸引了华润微电子、SK海力士、中国电科、西南集成等一批知名集成电路企业聚集发展。目前正全力打造全球协同研发创新平台UMEC联合微电子中心、全国最大功率半导体基地和韩国SK海力士集团全球最大的芯片封装测试工厂。
十四、天津
2018年,由于统计口径的不同,天津集成电路产业规模较2017年有20%的下滑。
天津市致力建成具有国际竞争力的集成电路产业集群,计划到2020年集成电路产业规模达到600亿元。天津集成电路产业逐步形成了IC设计、芯片制造、封装测试三业并举、新型半导体材料与高端设备支撑配套业共同发展的相对完整的产业链格局,聚拢了集成电路企业百余家,聚集了紫光展锐、唯捷创芯、国芯等一批国内集成电路设计龙头企业;芯片制造业拥有中芯国际、中环股份、诺思科技等知名企业;封装测试业有恩智浦半导体、金海通、双竞科技等重点企业;材料与设备支撑业聚集了中环半导体、中电46所、华海清科等企业。
十五、南京
2018年,南京集成电路产业规模实现了56%的增长,一举突破100亿大关。
南京的集成电路产业主要聚集在江北新区,目前已经拥有台积电、华天科技、长晶科技等一批行业龙头,集聚了260余家集成电路产业企业,覆盖行业内芯片设计、晶圆制造、封装测试、终端制造等全产业链环节。[1]