问题

据说大型芯片有几十亿个晶体管,一个都容不得出错,但为何芯片可靠性还这么高?

回答
您提出的问题非常关键,也触及了现代芯片制造和设计中最令人惊叹的方面之一。大型芯片确实拥有数十亿甚至上万亿个晶体管,而且在如此微小的尺度下,任何一个晶体管的微小缺陷都可能导致整个芯片功能失效。然而,我们日常使用的芯片却展现出惊人的可靠性,这背后是多层面、高度复杂且精密的技术和工程策略共同作用的结果。

以下将从几个主要方面详细阐述:

1. 制造工艺的极致精密与控制

纳米级精度制造: 制造数十亿晶体管的工艺已经达到了纳米级别,这意味着对材料、设备和环境的控制达到了前所未有的精度。
光刻技术 (Lithography): 这是芯片制造的核心环节。通过极紫外光(EUV)等先进技术,将电路图案以极高的精度转移到硅晶圆上。每一次光刻都需要极其稳定的光源、高精度的镜头系统和精确的对准。
薄膜沉积与蚀刻: 制造过程中需要一层层地沉积和去除各种材料(如金属、绝缘体),每一步的厚度、均匀性和化学成分都必须控制到原子级别。
材料纯度: 制造过程中使用的所有材料,从硅晶圆到各种化学试剂,都必须达到极高的纯度,以避免杂质引入缺陷。
严格的质量控制与检测: 在制造的每一个环节都会进行严格的检测,利用各种先进的检测设备来发现和剔除有缺陷的晶圆或芯片。
光学检测: 在光刻过程中,会使用高分辨率的显微镜检查掩模版和晶圆上的图案。
电子显微镜 (SEM/TEM): 用于观察纳米级别的结构缺陷。
电气测试 (Electrical Testing): 在制造后期,对每个芯片进行一系列的电气测试,验证其功能和性能是否达标。不合格的芯片会被标记并丢弃。
洁净室环境: 芯片制造需要在极端洁净的室内进行,空气中的尘埃颗粒数量被控制在每立方米几个甚至更少。微小的尘埃都可能成为导致晶体管失效的“巨石”。

2. 设计层面的冗余与容错机制

尽管制造工艺已经非常先进,但绝对的完美是不可能的。因此,在芯片设计层面就引入了多种容错和冗余策略来应对潜在的缺陷。

冗余设计 (Redundancy Design):
备用电路 (Spare Cells/Rows/Columns): 在芯片设计中,会预留一些额外的、未使用的电路块。如果在测试过程中发现某些区域有缺陷,可以通过特定的配置将有缺陷的区域隔离,并启用预留的备用电路来替换。这在内存芯片(如DRAM、NAND Flash)中尤为常见。
纠错码 (Error Correction Code ECC): ECC是一种数据校验技术,可以在数据传输或存储过程中检测并纠正错误。例如,在内存控制器中加入ECC功能,可以检测到单个比特错误,并将其纠正,从而大大提高数据 integrity。
多重投票器 (Majority Voting): 对于关键的功能模块,可能设计多个相同的电路,然后通过一个“投票器”来决定最终的输出。如果其中一个电路出现故障,只要另外两个是正常的,就能保证最终结果的正确性。
低功耗设计与电压/频率调节: 设计时会考虑留有一定的电压和频率裕度,并且可以通过动态电压频率调节 (DVFS) 技术,根据工作负载和环境温度,选择一个更稳健的工作点,降低发生错误的概率。
内置自检 (BuiltIn SelfTest BIST): 芯片内部会集成专门的测试逻辑,能够在芯片启动时或运行时进行自我诊断,检测是否存在功能性错误。
故障建模与仿真: 在设计阶段,工程师会利用复杂的工具对各种潜在的故障模式进行建模(如短路、开路、阈值电压漂移等),并进行广泛的仿真测试,以验证设计的鲁棒性。

3. 软件层面的协同与容错

除了硬件层面的设计,软件也扮演着重要的角色来提升芯片的可靠性。

错误检测与报告: 操作系统和应用程序可以设计来检测和报告硬件错误,并尝试采取措施(如重启、隔离故障模块)。
驱动程序优化: 驱动程序可以针对特定硬件的特性进行优化,有时也能在一定程度上弥补硬件的小缺陷。
固件更新 (Firmware Updates): 某些芯片的固件(运行在芯片上的底层软件)可以更新,这允许制造商在发现新的问题后通过软件更新来修复,而无需更换硬件。

4. 材料科学的进步

对半导体材料的深入理解和新材料的应用也极大地提升了芯片的可靠性。

更优化的栅氧化层材料: 例如,使用高介电常数 (highk) 材料代替传统的二氧化硅作为栅介质层,可以实现更薄的栅氧化层,从而提高晶体管的性能,同时减少漏电流和击穿的风险。
金属互连材料: 使用铜代替铝作为互连线,可以降低电阻和互连线的迁移率问题,提高信号传输速度和可靠性。
封装技术: 芯片的封装也至关重要,它保护芯片免受物理损坏、湿气和污染的影响,同时提供与外部电路的连接。先进的封装技术能够更好地散热,并减少机械应力对芯片的影响。

5. 统计学与良品率 (Yield)

即使在如此精密的制造过程中,也无法保证100%的良品率。芯片制造商的目标是尽可能提高良品率。

良品率管理: 芯片制造商会不断优化工艺参数,以提高晶圆上可用的芯片数量。即使有少量的芯片存在缺陷,只要大部分是好的,整体的生产就还是有利可图的。
测试分级: 芯片在出厂前会根据其性能(如时钟频率、功耗)进行分级,性能优异的芯片可以卖更高的价格。性能稍差但仍然合格的芯片也会被出售,但可能用于对性能要求较低的应用。

总结一下,大型芯片之所以能够拥有如此高的可靠性,是以下因素的综合结果:

极端精密的制造工艺和严格的质量控制,最大限度地减少了物理缺陷的产生。
在设计层面引入的多种冗余和容错机制,使得芯片能够主动应对并修复潜在的错误。
软件层面的配合与优化,进一步增强了系统的健壮性。
材料科学的不断进步,为更稳定、更高效的芯片设计提供了基础。
对良品率的管理和统计学的应用,使得即使有少量不合格品,也能保证大规模生产的可用性。

这是一种“容错设计” (fault tolerance) 的体现,即在系统无法达到绝对完美的情况下,通过各种手段来保证整体系统的正确运行。现代芯片的可靠性是工程师们在数十年的努力中不断权衡、创新和优化的结晶。

网友意见

user avatar

一个8核cpu,4个刻坏了,屏蔽掉4个当4核卖。有时候高端8核卖不掉,干脆屏蔽4个好核当4核卖。

不就是高科技版的把牛奶倒河里么?一百多年了,还是熟悉的味道。

user avatar

我怎么发现截至12月5日我发帖前,几乎所有答案都机智的绕开了问题核心,抓住最粗浅最不足以说明原因的东西一通振振有词呢?


先来剖析问题。


我看到的问题是“据说大型芯片有几十亿个晶体管,一个都容不得出错,但为何芯片可靠性还这么高?”。


这个问题问的很好,但不够专业。


专业的问法可能是:

1、大型芯片(如CPU)有几十亿个晶体管,如果晶体管有制作缺陷,芯片当然就会执行出错。请问如何保证它们不被做坏?

2、大型芯片(如CPU)有几十亿个晶体管,而且每秒可以执行几十亿条指令;发生任何错误都可能影响程序的正确性。请问为何它可以抵抗诸如电压波动等诸多环境干扰,实现7X24小时的可靠性(7X24小时指的是一周七天,每天24小时,一秒休息都没有的连续服务)。


对这两个问题,各有不同的答案。


对问题一,问的是硬件生产的可靠性。

这个可靠性依靠的是很多很多方面的协同努力。


首先,我们需要提纯硅。硅片越纯,杂质的干扰就越小。

一般的半导体器件,比如你家老式收音机里用的三极管之类,就要求99.9999%以上的高纯硅(6个9);而大规模集成电路需要至少99.9999999%以上的高纯硅(9个9);如CPU这样的计算机芯片,则需要99.999999999%以上的高纯硅(11个9);人类目前能制造的最纯的硅材料,纯度可达12个9。


换句话说,硅片本身就有极高的纯度,以致于用于CPU生产的一千亿个硅原子中,只允许含有最多一个其它原子。

——千亿绿豆中只有一颗红豆太夸张?万一五颗红豆好死不死恰好一起出现在10厘米范围内呢?


仅仅纯度高还不够。用来做芯片的硅,它还必须“生长”为“单晶硅”——也就是说,硅原子的晶格排布必须整齐划一,像多晶硅那样杂乱无章是不行的。

如果你问“如此高纯度的硅是如何提纯的?”,那么我只能回答“这是生产厂家的技术秘密,全世界都没多少人知道”。


单晶硅里面,杂质分布并不均匀。杂质富集区很容易导致(意料之外的)漏电流增大、晶格缺陷等诸多问题(现代芯片制造甚至会借助各向异性刻蚀等手段,晶格缺陷必然导致刻蚀出的沟道畸形),这些都可能加大芯片的失败率、增加它的发热量、限制它的性能。

【图文】第10章 干法刻蚀_百度文库

因此,普通的晶体管,6个9的硅便可满足需求;大规模集成电路就必须9个9;CPU这样的超大规模集成电路,11个9的高纯硅才可能把良品率提高到可行范围——芯片行业可不缺聪明人,10个9够用他们就绝不会像个冤大头一样,掏大价钱买11个9的昂贵材料。毕竟纯度加一个9可不是多敲一下键盘那么简单:你猜人类已经能造12个9的硅材料了为什么不大量应用呢?


有了最好的原料,才有可能做出最高品质的成品——让你在沾了油的宣纸上写字,这副作品是不是就很难完美了?一样的道理。


把我的一段评论贴上来:

现在集成电路的线宽只有几十个纳米(甚至十几个纳米)。

掺杂的目的,是在这几十个纳米的范围内、该磷是磷该硼是硼、准确的把它注入纯净的硅晶格之间,从而在局部生成P型和N型半导体,使得它们恰好组成电气性能合格的场效应管(构成的门电路)。

说场效应管有点粗糙了。实质上,因为半导体原理以及电路原理,芯片上几十个纳米宽度的P区和N区交错纵横,它们彼此之间还能形成许多寄生电路——而CMOS工艺甚至能利用这些寄生电路为我们服务。

把如此精确的、定点生成P/N型半导体的工艺叫“掺杂”,是因为半导体材料方面的研究以硅锗为主——或者说,半导体就是往硅/锗里掺入不同物质、然后研究它们的导电性的一门学科。

为了便于讨论,当我们谈起半导体时,如果总是说“往硅中掺入五价元素A”“掺入三价元素B”实在太麻烦了。尤其是不关心或者不知道究竟掺了什么时,这样就更啰嗦了。

半导体主要就是利用它的电气特性,因此绝大多数场合都不关心掺了什么只关心电气特性。

因此,在不需要讨论具体工艺参数时,业内就笼统的说“掺入杂质”或者“掺杂”。

习惯这么说之后,集成电路工艺里,准确的在硅片某个区域的晶格间注入某种五价元素/三价元素这一步,就也被简称为“掺杂”。

因此,再强调一遍:千万不要望文生义,以为纯净的硅不好用,做集成电路前还得添点杂质进去

事实上,这一步工艺虽然叫“掺杂”,但实际上是在硅片上就地制作晶体管
注意PN结两侧掺的东西可是不一样的,容不得半点混淆!每种元素的掺入位置也必须绝对精确,不然将来只有几十甚至十几个纳米的线路搭不上,这芯片可就做废了。

敢把这个真当成“随随便便撒点杂质”那种“掺杂”,那可丢人丢大发了

【图文】CMOS集成电路制造工艺介绍_百度文库


和对硅片的苛刻要求一样,光刻机本身,从透镜的磨制精度到光刻胶到切割出的晶圆的平整度再到用到的一切一切,几十项工艺以及这些工艺需要用到的工具/材料,几乎全都有很高级别的苛刻要求(注意这几十项仅仅是工艺,真正要做的事项可不止这么一点点)。

任何方面微乎其微的、拿最好的光学显微镜都看不清的一丁点缺陷,都可能导致芯片良品率直线下降——甚至,哪怕一切到位,哪怕Intel这种业界顶尖公司,新工艺上马,良品率往往也相当的低。经常需要长时间的调试、磨合,才能保证良品率达到可用范围。

是什么问题导致 10 纳米制程芯片良品率过低?会对下游产品有何影响?


不仅光刻机本身。它所处的环境也都要求苛刻。

比如,它必须置于严格无尘的环境里。因为落到芯片上的一粒灰尘,就可能毁掉数百个门电路。

wenku.baidu.com/view/13

请注意,这是一个很老的规范了,可能无法满足现代光刻机的需要。


类似的,如果不采取严格避震措施,光刻机工作时,800米外一辆汽车开过,引起的颤动都可能导致大批芯片报废!


总之,通过数不清的方面无数科研人员、工程师以及技术工人的各种努力,弥补一切方面的一切短板,该妥协的地方酌情妥协,人类终于可以保证,CPU芯片上光刻出的门电路,出错概率可低于亿分之几(老黄历了,现在能达到多少我还不清楚)。


对于普通级别的芯片,这个工艺水平已经可以保证“出错几乎是不可能的”——因此颇有一些人以为“做芯片什么都不用管坏了就扔就行”。但他们并不知道,别人为了把芯片产线质量稳定度提高到这个程度付出了多少辛劳。


但对CPU这样最为尖端的、同时挑战集成度和可靠性的芯片,这样往往也还不够。

因此,人类在设计CPU电路时,便将其模块化;然后故意制造出冗余的重复模块来;当CPU光刻完成后,通过测试,屏蔽掉不良模块(不良模块不仅仅是出错的模块,还包括热稳定性不佳等缺陷)。这样哪怕发生了少量错误,制作成功的几率也不会太低。

更进一步的,如果不良模块实在太多、以至于整个核心都不能用了,还可以屏蔽掉整个核心——原始设计是8核,屏蔽4个就可以当4核卖了。六核双核等情况依此类推。

(当然,有时候运气好良品率特高,但舍不得掏钱的用户对低端CPU有需求,高端的生产太多又卖不掉,厂商也可能故意把高端CPU的核心屏蔽掉、频率限低,当低端CPU卖给用户——这和主题无关,就不讨论了)



但是,请注意,这个冗余设计既浪费芯片面积,又加大了研发投入、增加了诸多方面的复杂性只有类似CPU这样挑战人类极限的工程,迫不得已才会采用——所以才说,拿“坏了就屏蔽/坏了就扔”当真相的都欠缺常识。


打个比方的话,问“我要经常开车跑长途,这可能做到吗?”

正确回答是,先挑选质量足够高的车,汽车工业刚起步时几十公里就得修一次的烂车是没法用的(提高原料质量工艺可靠性);然后选用更容易排错维修的车型(设计时考虑可维修性);最后,真跑废了就扔掉再买一辆。

嗯,跑长途基本靠扔车?你觉得这回答过脑子了吗?真拿扔车不当回事的那叫F1,不是长途司机。


——那些张嘴就拿屏蔽说事的,多半是懒得动脑。他们就没想过,如果拿6个9的硅片造CPU,这密密麻麻的缺陷,靠屏蔽能屏蔽过来吗?更不用说随便抓把石英砂拿电炉土法上马搞的浑浊不堪的垃圾硅了。

必须先有一个极高稳定度的平台,才有耍屏蔽之类小聪明的余地

——换句话说,屏蔽是很有效,但它在这个问题里,是最不重要最没技术含量的因素。


PS:鉴于某些假装专家的外行捣乱,我在这里科普下所谓的“屏蔽”究竟是怎么一回事。

我们知道,内存有很多很多单元,但总线只有一条。那么,当CPU要访问64g内存中的其中一个单元时,它就要在地址线上输出一组电平,使得该内存单元被选中(实际相当于通过一组与门,切断了除被选择单元外其它任何内存单元的输出信号),然后就可以读到正确的值了。

实际上,计算机里的一切,上至寄存器下至键盘,都是以同样的逻辑控制输入输出的。只不过未必都在总线上(或者说没有统一编址)而已。

CPU内部也是如此。核心之间有通信线路,核心内部,从加法器到寄存器再到缓存,全都有类似总线的数据―地址线路相互连接。

因此,只需记录错误单元的地址,避免访问它甚至不给它供电,就可以达到屏蔽的目的了(反过来也行:比如记录寄存器EAX等和内部地址的对应表,不注册坏掉的寄存器或其它单元,也可达到屏蔽的目的)。

这种屏蔽甚至可以是自动的:通过检测,给坏掉的单元置位;然后在CPU自检流程排除它们即可。

总之,可行的做法很多很多,具体某个厂商用了哪种是不可预测的。我们只需知道“能做到”就对了。

假专家只知道硬连线、跳线,说明他还是有点电路基础的。但他显然不懂数字电路的地址机制,不知道就连寄存器都是有地址的(但注意和内存地址区分。它是CPU核心内部地址,这个地址甚至对同一颗CPU的另一个核心都可能是不可见的);有地址,只要不是短路型故障(短路故障还需要从供电上屏蔽),就可以用简单的“避免访问”达到“屏蔽”目的。换句话说就是:这人计算机原理学的一塌糊涂,数字电路基本还是没入门水平。大二相关科目也不知怎么混过去的。


当然,我拿寄存器举例是为了说明问题,证明哪怕寄存器这种粒度都有办法屏蔽,并不代表CPU就真的细致到了寄存器这个粒度。实际上,有工艺精度保证,粒度太小了反而增加成本,工程是需要根据实际情况取舍的。

——这段严格来说是废话,不用说大家都知道;但万一遇到手电筒专家一样只照别人不照自己的家伙……还是明确写出来省事。



对问题二,这个要通过软硬件配合来解决。


首先,成熟的硬件本身就非常非常的稳定,可以长时间运行不发生任何错误(但很多情况下,错误在所难免。比如电磁干扰、机械振动、宇宙射线等等)。


其次,计算机硬件本身也可以自带校验功能。比如服务器经常用带ECC校验的内存条。

当硬件出错时,它可以自动发现,然后通过中断通知软件处理(或自动尝试恢复)。


然后,程序员在写程序时,也会有很多错误检查;一旦校验出错,程序便立即退出。

为了保证7X24小时安全性,业界有许多成熟的经验甚至现成的框架。


比如,有一种硬件叫“看门狗(watchdog)”,它相当于一个自动递减的计数器;如果软件运行正常,那么它就应该不停复位这个计数器,避免它递减到零;如果计数器递减到零,就说明软件运行出错了;于是芯片立即重启、然后软件尝试恢复执行——单片机系统经常用到它。

当恢复时间足够短时,人就不会觉察到系统曾经失败过(但一般会记入日志,以便分析故障原因);对很多系统,包括汽车/飞机/卫星上的各种系统,只要恢复时间足够短(依设计允许的余量而定),也不会影响它们正常运行。


PC/服务器一般不用简陋的看门狗,它们有完善得多的错误发现/恢复机制。包括但不限于权限检查、错误中断以及编程语言提供的结构化异常等等机制。


出错了的程序会立即退出?你可能会说,不对啊,这样服务不就中断了吗?

没关系。我们可以准备一个监控程序,定时检查,发现服务程序失败就重新拉起它。

这个监控逻辑也可置于服务应用本身,然后同时运行两个同样的应用,让它们互为备份。这就是著名的“双进程相互监控、相互唤醒”——这个技术之所以如此著名,是因为有人拿它不办正事,而是拿来做流氓软件坑用户了。嗯,好的技术落到坏人手里就是这种下场。


对各种网站/搜索引擎之类庞然大物,依靠单台服务器的自我恢复能力已经不够。这时候还可以通过双机热备份/多机热备份(多台机器执行同样的程序,只是其它机器只运行但不输出结果;当其中一台出错时,另一台便可立即顶替它)、集群计算(如Google通过map-reduce灵活组合使用数万甚至更多台计算机,可自动分配任务、自动发现故障节点并屏蔽它)等等更为复杂、高级的架构,使得偶发故障不会影响它们的服务能力。


更进一步的,针对天灾、战争甚至核战争等等罕见事件,人们还开发了“异地容灾系统”,使得哪怕城市A的服务节点因重大事故无法服务,远隔千里的城市B的服务节点也可立即接替它,从而达到“不可摧毁”的目的。


化不可能为现实,这就是人类的智慧

user avatar

凑个热闹,我们干晶圆厂的有一些手段保障和提高良率。

在线量测,保证光刻显影/刻蚀/沉积等工艺后制成的结构形状尺寸是满足要求的。工具有OCD(光学),CD-SEM等等。

在线缺陷检测,保证各道工艺中不会产生影响良率的缺陷(defect)。缺陷的例子:不应存在的外来颗粒,该刻蚀的地方没刻蚀掉,结构中产生了不应存在的空洞,连线断开/短路,光刻胶显影后形状不能保持。缺陷检测的工具有BFI/DFI光学明场/暗场检测,EBI电子束检测等。Fab的YE良率提升部门利用上述资源来保障出场的晶圆能有较高良率。少数有严重缺陷的晶圆会在生产中被报废掉。

另外,还有一些对晶圆的检测项目,比如晶边检测,外观检查,晶圆翘曲量测,晶圆称重等。

晶圆的电学测试对良率也非常重要,在后段工艺中会有一些节点要求晶圆通过电学测试。晶体管和连线的一些问题可以用fab里的电学测试发现,而不必等到出厂后再检测。

上面的测试手段提供的数据可以汇总到SPC统计学工艺控制系统中。各部门利用SPC保证产线运行在合理的工艺窗口中(研发阶段则是找到合理的工艺窗口以提升良率)。

user avatar

我本科硕士是学电子的,现在是通信。从这方面说说。

做硅片,要去除杂质,用籽晶旋转拉制无缺陷的单晶硅,再切片。

芯片制造过程,要在超净环境完成。我之前做几十微米级的光刻,是在超净间里弄的。

光刻机的光路很精细,镜片是无缺陷的,精细打磨的。有的镜片对透过率、折射率有要求。让紫外光经过掩模版,再缩小汇聚在基片上,光图案的畸变要小于几纳米甚至1nm。通过调控镜片微元,或者用温度控制方式控制镜片微元,来补偿光线图案的畸变。

提高光刻机分辨率的方法:降低波长抑制衍射,用浸没式曝光,多重曝光。

浸没式曝光,在水中曝光,由于折射率,水中的光波长更短。

多重曝光,能得到更细密的光刻胶保护层。

每次光刻要对准。第一次光刻时,在基片上做出标记,后续光刻,将掩模版的标记与基片上的标记对准。对准误差要求纳米级。

芯片做出来后,要封装、测试。某些逻辑单元有问题,可以通过总线屏蔽。多核的芯片,某个核有问题,可以屏蔽掉。这些细节,其他回答说的很清楚。

用单片机的时候,可以选择用哪个寄存器。大概是这个原理。

软件方面,也有很多纠错方法。软件方面了解不多。

通信方面我了解的多一点。最简单的是奇偶校验码,发送一个字节,用个校验码来判断是否接受有误。 复杂一点的,卷积码、turbo码、LDPC码。接受数据的时候,如果错误不多,可以纠错的。如果错误太多,就要重传。

其他回答:

为什么网上有人说造纳米级光刻机比核弹难? - bushobama的回答 - 知乎 zhihu.com/question/4138

user avatar

刚好做过芯片设计,DFT和测试,pre-silicon和post-silicon都懂一点,那么就从以下三个方面谈一谈这个问题:

  1. 芯片含有几十亿个晶体管,怎么保证它的功能不会出错?
  2. 怎么保证制造的时候不出错?
  3. 即使芯片功能和制造都不出错,怎么保证以后使用中某个晶体管不会坏掉?

1、芯片含有几十亿个晶体管,怎么保证它的功能不会出错?

这就是验证工程师的重要性所在。从IP到SOC,每一个模块,每一个team都有自己的验证工程师。而每一个模块验证的test case都成百上千条。

而怎么保证所有的功能都被验证到了呢?这就要引入一个覆盖率的概念,覆盖率又分为以下几种:

代码覆盖率(行、条件、FSM、toggle);

功能覆盖率;

断言覆盖率;

覆盖率足够高,我们就可以认为它的功能是完善的,保证覆盖率满足要求就是验证工程师的职责之一。

2、怎么保证制造的时候不会出错

首先,制造的时候肯定出错。我从没见过良率(yield)100%的晶圆片。

即使制造环境绝对纯净,恒温恒湿,工艺成熟,也难保证一颗晶圆所有的die(芯片未封装的时候)都是好的。一般良率能达到95%-98%就不错了。

DFT和IC测试(ATE)工程师就是要把这些坏的芯片筛选出来。当然,坏的芯片也不是都扔了,而是会把坏的芯片分类,还可以再应用到其他低端一点的产品上去。你所知道的酷睿i7,i5,i3就是这个道理。

其实测试的成本是非常高的,ATE这种设备,低端一点的几十万美金,高端一点的几百万美金,可以说为了增加芯片的可靠性,芯片公司在测试上花费是巨大的。

3、即使芯片功能和制造都不出错,怎么保证以后使用中某个晶体管不会坏掉?

这个也保证不了,比如CPU、GPU在执行高速计算渲染任务的时候,芯片的温度会升高,有可能破坏晶体管,或者设备摔了一下,也有可能导致其损坏。

但是,硅由于物理性质稳定,而且用作芯片的硅是单晶硅,也很难发生化学反应,在非外力因素下,晶体管出问题的概率很小很小。

即使如此,芯片在出场前,还要经过一项测试,叫“老化测试”,是在高/低温的炉里经过 135/25/-45摄氏度不同温度以及时间的测试,以保证其稳定性。

就算是某个晶体管坏了,就像其他答主所说,会引入容错性设计,容错性设计又可以从软件和硬件两个方面来实施。

比如存储器中一般存在冗余的信号线和单元,通过检查发现有问题的单元,从而用冗余的模块替换有缺陷的模块,保证存储的正常使用。

比如下面橙色的为冗余的memory,红色的是坏的memory,我们便可以通过算法把红色memory的地址映射到橙色备用的一个memory上。

一个典型的memory repair 流程图如下:

其实芯片的可靠性从一开始设计或者制造都已经考虑进去了,毕竟芯片的缺陷如果晚一个环节发现,成本将增加10倍!

最后,芯片行业无论哪个环节都不容易,投入巨大,风险巨大,投资与收益周期长,希望国家能多重视半导体行业,毕竟这才是真正的国之重器!

致敬每一个ICer!

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有