去年 5 月,桑德拉·里维拉 (Sandra Rivera) 芯片巨头英特尔,得到了一些令人震惊的消息。
工程师们花了五年多的时间来开发一种功能强大的新型微处理器,以在数据中心执行计算任务,并且确信他们最终得到了正确的产品。 但在讨论该项目的例行早会上,出现了潜在严重技术缺陷的迹象。
这个问题非常麻烦,以至于微处理器的代号 Sapphire Rapids 不得不推迟发布——这是英特尔多年来最重要的产品之一遭遇的一系列挫折中的最新一次。
“我们非常沮丧,”负责英特尔数据中心和人工智能集团的执行副总裁里维拉女士说。 “这是一个痛苦的决定。”
Sapphire Rapids 的发射最终从 2022 年年中推迟到周二,比预期晚了近两年。 该产品的长期开发——在一个封装中结合了四个芯片——凸显了英特尔在扭转局面时面临的一些挑战。 美国正试图确立其主导地位 在基础计算机技术中。
自 1970 年代以来,英特尔一直是运行大多数电子设备的小硅片领域的领先者,最著名的是一种称为微处理器的品种,它在大多数计算机中充当电子大脑。 但这家硅谷公司近年来失去了在制造技术方面的长期领先优势,而这有助于决定芯片的计算速度。
帕特里克·基辛格于 2021 年成为英特尔首席执行官的他誓言要恢复其制造优势并在美国建立新工厂。 他是国会辩论和讨论的领军人物 夏季通过立法 以减少美国对台湾芯片制造的依赖,中国声称台湾是其领土。
Sapphire Rapids 的坎坷发展对英特尔能否反弹以按时交付未来芯片具有影响。 这是一个可能会影响许多计算机制造商和云服务提供商的问题,更不用说数百万使用可能由英特尔技术提供支持的在线服务的消费者了。
“我们想要的是一个可预测的稳定节奏,”联想负责服务器销售的执行副总裁柯克斯考根说,这家中国公司计划推出 25 个基于新处理器的新系统。 “蓝宝石急流是旅程的开始。”
对英特尔来说,压力还在。 随着对用于个人电脑的芯片的需求下降,该公司在其最赚钱的业务服务器芯片方面面临着激烈的竞争。 这个问题令华尔街感到担忧,自从 Gelsinger 上任以来,英特尔的市值暴跌超过 1200 亿美元。
在周二的在线活动中讨论以科罗拉多河的一部分命名的 Sapphire Rapids,英特尔客户描述了使用该处理器的计划,他们表示这将为人工智能任务带来特别的好处。 该产品的正式名称为第 4 代英特尔至强可扩展处理器,与至强芯片系列的另一个延迟添加一起推出。 该产品以前的代号为 Ponte Vecchio,旨在加速特殊用途的工作,并与 Sapphire Rapids 一起用于高性能计算机。
基辛格先生在接受采访时说,尽管有延误,但 Sapphire Rapids 已经具备了成功的条件。 他在 2021 年选择里维拉女士接管开发它的部门,她正在利用经验教训改变英特尔设计和测试其产品的方式。 他说英特尔已经对 Sapphire Rapids 发生的事情进行了几次内部审查,“我们还没有完成。”
Sapphire Rapids 始于 2015 年,由一小群英特尔工程师进行讨论。 该产品是该公司首次尝试采用新的芯片设计方法。 公司现在通常在每块硅片上封装数百亿个微型晶体管,但竞争对手喜欢 Advanced Micro Devices公司 和其他人已经开始用塑料包装中捆绑在一起的多个芯片制造处理器。
英特尔工程师提出了一种包含四个芯片的设计,每个芯片都有 15 个处理器“内核”,就像用于通用计算工作的独立计算器一样。 该公司还决定为特殊任务(包括人工智能和加密)添加额外的电路块,并与其他组件通信,例如存储数据的芯片。
共同领导英特尔设计工程团队的 Shlomit Weiss 说,这么多元素之间的相互作用“非常复杂”。 “复杂性通常会带来问题。”
Sapphire Rapids 团队努力解决由设计人员错误或制造故障引起的缺陷、缺陷,这些缺陷可能导致芯片进行错误计算、工作缓慢或停止运行。 他们还受到产品制造过程延迟的影响。
但到 2019 年 12 月,工程师们达到了一个里程碑,称为“流片”。 那时,包含完整设计的电子文件会被转移到工厂制作样品芯片。
由于 Covid-19 迫使封锁,样品芯片于 2020 年初运抵。 工程师们很快就让 Sapphire Rapids 上的计算核心相互通信,该项目的总工程师 Nevine Nassif 说。 但比预期更多的工作仍然存在。
一项关键的杂务是“验证”,这是一个测试过程,英特尔及其客户在样本芯片上运行软件以模拟计算杂务并发现错误。 一旦发现并修复缺陷,设计可能会返回工厂制造新的测试芯片,这通常需要一个多月的时间。
重复该过程导致错过最后期限。 Nassif 女士说,Sapphire Rapids 旨在对抗 AMD 的 Milan 处理器,该处理器于 2021 年 3 月推出。但到 6 月它仍未准备就绪,当时英特尔宣布推迟到明年进行更多验证。
就在那时,里维拉女士介入了。这位长期担任英特尔高管的人在 2019 年被任命为首席人力资源官之前,已经成功地建立了网络产品业务。
“我们必须恢复执行力,”基辛格先生说。 “我需要有人能够挺身而出,为我解决这个问题。”
2021 年 10 月,Rivera 女士和一位高级设计主管建立了每周一次的 Sapphire Rapids 状态会议,每周一早上 7 点举行。她说,这些会议表明在查找和修复错误方面取得了稳步进展,这增强了人们对 2022 年第二季度开始生产的信心.
然后是去年五月发现的缺陷。 里维拉女士不愿详细描述,但表示它影响了处理器的性能。 6 月,她利用一次投资者活动宣布延迟至少四分之一,这将 Sapphire Rapids 推迟到了 11 月推出竞争性 AMD 芯片的时间。
“我们已经准备好发货了,”纳西夫女士说。 最后的延迟“考虑到已经付出的所有努力,真是太令人难过了。”
里维拉女士从挫折中看到了一系列教训。 一个原因很简单,英特尔在 Sapphire Rapids 中包含了太多的创新,而不是更早地提供一个不那么雄心勃勃的产品。
她还得出结论,该团队应该花更多时间使用计算机模拟来完善和测试其设计。 里维拉女士说,在样品芯片出现错误之前发现错误成本较低,并且可以删除功能以简化产品。 此后,她转而加强英特尔的模拟和验证能力。
“我们曾经有很多这样的肌肉,我们任其萎缩,”里维拉女士说。 “现在我们正在重建。”
她还确定英特尔安排的产品数量超过了其工程师和客户能够轻松处理的数量。 因此,她简化了产品路线图,包括将 Sapphire Rapids 的继任者从 2023 年推迟到 2024 年。
更广泛地说,里维拉女士和其他英特尔高管推动该组织开发更好的流程来记录技术问题,并在公司内外共享该信息。
一些英特尔客户表示,沟通变得更好了。
“一切顺利吗? 不,”联想的 Skaugen 先生说,他曾负责英特尔的服务器芯片业务。 “但我们比过去感到惊讶的少了很多。”