英特尔这颗芯片,太猛了

半导体行业观察 2025-08-27 09:29

公众号记得加星标⭐️,第一时间看推送不会错过。

资讯配图

来源:内容编译自nextplatform 

2025年上半年,AMD在X86服务器CPU市场的收入份额超过40%,出货量份额超过27%,这意味着两件事。首先,与英特尔相比,AMD的X86 CPU销量更大、更强劲。这也意味着,尽管英特尔面临诸多困境,但在2025年,AMD仍将获得X86服务器CPU近60%的收入份额和超过72%的出货量份额。


不,这不是英特尔惯常的做法,但有时这就是生活。随着 2026 年“Clearwater Rapids”至强 7 P 核处理器和至强 7“Clearwater Forest”E 核处理器的推出,一切都取决于英特尔 18A 制造工艺(也可能被称为 1.8 纳米)、2.5D EMIB 中介层和 Foveros 3D 芯片堆叠与键合技术。这两项技术最初都应用于数据中心,应用于命运多舛、一再推迟的“Ponte Vecchio”Xe Max系列 GPU 加速器。


说这两款至强 7 处理器前景光明,其实并不为过。随着超大规模计算和云构建商加大对自主研发 Arm 服务器 CPU 的使用,数据中心的每个 X86 服务器插槽都面临着激烈的竞争,而 AMD 是其强劲的竞争对手,其 Epyc 服务器 CPU 的发布频率非常高,并且凭借台积电超越英特尔代工厂的工艺和封装技术,占据了主导地位。


但随着明年 18A 和至强 7 的推出,英特尔有机会稍微抑制住这股潮流,或许还能与 X86 服务器 CPU 达成平衡。虽然 E 核版本的节能、高吞吐量处理器在应用方面相对小众,但这也是一件好事,因为它们将帮助英特尔加速 18A 工艺以及 2.5D 和 3D 封装技术的发展,而这些技术也有望在 P 核版本的至强 7 中得到应用。


这些封装挑战足以让英特尔未能承诺在2025年推出Diamond Rapids,并将Clearwater Rapids推迟到2026年上半年。在解雇Pat Gelsinger并迎来新首席执行官之前,英特尔在今年1月就做出了这样的承诺。这次推迟或许能再次给AMD一个保持领先英特尔的机会。


今年 4 月,AMD 成为首家采用台积电 2 纳米 N2 工艺流片的高端芯片制造商(此次流片的是基于 Zen 6 核心的未来“威尼斯” Epyc 9006 处理器)。但威尼斯预计要到明年才会推出,因此,对于英特尔来说,仓促将产品以可能较低的良率推向市场并没有任何好处,而且成本比等待良率提高后再推出要高得多。


除了半导体设计和制造之外,还有很多行业更容易进入。...


无论如何,在本周的 Hot Chips 大会上,英特尔院士兼至强处理器架构师 Don Soltis 亲自演示了 Clearwater Forest E-core 处理器。Soltis 甚至从英特尔代工厂带回了至强 7 E-core CPU 的早期样品,并将其塞进了衬衫口袋。(由于今年我们远程参加 Hot Chips 大会,所以没能拍到这款芯片的清晰照片。)以下是 Clearwater Forest 插槽的模型,它应该能帮我们搞定一切:


资讯配图


Clearwater Forest 当然是从 18A 工艺开始的。18A 工艺采用环绕栅极 3D 晶体管,英特尔称之为 RibbonFET,这比 FinFET 晶体管设计有了很大的改进。早在 2011 年,英特尔就凭借 22 纳米工艺率先推出了 FinFET 3D 三栅极晶体管,从那时到 18A 工艺之间的所有工艺——14 纳米、10 纳米(包括英特尔 7 纳米的改进)一直到英特尔 3 纳米(3 纳米)——都采用了 FinFET 晶体管。2024年 6 月推出的“Sierra Forrest”E 核心至强 6 处理器采用了英特尔 3 纳米工艺以及 EMIB 技术,将芯片组连接到插槽中介层上,但并未使用 Foveros 3D 堆叠技术。


与英特尔 3 代工艺相比,18A 工艺在相同功耗下性能提升 15%,在相同面积下芯片密度提升 30%。18A 工艺与名为 PowerVia 的背面供电技术相结合,该技术利用硅片的两面,在正面传输数据信号,在背面为晶体管供电。(英特尔和其他公司之前的 CPU 都是在正面传输信号和电源。)最终结果是,晶体管更小,功耗更低,即使尺寸缩小,功耗也更低。


资讯配图


Clearwater Forest CPU 的 3D 构造也对其技术效率有所贡献(尽管其经济效率还有待观察)。


“我们构建的每个电路都需要电源和地线,”Soltis在他的Hot Chips演讲中解释道。“最佳的电源分配位置是恰到好处,并且不会干扰元件之间所有信号的路由。这正是我想要强调的能效提升之处。其中之一就是单元密度的提高,或者说单元利用率的提高,这意味着我们可以在更小的面积内封装更多的东西,从面积、成本等方面来看,这都是非常有益的。”


然而,由于平均走线长度较短,因此也具有功率效率优势,而较短的走线从根本上来说更节能。同样,当您拥有数据路径或更大的结构时,您将拥有更多的布线资源,因为您不必使用相同的金属来布线电力传输,因此这些信号现在能够提供具有更低电容和更低电阻的互连,从而实现更高的功率效率。


最后一点,也是极其重要的一点,就是存在电压降,即功率传输中存在电阻,而使用背面金属会损失一些功率。我们的导线尺寸更适合功率传输,而不太适合一般信号完整性,因此我们的功率传输损耗更低。想象一下,电阻比在金属堆叠中来回穿梭,再从晶体管直接向上传输要低得多。


资讯配图


如果从基础架构开始构建,您将获得一个基础封装基板,该基板与之前的 Socket E 或 LGA 4677 插槽完全兼容,Granite Rapids 和 Sierra Forest Xeon 6 处理器都使用这种插槽。顾名思义,它有 4677 个引脚用于电源和信号传输。


英特尔在此基板上铺设了一对现有的 I/O 芯片组,这些芯片组曾用于至强 6 CPU,并采用英特尔精炼的 10 纳米 7 工艺蚀刻而成。I/O 模块连接到 EMIB 桥接器,然后放置三个蚀刻有英特尔 3 工艺的基座芯片组。这些 I/O 模块和 EMIB 模块与 Sierra Forest 中使用的相同。基座模块有所不同,因为它们上面堆叠了核心,因此必须有相应的线路。I/O 模块包含三级缓存、用于连接核心的结构、用于核心的内存控制器以及其他 I/O 功能。四个 EMIB 桥接器将这五个芯片组连接在一起。


每个基础芯片都有四个 CPU 核心芯片,这些芯片以 18A 蚀刻,堆叠在它们之上,并使用英特尔发明的 Foveros 混合键合将核心下方的线路与基础块顶部的线路连接起来,形成一个 3D 处理复合体。


资讯配图


EMIB 和 Foveros 线路之间的整个连接,被 Soltis 称为“单片网格相干互连”,但实际上,单片芯片的二维布局也可以这样称呼。关键在于,从逻辑上讲(指的是根据设计中体现的逻辑,而非论证的逻辑),这看起来像是一种速度更快的网格互连,而它的 3D 特性实际上并不影响这种逻辑。速度有时会上升或下降,而不是大幅提升。


资讯配图


深入研究 Clearwater Forest “Darkmont” E 核心,每个模块包含四个核心,它们封装了大约 4 MB 的统一二级缓存,与核心的周期差 17 个周期。每个核心的二级缓存带宽为 200 GB/秒,是 Sierra Forest CPU 中使用的“Sierra Glen”核心带宽的两倍。二级缓存上有一个结构端口,带宽为 35 GB/秒,核心通过该端口与外界通信;模块内的核心通过二级缓存端口相互连接。


根据 SPECint_rate_2017 吞吐量测试,Darkmont 核心每时钟执行的指令比 Sierra Forest CPU 中使用的 Sierra Glen 核心多 17%。


那么,英特尔是如何做到这一点的呢?


嗯,通过加倍核心数并将微架构中的许多功能提升 1.5 倍到 2 倍。


一切都从前端开始:


资讯配图


Darkmont 核心拥有 64 KB 指令缓存和 32 KB 数据缓存,与其前身 Sierra Glen 一样,后者本身是 PC 中使用的“Crestmont”核心的变体。Soltis 表示,新的 E 核心基于三个解码器(每个解码器可容纳三条指令),每周期可解码九条指令。Sierra Glen 核心每周期可解码六条指令,因此速度提升了 1.5 倍。与往常一样,分支预测器也得到了改进,并且由于分支历史记录更深入且能够处理更大的数据结构,其准确性也更高。


资讯配图


前端后面的乱序执行引擎现在指令宽度为 8 条(Sierra Glen 是 5 条,提升了 1.6 倍),乱序执行引擎可以退出 16 条指令(Sierra Glen 是 8 条,提升了 2 倍)。乱序执行窗口现在为 416 条指令,比 Sierra Glen 提升了 1.6 倍,Darkmont 中的乱序执行引擎拥有 26 个执行端口,提升了 1.5 倍。


资讯配图


Darkmont 核心的整数、向量和存储地址生成单元数量是之前的两倍,负载存储生成单元数量是之前的 1.5 倍。(奇怪的是,IPC 并没有高很多。)


核心中的内存子系统每周期可执行三次加载(提升 1.5 倍)和两次存储(提升 1 倍或相同)。二级缓存的缓冲容量为 128 个未完成操作(相比 Sierra Glen 提升 2 倍)。


资讯配图


加起来,您将拥有 72 个核心模块,每个模块有 4 个核心和 8 MB 的 L3 缓存,单个 Clearwater Forest Xeon 7 E 核 CPU 总共拥有 288 个核心和 576 MB 的 L3 缓存。


当然,这里真正重要的是性能,Soltis 向我们暗示了 Clearwater Forest 平台的最终走向:


资讯配图


与288核的Sierra Forest服务器平台相比,拥有576个核心的双插槽Clearwater Forest平台将更加强劲。Soltis表示,在一次读取基准测试中(他没有透露具体是哪一次),Xeon 7 E核平台的内存带宽达到了1300 GB/秒。这得益于Clearwater Forest插槽拥有12个DDR5内存通道,并且它们以8 GHz的速度运行常规DDR5内存(而非英特尔的MRDIMM)。


Clearwater Forest 平台拥有 96 条 PCI-Express 5.0 I/O 通道,由两颗处理器组成,总测量带宽为 1,000 GB/秒;其中 64 条通道可分配给 CXL 设备,包括扩展内存。两颗 Clearwater Forest CPU 之间还有 144 条 UltraPath Interconnect NUMA 链路,带宽为 576 GB/秒,可在两个插槽之间创建共享内存集群。


上图显示,该服务器拥有 576 个核心和 1,152 MB 的 L3 缓存,我们确实看到了。但图表还显示,双路 Clearwater Forest 节点的额定计算能力为 59 万亿次浮点运算。如果这是 FP64 精度,那么在了解主频之前我们无法确定。即使知道了主频,这些核心也没有 512 位 AVX-512 矢量单元,而是一对更简单的 128 位 AVX2 单元。如果 Clearwater Forest 的主频为 2.56 GHz,那么根据我们的计算,一台拥有 576 个核心并配备 AVX2 单元的服务器可以达到 5.9 万亿次浮点运算。但不会是这个数字的 10 倍。


我们也不确定上图中“5,000 GB/秒”的带宽具体指的是什么。该计算引擎中 288 个 Xeon 7 E 核心的 L2 缓存总带宽为 57,600 GB/秒,而从 L2 缓存段到网格结构的带宽为 2,520 GB/秒。8 GHz 双路处理器的峰值理论内存带宽仅为 1,536 GB/秒。想想看。


参考链接

https://www.nextplatform.com/2025/08/26/intels-clearwater-forest-xeon-7-e-core-cpu-will-be-a-beast/


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


END


今天是《半导体行业观察》为您分享的第4138期内容,欢迎关注。


推荐阅读


一颗改变了世界的芯片

美国商务部长:华为的芯片没那么先进

“ASML新光刻机,太贵了!”

悄然崛起的英伟达新对手

芯片暴跌,全怪特朗普

替代EUV光刻,新方案公布!

半导体设备巨头,工资暴涨40%

外媒:美国将提议禁止中国制造的汽车软件和硬件

资讯配图


加星标⭐️第一时间看推送,小号防走丢



求点赞


资讯配图

求分享


资讯配图

求推荐


资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
芯片 英特尔
more
美国商务部没收《芯片法案》74亿美元研究基金,称“存在腐败”
“三问”寒武纪:股价超越茅台,是AI芯片觉醒还是资本狂欢?
英伟达第二季度财报预告 | 区势·AI
国产AI芯片龙头回应一切!
侵犯华为芯片商业秘密案一审判决生效!
2025~2028年全球人形机器人芯片市场规模预估
iPhone 17 Air将搭载自研5G基带芯片C1
日本将帮助印度发展芯片技术
晶圆代工巨头两座芯片工厂迎新进展,先进封装竞赛白热化?
尊湃侵犯华为海思芯片技术商业秘密案一审判决生效
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号