芯片，新瓶颈 - 科技区角

公众号记得加星标⭐️，第一时间看推送不会错过。

从通用人工智能 (AGI) 到药物和材料发现，人工智能在各个领域的日益普及，正将人们的关注点从仅仅在最新的工艺节点上制造最快的芯片，转移到围绕海量数据的快速流动构建系统。

系统需要在处理器、内存和互连之间保持平衡，并且还需要一定程度的协调，以确保数据在正确的时间到达需要的地方。如果速度极快的处理器（开发速度为 18 埃）因为等待从内存中检索数据或由于某些低优先级作业阻塞数据路径而闲置，那么它们的性能就会被浪费掉。

Baya Systems首席解决方案架构师Saurabh Gayen表示：“你不仅希望所有芯片之间实现极低延迟的通信，而且还希望这种通信是确定性的。当你和AI聊天机器人对话时，你不想一直等着它思考。你希望它能主动开始和你交流，让对话顺利进行。这从根本上改变了你对网络和I/O连接的思考方式。”

多芯粒件和先进封装技术使得围绕 I/O 和互连需要做出的决策数量成倍增加，而复杂且快速变化的市场只会加剧这种情况。

“随着新型封装技术的出现，大量的系统级分析和预算分析变得至关重要，”是德科技EDA高速数字设计部门负责人李熙洙（Hee Soo Lee）表示。“此外，对于工程师而言，能够在物理层构建真正干净的通道，并确保I/O能够以更清晰的方式输出数据也至关重要。这正是需要学习和适应的地方，需要运用新技术、EDA解决方案和工具。学习曲线虽然陡峭，但这正是成功的关键——进入新市场，并在如此严峻的市场环境下赢得市场份额。”

权衡利弊

为了确保人工智能芯片的商业成功，必须正确权衡众多I/O方面的利弊。“你做出的权衡将影响到气流、散热、机架设计、机架输入电源等等，” Cadence公司硅解决方案集团产品管理和营销副总裁Arif Khan说道。

但这并非万能的解决方案。数据移动方式会随着时间推移而变化，也会因工作负载的不同而有所差异。

“虽然有一些工具可以提供帮助，但决策还无法深入到微观层面，”Khan说道。“智能体人工智能和其他人工智能功能正被添加到设计流程中的几乎所有工具中。在某些领域，这些功能比其他地方更成熟。基于复杂物理的人工智能尚未完全成熟。其中一些问题在系统实现方面非常棘手，例如热力学问题。目前，虽然有一些应用，但还不足以显著加快开发速度。”

其他人也认同这一观点。Arteris公司产品管理和市场营销副总裁Andy Nightingale表示：“如今最棘手的I/O设计问题往往出现在物理定律和集成经济性相互碰撞的地方。这包括芯粒（chiplet）或采用2.5D/3D封装的多芯片，以及能够提升功率密度和时钟频率的尖端计算单元。先进的封装技术缩短了互连距离，但也增加了接口、时钟域、电源孤岛的数量，以及信号/电源完整性、热梯度和测试/启动等方面的‘未知未知因素’。”

异构集成只会加剧这些问题。“由于异构接口、信号完整性限制以及快速增长的带宽需求，芯粒芯粒和3D多芯片封装带来了最严峻的I/O挑战，” ChipAgents首席执行官William Wang表示。“随着人工智能大幅增加芯片间的数据传输压力，工程师必须了解信号完整性、电源传输、重试机制、协议堆叠以及热带宽权衡等问题。”

一次解决一个问题是可行的，但所有问题都需要同时解决。“多元件耦合是最棘手的挑战，” Axiomise首席执行官 Ashish Darbari 表示。“任何单一的求解器——无论是热力学、机械还是电气——都已经非常出色。问题在于这种耦合是双向的，并且跨越了相差几个数量级的时间和长度尺度，而涉及的工具之间又无法自然地相互通信。多芯片系统中的信号完整性也存在同样的问题。以每秒 32、48 或 64 吉字节传输速率运行的 UCIe 和 BoW 链路会经过阻抗随温度和机械应变而变化的凸起区域。异构集成使得数据管理变得异常繁琐——计算芯片位于 N2，I/O 位于 N5，SRAM 位于 N3，模拟芯片位于 N16——不同的 PDK、不同的可靠性模型、不同的热系数。如何让它们在同一工作负载下生成一致的图像，正是大多数多芯片项目悄然耗费数月时间的原因。”

I/O 和互连设计人员需要做出一系列选择，每个选择都会影响下一个选择。“芯粒和 3D 技术不仅仅是增加了一种集成选项，它们还成倍增加了您需要管理的边界数量，”Rambus 硅 IP 产品管理高级总监 Lou Ternullo 表示。 “现在，您需要选择协议终止的位置、一致性保障的位置，以及哪些流量保留在封装内，哪些流量必须经过板级通道。您还需要考虑新的物理现实，例如热梯度、电源完整性和更严格的信号预算，这些都会改变框图上‘最佳’的布局。因此，互连不再是单一的选择，而是在封装、电路板和机架层面上的一系列选择。”

在数据中心设计中，决策是分层进行的。“首先，你要知道数据中心、机架的能耗，以及运行所需的电力预算、冷却预算等等，”Khan说道。“然后，系统制造商会收到一份预算。而且，并非所有组件都来自同一家公司。预算会被分配，系统构建者可能会从不同的供应商处采购多种设备。因此，除了成本之外，每个层级的决策方式都会因技术预算、购电协议（PPA）以及成本等因素而略有不同。”

设备间的距离是关键考虑因素。“主要挑战在于布线，” Vinci半导体和电子产品市场推广负责人Satish Radhakrishnan表示，“互连协议涵盖的物理距离差异很大，从封装内部的几毫米到机架内的几米不等。随着连接的设备越来越多，彼此之间的距离也越来越近，布线难度也随之增加。设计人员必须兼顾拥塞、信号完整性、电源供应、散热影响以及封装、电路板或机架的物理限制。”

I/O 可靠性和冗余性

在高性能计算系统中，I/O 子系统和互连都是故障和性能下降的重要来源。

Vinci公司的Radhakrishnan表示：“易出故障的I/O的可靠性与物理实现密切相关。协议可能定义了数据传输方式，但系统仍然需要在实际的电源、温度、机械和制造条件下可靠地支持这种数据传输。”

冗余至关重要。“在高性能计算领域，以前可有可无的功能，例如芯片生命周期管理，现在已成为必备功能，”Synopsys 多芯片策略和 3D IP 产品管理总监 Rob Kruger 表示。“可靠性是关键因素，我们遵循 OCP（开放计算项目）的可靠性标准，同时还添加了冗余链路等功能。”

此外，I/O 接口在组装过程中或现场使用时都可能发生故障。“比如说，如果你正在制作一个 3D 连接，而混合键合出现故障，这在组装过程中可能会造成问题。我们有冗余链路来替换系统中的故障链路，”克鲁格解释道。“连接到芯粒的 UCIe 链路也是如此。你可以使用冗余链路来修复制造过程中或五年后现场使用的故障链路。软件可以监控、测试和修复这些链路。”

遥测技术在这里扮演着重要角色。“例如，你可能需要安装过程传感器、电压传感器、温度传感器和信号完整性传感器。然后，你需要汇总这些数据并将其发送到网络的更高层级，”克鲁格说道。“那么，如何汇总这些数据呢？是用软件吗？软件当然可以，但你的数据中心可能有成千上万个I/O接口，而且它们都运行着软件。这时，你可能会选择硬件优先的方案，软件则作为备用方案。在这种情况下，与更高层级的系统进行协调就成了另一个挑战。”

用于巨型模型的集群

HPC 生态系统正在尝试解决的问题之一是如何使整个计算节点集群像一台计算机一样运行，其中 I/O 是一个核心考虑因素。

Synopsys接口 IP 产品管理总监 Priyank Shukla 表示：“如果你了解计算机的发展历程，就会发现 2012 年之前，处理器内部集成了多个核心。” “以前，服务器机架或单元内会配备多个处理器，从而提高吞吐量。但ChatGPT之后，我们意识到，很多非结构化数据可以用不同的加速器来处理。你需要的不仅仅是处理器，而是针对特定工作负载的加速器，而且这个加速器必须连接起来。大型语言模型（而非CMOS）的扩展规律表明，如果投入大量非结构化数据，就能得到一个训练有素的模型。我们正在尝试创建一个大型集群，使其能够作为一个统一的计算设施运行，这与我们目前的做法截然不同。当整个集群必须像一台计算机一样运行时，就需要为每个计算节点提供内存。信息需要在芯片之间传递，这会对互连、I/O以及其他组件带来不同的挑战。”

数据传输至关重要。“我们通常所说的互连，指的是物理层，或者物理层之上的一层，”舒克拉说道。“这些在协议层面也同样至关重要。其核心思想是，你可以将数据——不仅是简单的数据，而是连贯的内存数据——传递到不同的节点。数据量没有上限。”

统一集群可以显著提升性能。“从 I/O 的角度来看，这意味着你必须尽可能地将计算任务从单个芯片中分离出来，”Shukla 解释道。“限制在于你无法在单个芯片内塞入更多的计算能力，因此两个芯片必须协同工作。关键在于它们之间的通信速度。芯片的可用带宽有限，所以你需要尽可能地利用有限的带宽。”

前沿密度指的是芯片边缘的数据传输密度，即每毫米可以传输多少数据。“如果你有一个加速器，它运行的代码可能是矩阵乘法或TensorFlow，但加速器需要与其他组件通信，因此需要I/O接口，这就是人们所说的芯片级I/O，”Shukla解释道。“但是如何集成这些I/O呢？这其中有很多需要考虑的因素。如果将它们封装在同一个封装内，并且I/O芯片位于顶部，那么它就有机会接触到芯片的面板。通过液冷，你可以冷却这个芯片。但是被埋在它下面的基体芯片没有散热路径，这就带来了不同的挑战。”

尤其是在人工智能领域，这些创新至关重要，因为设计者们意识到计算能力并非增长的唯一限制。“数据移动和内存访问才是芯片内部以及芯片间真正的难题，”Baya公司的Gayen说道，“我们如何确保这些占用数GB甚至数GB的庞大人工智能模型能够高效运行？正因如此，我们才更加重视机架级设计，例如英伟达的NVL72百亿亿次级系统。”

盖恩指出，NVL72 是一个里程碑，它证明了连接性至关重要。“如何在 GPU 之间传输数据？关键在于，你不需要单个 GPU，而是需要大量的 GPU 协同工作，就像一个巨大的 GPU 一样。NVLink 及其相关的 NV 交换机让英伟达能够构建一个全面的系统，而不仅仅专注于计算。”

根据 Axiomise 公司的 Darbari 的说法，从芯片架构师的角度来看，集群会引发四个实际问题：

性能和可扩展性。集群的有效性能取决于本地计算吞吐量以及跨节点移动数据和同步工作的成本。只有当互连和软件栈能够保证计算引擎持续高效运行时，高性能集群才能实现良好的可扩展性。

延迟和尾部行为。一旦系统实现分布式，结果响应时间不仅取决于核心和内存延迟，还取决于网络跳数、拥塞、同步开销和排队效应。微小的延迟在大规模应用中也会迅速累积。

功率和能源。功率不再是芯片级别的数值，而是集群级别的属性。节点设计、加速器组合、电源管理和散热限制等方面的选择，都会直接影响机架密度、散热以及集群的实际经济效益。

网络是架构的一部分。在集群中，网络不仅仅是基础设施，它更是至关重要的架构元素。带宽、延迟、拓扑结构、拥塞行为和容错能力都会影响工作负载的扩展性和整体效率，Darbari解释道。

拥塞挑战和规范

AI 时代的挑战包括视频点播和语音命令产生的互联网、云和数据流量，以及来自 AI 训练数据中心的新型流量，还有来自 AI 推理的突发流量。

Keysight Technologies 人工智能和网络测试解决方案产品经理 Razvan Arhip 在最近的一次网络研讨会上表示：“GPU 集群将处理数据，然后在特定时间，它们将结果交换到称为集体通信库 (CCL) 的流量模式，这会产生大量流量，需要大量端口以高速传输数据。 ”

采用这种流量管理方法，设计人员需要避免因网络流量瓶颈导致的GPU闲置。“GPU和集群都很昂贵，所以你肯定不想因为网络问题而让它们闲置，”Arhip说道。“你必须将延迟降到极低，丢包率接近于零，才能避免耗时的重传。你不能再依赖数据中心的上层协议（例如TCP（传输控制协议））来修复丢包。你需要最大限度地减少导致丢包的拥塞，因此需要在尽可能低的层级处理丢包，这就是为什么会采用新的拥塞控制机制，例如数据中心量化拥塞通知（DCQCN）。这也是超以太网联盟发布链路层重试（LLR）的原因，LLR在第二层执行重传。这些以及基于信用的流量控制（CBFC）都是由该领域的大型公司推动的。”

最后，为了缓解大规模 AI 训练集群中的网络互连故障和相关的 I/O 拥塞，OCP 最近发布了开源的多路径可靠连接 (MRC) 协议。

根据相关技术论文[2]，“一种基于远程直接内存访问（RDMA）的新型传输协议MRC，能够跨越多条路径并主动进行负载均衡，从而消除流冲突问题。”此外，它还能降低延迟，单跳可达节点数量更多，降低成本和功耗，大大减少网络故障的影响，并且即使NIC-T0链路丢失，训练任务也不会中断。

结论

各行各业对提供精准、快速的人工智能能力的需求竞争异常激烈。高性能计算系统或集群的每个组成部分都面临着必须以最佳状态运行且不出现故障的压力。

Cadence公司的Khan表示：“这些芯片并非为学术目的而制造。我们希望它们拥有最佳性能，展示出色的系统，畅销并赚取丰厚利润，因此需要权衡多方面因素。”

这意味着芯片架构师必须权衡I/O和封装方面的各种选择。“即使是最简单的SoC解耦方案，也会带来成本，”Khan指出。“这会增加延迟，增加接口处的电源连接。那么，这种方案是否符合预算？或者采用单芯片方案是否更合适？”

归根结底，选择很多。关键在于构建一个平衡的系统，优化最终用户最关心的方面。“归根结底，设计团队试图解决的是一个多维问题，每种类型的I/O和先进封装都有其自身的挑战和优势。” Synopsys公司的Shukla说道。

（来源：编译自semiengineering）

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

END

今天是《半导体行业观察》为您分享的第4449内容，欢迎关注。

推荐阅读