

智东西10月10日报道,重整旗鼓的英特尔,刚刚放出酝酿已久的重头戏——AI PC处理器Panther Lake、服务器处理器Clearwater Forest,以及最新的全面AI战略和AI执行路线图。在英特尔技术巡礼活动上,英特尔首席技术及人工智能官、高级副总裁Sachin Katti在开幕演讲中公布英特尔年度可预测GPU节奏,透露正在全力研发一款针对AI推理优化的GPU。这款GPU拥有增强型内存架构、超大容量的存储空间,适用于企业级推理等场景。(1)交付Agentic AI基础设施:提供差异化的系统级方案,包括至强服务器CPU、Gaudi AI芯片、Arc GPU、AI PC;构建开放的AI软件栈,提供零摩擦AI部署的交钥匙服务。(2)扩展Agentic AI解决方案:研发推理增强型GPU,打造开放的开发者生态系统,以扩容整个AI市场。(3)扩展技术和基础设施:研发下一代推理优化GPU和Shore产品线,为Agentic AI和训练工作负载量身定制;突破带宽瓶颈。下一代英特尔Gaudi旗舰AI芯片(代号Jaguar Shores)专为AI训练设计、面向机架级部署,同样采用Intel 18A节点,并采用SK海力士的HBM4内存。据此前曝光信息,Jaguar Shores封装尺寸为92.5mm x 92.5mm,有4个不同的tile和8个HBM site,配置相当有竞争力。这也令人格外期待英特尔能否赶上跟明年的英伟达Rubin GPU、AMD MI400 GPU正面掰手腕。Sachin Katti说,英特尔正在全力以赴,全面深化对AI领域的布局,并将其贯穿于全线产品组合,此前宣布与英伟达的合作关系正是英特尔全新AI战略的重要信号。技术巡礼旗舰,英特尔高级副总裁兼代工服务总经理Kevin O'Buckley披露了支持AI需求的最新封装路线图:- 到2026年,>20 EMIB、>8x Retile size、封装尺寸约120 x 120、>12 HBM;
- 到2028年,>38 EMIB、>12x Retile size、封装尺寸120 x 180、>24 HBM。
自陈立武接任CEO以来,英特尔始终处在全球科技圈舆论的中心地带。这个凝聚了硅谷精神的老牌芯片巨头,手握CPU和先进芯片制造两张王牌,却在生成式AI的时代巨浪中被掩住光芒。如今在华人企业领袖的掌舵中,英特尔正从内部重塑工程创新文化,并开始向外部释放信号:随着Intel 18A芯片量产,英特尔成为全球首家在美国生产最先进芯片的企业,在美国科技业占据重要的战略地位。英特尔采用Intel 18A的新一代芯片产品,不仅承载着证明英特尔在客户端、服务器、AI计算领域技术和产品领导力的重任,还将是能否给潜在代工客户们注入信心的关键敲门砖。本文将详解英特尔的全新AI战略,横向对比英特尔在先进制程赛道的最新站位,并通过拆解Panther Lake的技术细节来呈现英特尔对端侧Agentic AI的策略。
英特尔已将AI视作战略优先,想重新定义从AI PC到边缘再到数据中心部署的堆栈的每一层,并以开放的异构策略来交付系统、软件和GPU。据其判断,推理和智能体(Agent/Agentic AI)是当今AI领域增长最为迅猛的细分市场,token将持续呈爆发式增长,未来Agentic AI需要异构基础设施来提供每美元的能效和性能。对此,英特尔认为需要打造一个统一软件栈,屏蔽掉异构基础设施的复杂性,提供零摩擦的部署方式,让应用能轻松上线,并自动识别最佳部署方案,与底层架构无缝协同。这个系统的组件不一定来自英特尔,而是可以兼容多种供应商,形成灵活多样的生态系统。英特尔想构建一个开放的AI软件栈,专门用于跨硬件编排多agent,提供一站式软件来简化AI部署和规模化。其核心目标是,绝不改变开发者的原有习惯,让开发者可以从自己熟悉的工具入手,不需要调整既定工作方式。无论底层硬件如何更新迭代,所依赖的软件抽象层始终保持不变,无需任何改动即可顺畅运行。据英特尔测算,在运行Llama 8B FP16/Llama 70B FP16时,Gaudi3搭配B200异构系统的每TCO性能,是B200同构系统的1.7倍。英特尔认为自身的端到端优势覆盖制造、芯片、系统、软件,并已布局晶体管、光子学、先进封装、逻辑扩展及堆叠等前沿技术,同时积极推动内存技术创新。
目前英特尔已提供广泛的AI解决方案,包括至强、数据中心AI芯片、酷睿、Arc GPU、IPU等产品线。这些产品的AI应用场景,已经覆盖从云端数据中心、AI PC、边缘计算,还有方兴未艾的机器人平台。最新披露的新一代服务器CPU Clearwater Forest,技术细节可参见《》报道。全新AI PC芯片英特尔酷睿Ultra系列3处理器(代号Panther Lake),则是承载了英特尔Agentic AI雄心的关键硬件产品。和上一代相比,Panther Lake可以说是全方位的升级:- CPU tile首用Intel 18A制程(上一代是台积电N3P)
- CPU单线程性能提升10%以上,多线程性能提升50%以上
- NPU面积缩小,算力达50TOPS(上一代是48TOPS)
- 融合了Lunar Lake的高能效和Arrow Lake的高性能
Panther Lake和Clearwater Forest均已披露技术细节,正式发布和上市则要等到明年。Panther Lake瞄准的不止是PC客户,还有方兴未艾的边缘计算和物理AI市场。除了AI性能比Arrow Lake-H提升80%外,Panther Lake还具备时序协同计算能力,并提供专为严苛工业环境设计的扩展温度版本。在Demo环节,英特尔展示了为机器人等边缘计算平台设计的Panther Lake模块,PCB板上有4个嵌入DRAM的内存插槽。还有由英特尔酷睿Ultra处理器驱动的宇树机器人Demo。英特尔全新机器人AI套件是一个开发工具包,与英特尔酷睿处理器完全集成,提供主流机器人模型、多样的参考应用、流媒体分析管线、先进AI算法、视觉语言模型优化,以加速机器人开发和部署。借助这套硬件与软件组合,开发者能更快构建机器人创新应用。英特尔将在2026年1月CES 2026展会上正式发布Panther Lake,届时将披露完整规格、性能指标及其他产品信息。
即将发布的新一代AI PC芯片、服务器CPU、云端AI芯片的一大关键升级,都是英特尔挺进2nm时代的首个制程节点——在英特尔技术巡礼活动期间,智东西等媒体参观了正在生产Intel 18A芯片的英特尔亚利桑那州Fab 52工厂。▲英特尔CEO陈立武在亚利桑那州工厂外捧起Panther Lake CPU tile的晶圆
作为第一个在美国开发和制造的2nm级节点,这一制程节点不仅是英特尔代工的力作,还赌上了美国芯片制造的自尊心。三星、台积电的2nm制程也是采用GAA晶体管技术、今年量产、明年上市。相比上一代Intel 3,Intel 18A的每瓦性能预计提升15%,芯片密度预计提升30%。这主要得益于Intel 18A的两大杀手锏:RibbonFET晶体管和PowerVia背面供电。RibbonFET是英特尔十多年来的第一个新型晶体管架构,属于全环绕栅极(GAA)架构,攻克了漏电难题,能在实现晶体管进一步微缩的同时减少漏电问题发生,从而提高晶体管密度、能效、最小电压(Vmin)操作和静电性能,还实现了更高的灵活性,可根据特定单元需求定制性能特征。PowerVia背面供电解决了传统设计中混合信号线和电源线会争夺空间资源、造成拥塞的问题,将电源线移到晶体管背面,与信号布线分离,这样可以实现更稳定的电源供应,有效减少IR压降,提高高频信号的抗噪能力和稳定性,这项创新技术可将单元利用率和密度提升10%,将从封装到晶体管产生的IR drop功率损耗降低30%。正面设计的简化,抵消了背面供电设计带来的额外成本。这意味着英特尔成为业界首家在大规模量产节点上结合全栅极环绕与背面供电的公司。根据此前报道,台积电计划于2026年在其N16节点引入背面供电技术,三星可能要在2027年首用背面供电技术。英特尔称Intel 18A的良率已经达到15年来最优水平。先进封装方面,Clearwater Forest采用Foveros Direct 3D封装和EMIB 2.5D封装技术,Panther Lake采用了Foveros-S封装技术。Panther Lake由不同制程工艺生产的多种模块组成:
在端侧芯片设计中,英特尔的AI加速策略是“异构”。据英特尔分享,Panther Lake是专为Agentic AI设计的客户端SoC,总共AI算力有180TOPS。这沿袭了英特尔的XPU思路,让CPU、GPU、NPU协同来提供AI加速支持:- GPU,120TOPS,带宽高,适合跑游戏、创作类AI任务
其中,AI加速专用单元NPU的职责非常明确,就是专攻高能效,所以要缩小芯片面积,追求更紧凑的设计来优化功耗。所以单从AI算力来看,NPU 5相比Lunar Lake里的NPU 4,在提升幅度上比较克制,但是跟前三代NPU以及Arrow Lake-H里的NPU 3.5对比,提升还是很可观的。具体来看英特尔NPU 5架构。英特尔认为上一代NPU4的设计不够高效,因此在NPU 5进一步缩小面积,并简化了后端功能,通过MAC阵列规模翻倍,把单位面积性能提升40%。这跟高通新款AI PC处理器的策略不太一样。高通的设计重点也是Agentic AI,但做法是做大NPU面积,把单NPU算力做到80TOPS,来降低首个token生成的时延和更好支持多任务并发处理,并率先实现对INT2精度的支持。数据格式方面,NPU 5升级为支持FP8精度。相比FP16,达到相似的性能表现,FP8可将每瓦性能提升50%以上。比如跑Stable Diffusion文生图模型,用NPU 5+FP8精度可以将能耗从108J降到70J左右,GPU一直到最后阶段才被用到,用于图像合成。数据转换器可将不同数据格式高效转换。目前英特尔已将自定义的内部数据库或内部结构统一转换为标准的FP32格式,作为常规的计算数据,实际上是以FP32、FP16等形式存储中间结果,这使得其他IP模块能够读取中间计算结果。另一项创新是可编程激活函数。英特尔NPU过去只支持一种较为线性的激活函数,现在可全面兼容多种可编程激活方式,轻松实现Sigmoid、Tanh等常见激活函数。以前当需要支持Sigmoid这类热门激活函数时,相关运算还得在DSP上模拟实现。现在这些都可以直接交由神经计算引擎完成,且采用了一张包含256 step的查找表来精确还原Sigmoid曲线的形状,可以想象成把原本平滑的Sigmoid曲线巧妙分割成多个小块,从而确保极高计算精度。一旦用可编程查找表来实现激活函数,处理工作便从着色器和DSP转移到了神经计算引擎上,此时性能会大幅提升。在微基准测试中,面积经优化设计的NPU 5,在多种不同数据格式下性能均相比NPU4有所提升。除了硬件外,英特尔还把加速AI的功夫下在软件优化上,构建了从底层到高层的完整生态体系。Agentic AI部署流程是构建模型-量化-性能评估-运行。英特尔提供有量化工具NNCF、评估工具Vtune性能分析器、OpenVINO软件栈,也支持ONNX Runtime及其他工具。这些都能无缝运行在CPU、GPU、NPU上。英特尔已将超300个模型进行预转换和预量化,并开放到Hugging Face上。
从算力占比来看,GPU毫无疑问是英特尔客户端芯片AI引擎的主力。Panther Lake可扩展架构的核心元素是第二代可扩展Fabric,使英特尔可以在下一代CPU中混合搭配各种IP及其分区。其中,计算单元与GPU tile分离,通过高速互连能像统一系统一样高效协同运行与通信。Panther Lake的GPU tile采用全新Xe3架构。其12 Xe3配置也是英特尔迄今打造的性能最强集成GPU。12 Xe3配置有96个XMX引擎、16MB L2缓存(翻倍)、2条几何管线。相比上一代,Panther Lake实现图形性能提升50%,每瓦性能提升40%。Xe3架构里升级了向量引擎、后端处理功能和光线追踪单元,有8个512-bit向量引擎、8个2048-bit XMX引擎,L1缓存容量提高33%。向量引擎实现了利用率提升,线程数量增加25%,并采用可变寄存器分配技术。XMX是专门处理矩阵乘法的高性能AI核心引擎,是复杂模型在本地GPU上高效运行的关键。英特尔展示了Panther Lake在一些微基准测试上的性能提升表现。
Panther Lake中CPU tile提供了10TOPS的AI算力。相比上一代Lunar Lake和Arrow Lake,其同等功耗下单线程性能提升10%、多线程性能提升50%以上。英特尔在Demo区展示了Panther Lake与Arrow Lake和Lunar Lake的低功耗岛对比,在演示期间,Panther Lake的功耗比主打高能效的Lunar Lake还要低。Panther Lake延用混合计算架构,有三种CPU核心:P核(性能核)、E核(能效核)、LP-E核(提高能效)。Panther Lake CPU包含Cougar Cove P核、Darkmont E核和 Darkmont LP-E核。Cougar Cove P核重点关注3个方向:内存消歧、TLB增强功能、分支预测,使复杂工作负载运行得更快更可靠。Cougar Cove P核架构中,新核心的前端设计层次与Lion Cove基本相同。解码单元保留8位宽,MSROM、uOP Cache、分配单元都没变,分别为4位宽、12位宽、8位宽。E核方面,相比Crestmont,Darkmont的IPC提升了17%。Darkmont E核基于上一代Skymont E核构建,拥有26个调度端口,向量吞吐量、L2带宽更高,并且纳码性能有所提升(该性能最初在 Crestmont 架构中引入)。Darkmont也进行了内存消歧、分支预测更新,还提供了更高能效和增强响应能力的动态预取控制,通过精准控制预取策略的层次,灵活实现动态性能。此外英特尔E核是唯一支持Nanocode的架构,可以实现更高的指令覆盖率。Nanocode位于硬件和底层软件之间,用于将高级机器指令分解成更细粒度的硬件控制信号,增强处理器的并行性和效率,节省延迟、带宽和面积。Panther Lake的缓存和内存子系统都进行了升级。L3缓存环引入了8个E核,因此更大的18 MB L3缓存可供P核和E核使用。LP-E核的L2缓存也翻倍至4MB。其SoC tile内还有一个额外的内存侧缓存和控制器。缓存配备了专用电源轨,使缓存频率可以超过3.5GHz。内存侧缓存的8MB片上缓存可减少DRAM访问量和功耗,改善延迟和带宽,提升核心IPC和降低功耗,并为I/O引擎提供缓存。Panther Lake利用线程控制器(Thread Director)来调度混合核心,在执行多线程操作时实现资源高效利用。线程控制器会先从LP-E核开始,如果超出容量,就把工作转移到E核;如果E核容量不足,就把工作转移到P核。跑游戏时,GPU的利用率会拉到100%,这时线程控制器一开始就先调用P核,以最大限度地提高性能,然后再扩展到E核。英特尔称这种设计带来的结果是比Lunar Lake还要低的功耗,换言之有助于实现更长续航。
Panther Lake共有3个不同配置,分别是8核、16核、16核+12 Xe。三款产品用的是一个封装,以便客户做产品设计。Panther Lake有三种配置,设计成统一封装:三种配置的NPU、IPU、媒体和显示引擎是一样的,LPDDR5x、DDR5带宽以及PCIe通道数不同,12 Xe3配置将内存支持升级到9600MT/s LPDDR5x。图形tile的制造工艺有所不同。4 Xe3配置的图形tile采用英特尔自家Intel 3,12 Xe3配置的图形tile采用台积电N3E。16核CPU+12 Xe3配置额外扩展了8条PCIe 5.0通道,增强了对高性能设备的连接能力。与Lunar Lake和Arrow Lake 相比,Panther Lake实现了更高的灵活性,8核配置可替代Lunar Lake芯片,16核配置可替代Arrow Lake-H芯片。本地AI计算离不开更快、更大内存的支持。Panther Lake支持DDR5/LPDDR5,速度更快,容量更大;LPDDR5最大支持9600MT/s,容量达96GB;DDR5速度提升到7200MT/s,容量达128GB。Panther Lake没有沿用Lunar Lake的内存封装(MoP),而是转用PCB内存设计,不依赖专用的预配置内存类型。升级的图像处理单元IPU 7.5,具备AI光学降噪、AI局部色调映射等功能,可增强暗光环境下的图像清晰度,呈现更清晰自然的视频效果。这些AI功能便由CPU+GPU+NPU组成的AI引擎提供支持。英特尔在Demo区展示了Smart Power HDR,可根据内容动态调整电压,在HDR模式下为SDR内容大幅降低功耗。Panther Lake还添加了两项重要的无线连接升级,分别是Wi-Fi 7 R2和蓝牙LE音频解决方案。
在数据中心领域,它要证明大规模x86 CPU部署能做到更省电。在PC领域,它要证明酷睿处理器在性能、续航、内存、价格等方面的竞争力,以及是跑Agentic AI应用的最佳选择。在芯片制造领域,它更代表了美国先进制造的一面旗帜,要证明英特尔依然站在全球半导体制程技术创新峰顶,还要证明美国本土具备大规模生产前沿芯片制程的能力。以上种种,在Panther Lake和Clearwater Forest问世前,都留了悬念。如今,面向Agentic时代,英特尔正在讲出一个更加宏大、开放、包容的故事。这个故事里有与其新晋大股东英伟达的联手,有与一众美国芯片设计巨头在代工上合作的潜在可能,有与芯片代工竞对台积电的合作。背负着美国芯片制造尊严的英特尔,每一步,都需走得格外谨慎。