豪言自家芯片比英伟达GPU强10倍,这家AI公司再获融资

电子发烧友网 2026-03-01 00:00
电子发烧友网报道(文 / 吴子鹏)在 AI 算力需求呈指数级增长的今天,英伟达凭借其 GPU 和 CUDA 生态构筑的 “护城河” 似乎坚不可摧。然而,一股由前谷歌 TPU 核心工程师组成的 “复仇者联盟” 正在硅谷悄然集结,他们创立的 MatX 公司刚刚完成 5 亿美元 B 轮融资,豪言要打造性能 10 倍于英伟达 GPU 的专用 AI 芯片,试图在通用芯片与专用芯片的夹缝中开辟新赛道。
 
MatX 创始人兼 CEO Reiner Pope 在 LinkedIn 上宣布了这一消息,领投方为 Jane Street 和由前 OpenAI 研究员 Leopold Aschenbrenner 成立的投资基金 Situational Awareness。虽然 Reiner Pope 并未透露公司估值,不过有投资人士推断其估值已达 50 亿美元。这家成立仅三年的初创企业,能否真正撼动英伟达的统治地位?
 

从谷歌 TPU 出走的 “技术起义者”

2022 年,两位前谷歌 TPU 核心工程师 Reiner Pope 与 Mike Gunter 正式离职,两人的目标是从零打造一款专为 LLM 设计的芯片,打破算力与延迟的权衡困境,让芯片既能满足大模型训练的高吞吐需求,又能实现推理场景的低延迟响应。随后,二人创立了 MatX。
 
公开信息显示,作为 MatX 的 CEO,Reiner Pope 此前负责谷歌 TPU 的 AI 软件开发工作,深度理解 AI 模型与硬件的协同优化;作为 MatX 的 CTO,Mike Gunter 则是谷歌 TPU 核心研发人员之一,拥有丰富的芯片架构设计经验。这种 “软硬结合” 的创始团队背景,为 MatX 后续的技术路线奠定了坚实基础。
 
Reiner Pope 与 Mike Gunter 在谷歌期间,见证了 TPU 如何以专用架构在特定场景下实现远超通用 GPU 的能效比。但在当时,TPU 始终只是谷歌的 “内供武器”,仅用于自家数据中心,并不对外销售。手握世界级 AI 芯片设计能力的两人,看着全球 AI 开发者被英伟达的 CUDA 生态牢牢绑定,被高昂的算力成本压得喘不过气,最终决定出走创业。
 
值得注意的是,MatX 本轮 B 轮融资的投资方构成极具战略意义。Jane Street 是全球顶级量化交易公司,对算力需求的理解深入骨髓;而 Situational Awareness 由前 OpenAI 研究员 Leopold Aschenbrenner 创立,管理资产超 15 亿美元,专注于 AGI(通用人工智能)方向投资,认为 AGI 将在 “几年内” 实现。其他投资者包括芯片制造商 Marvell Technology、NFDG、Spark Capital,以及 Stripe 联合创始人 Patrick Collison 和 John Collison 兄弟。
 
此外,前特斯拉 AI 总监、OpenAI 联合创始人 Andrej Karpathy 也参与了本轮投资。他在社交平台上表示:“随着对 token 需求的激增,为大语言模型底层内存和计算资源的合理配置提供了绝佳机会。”
 

重构算力与存储,直击 LLM 核心痛点

MatX 之所以敢于挑战行业巨头,核心在于其走出了一条不同于主流的技术路线 —— 不追求 “通用全能”,而是以 LLM 的核心需求为导向,通过架构创新和存储优化,实现 “高吞吐 + 低延迟” 的双重突破。其首款产品 MatX One 的技术设计,堪称对传统 AI 芯片的一次重构。
 
根据 MatX 官网介绍,MatX One 可提供比目前已发布产品更高的吞吐量,同时延迟水平也能对标行业最优。对于训练和预填充,它在 FLOPS 方面表现突出;对于解码和强化学习(RL),它在延迟、FLOPS 和长上下文支持方面优势明显。同时,MatX One 能够支持数十万个芯片的集群扩展。
 
MatX One 之所以能够实现上述性能,在于其独特的技术路线,实现了 SRAM 与 HBM 的 “鱼与熊掌兼得”。当前 AI 芯片市场主要分为两大路线:以英伟达、谷歌为代表的 “重押 HBM 高带宽内存” 路线,优先解决大规模训练的吞吐问题;以 Cerebras 为代表的 “片上 SRAM 优先” 路线,主打推理场景的低延迟。而 MatX 的创新之处在于,将两种路线的优势融合,打造了 “专一化架构 + 混合存储” 的独特方案,无需在 “速度与容量” 之间做取舍。
 
首先,MatX 采用了更激进的架构设计,基于可分割的脉动阵列(splittable systolic array),这种设计兼具大型脉动阵列突出的能效和面积效率,同时在处理形状灵活的小型矩阵时也能保持高利用率。传统脉动阵列在处理短序列或混合专家模型(MoE)的稀疏计算时,部分计算单元会闲置,而 MatX 的可分割设计能让芯片每一寸硅片都参与有效计算,最大化每平方毫米的算力输出,这也是其算力密度领先的关键。
 
其次,MatX 在存储配置上实现了 SRAM 与 HBM 的智能融合。针对 LLM 运行中的内存瓶颈,MatX 采用了 “分工明确” 的混合存储策略:高速低延迟的 SRAM 用于存储模型权重等核心参数,确保计算单元能快速获取数据,实现低延迟响应;高带宽、大容量的 HBM 则专门存储模型的键值缓存(KV Cache)—— 这是 LLM 推理中随对话长度线性增长的核心数据,直接决定了长上下文处理能力。这种设计既解决了纯 SRAM 容量不足的问题,又弥补了纯 HBM 延迟较高的短板,让芯片同时具备 GPU 级别的高吞吐量和 SRAM 架构的低延迟。据悉,对于高达 100 层的超大 MoE(混合专家)模型,MatX One 能实现惊人的每秒生成超过 2000 个输出 token。
 
Reiner Pope 对此解释道:“我们的立场是,实际上可以在同一个产品中同时实现这两点,而且这样会得到一个更好的产品。” 他进一步补充:“与其他 HBM 方案不同,我们拥有足够的 SRAM 和互连带宽,足以支持将权重存储在 SRAM 中。HBM 中的键值对不会增加延迟,因为密集读取可以预取,而稀疏读取的数据量很小。”
 
此外,MatX 还推出了专属数值计算方案。其针对 Transformer 架构的特性优化了数值计算逻辑,无需依赖通用芯片的兼容设计,进一步提升了 LLM 处理效率,尤其在长上下文、Agent 循环等复杂工作流中,优势更为明显。
 
MatX 公开宣称,其芯片目标是在大语言模型训练和推理性能上,达到英伟达 GPU 的 10 倍。该公司内部测试显示,按每平方毫米计算性能指标衡量,其规划中的芯片性能可以超越英伟达即将推出的 Rubin Ultra。不过需要注意的是,目前 MatX One 仍处于研发阶段,尚未实现量产,其性能宣称仍需后续实际出货后验证。但从技术逻辑来看,其专一化设计确实针对性解决了 LLM 运行中的核心痛点,具备较强的理论竞争力。
 

与巨头的多维对比:MatX 的差异化优势

当前 AI 芯片市场,英伟达占据约 90% 的份额,谷歌、AMD 等巨头凭借各自优势分食剩余市场。MatX 作为后起之秀,其核心竞争力需放在行业格局中对比,才能更清晰地看清优势与短板。
 
在技术路线上,当前霸主英伟达主打 “通用全能”,兼顾 AI 训练、推理、图形渲染、科学计算等多种场景,核心依赖 HBM3e 高带宽内存和 CUDA 软件生态,属于 “全面覆盖” 路线。AMD 同样是通用 GPU 路线,通过 Infinity Fabric 互联技术整合多个芯粒,主打 “性价比”。谷歌和 MatX 则均走专用路线,但谷歌目前基本仍是自研自用,生态相对封闭。
 
但 AI 芯片的竞争力,不仅在于硬件性能,更在于软件生态和落地能力,这也是 MatX 与行业巨头差距最明显的领域。目前,英伟达拥有成熟的 CUDA 平台,与 PyTorch、TensorFlow 等主流框架深度集成,形成了 “硬件 + 软件 + 生态” 的完整护城河,开发者群体庞大,客户迁移成本极高。AMD 依托 ROCm 软件生态试图对标 CUDA,但生态成熟度和开发者群体远不及英伟达,主要客户集中在对成本敏感、无需深度依赖 CUDA 生态的企业。谷歌的封闭生态前文已提及。
 
作为挑战者,MatX 目前尚未搭建成熟的软件生态,仍处于软件栈研发阶段,需要从零开始构建编译器、调度工具等,说服习惯了 CUDA 的开发者和企业迁移,难度极大。此外,MatX One 计划 2027 年出货,尚未经过量产验证,产能爬坡、性能兑现等均存在不确定性,落地进度远落后于三大巨头。
 
从行业影响来看,无论 MatX 最终能否撼动英伟达的垄断地位,其技术创新都为 AI 芯片行业提供了新的思路 —— 专一化设计或许是后发企业突破巨头壁垒的有效路径。未来,随着 MatX 等专用芯片企业的崛起,AI 芯片市场将形成 “通用芯片覆盖大众场景、专用芯片聚焦细分需求” 的格局,最终推动整个 AI 算力生态向更高效、更具性价比的方向发展。
 

结语

MatX 的出现,是 AI 芯片行业细分趋势的必然产物,其背后是谷歌 TPU 基因的技术沉淀、资本的坚定加持,以及对 LLM 算力痛点的精准把握。与英伟达、谷歌、AMD 等巨头相比,MatX 虽在生态、落地进度上存在明显差距,但凭借独特的技术路线和专项性能优势,有望在 LLM 专用芯片赛道开辟新的增长空间。
 
2027 年将是 MatX 的关键一年,其首款产品 MatX One 的量产情况、性能兑现程度,以及软件生态的搭建进度,将直接决定其未来的市场地位。对于 AI 芯片行业而言,MatX 的探索不仅为后发企业提供了借鉴,也将推动算力技术的持续革新 —— 在这场算力角逐中,没有永远的霸主,只有不断适应需求、持续创新的强者。而 MatX 能否成为打破格局的 “黑马”,值得整个行业持续关注。
 

豪言自家芯片比英伟达GPU强10倍,这家AI公司再获融资图1

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI GPU 芯片 英伟达
more
狭路相逢“能效”胜!AI GPU供电的SPS国产破局
AI基础设施成本重心正从GPU转向内存管理
剑指英伟达!2026国产GPU开启集体冲锋
CineBench 2026正式发布 多线程负载提升六倍 全面支持新一代硬件平台
RISC-V+GPU,SiFive重磅宣布
港股“国产GPU第一股”来了,市值1000亿
单卡突破1000TFLOPS!摩尔线程旗舰GPU参数首曝光:对标H100,训练性能大涨30%
壁仞科技IPO:不止“港股GPU第一股”
高通GPU负责人跳槽英特尔!
腾讯重仓的GPU公司要上市了!燧原科技IPO获受理,拟募资60亿,All in研发
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号