
这款芯片是采用台积电3nm工艺制造,单封装功耗300瓦。

AI芯片初创企业Tensordyne已完成其数据中心推理芯片流片。该公司表示,相较于主流GPU竞品,这款芯片的能效将提升一个数量级。企业称,在相同负载下,基于自家芯片搭建的系统,每瓦每秒Token处理量是搭载Nvidia GB300系统的17倍;单机架每秒Token吞吐量可达后者13倍。
Tensordyne联合创始人、AI副总裁Gilles Backhus表示,数据中心AI推理市场面临两大核心难题:推理速度与部署成本。“所有人都想要高速AI,同时也需要低成本AI。”Backhus提到,市场对Cerebras、Groq产品的追捧足以说明,行业愿意为更快的Token处理能力支付溢价,“这是一项极具挑战性的难题,更何况大模型的参数量还在持续膨胀。”
他表示,目前开源模型参数量已达万亿级别,闭源模型更是逼近10万亿参数。“当下,高吞吐、低成本的Token处理能力比以往任何时候都更为关键。”他说道,“否则大量商业模式与应用场景都无法落地。我们相信,我们推出的这套技术体系,是业内首个可同时解决速度、成本两大痛点的方案。”

系统性能参数
Tensordyne这款芯片是适配其对数运算架构的专用硬件加速器,采用台积电3nm工艺制造,单封装功耗300瓦;芯片稠密FP8算力达2.1千万亿次浮点运算(PFLOPS),配套144GB HBM3e内存。
该服务器以对数发明者John Napier命名,这套72片芯片组成的Napier服务器采用风冷设计,整机功耗30千瓦,仅占用四分之一机架空间。整机搭载10TB高带宽内存,足以完整存放FP4精度下的10万亿参数大模型。Backhus称,该产品对标满机架搭载Nvidia Blackwell架构的系统;选择单域72颗芯片的设计,是为了降低客户从NVL72架构基础设施迁移的门槛。
由4台Napier服务器(合计288颗芯片)组成的风冷整机柜,稠密FP8总算力608PFLOPS,片上静态内存74GB,总HBM内存42TB,整机功耗120千瓦。
Tensordyne的核心优势源自底层数学架构:企业自研一套名为Pareto的数值体系,基于对数数值系统(LNS)开发。对数数值系统并非新技术,但此前始终没有对应的专用硬件加速方案。Tensordyne的核心知识产权,是其面向对数域加法运算的自研近似算法,以及配套硬件实现方案。
“我们已经在市面上几乎所有主流大模型上完成验证。”Backhus表示,“这套方案不需要客户重新训练模型、或是额外做校准适配。我们清楚,让客户额外做这些操作会带来极高的使用门槛,因此我们完全规避了这一要求。”
Tensordyne配套软件栈会自动完成全部数值格式转换,对终端用户完全透明;若客户有底层开发需求,也可开放自研Python底层语言接口。Backhus介绍,超大规模云厂商普遍采用PyTorch搭建高层模型定义,搭配Triton做底层算子开发;企业自研AI智能体可自动完成GPU专用代码的迁移转换。
“只要给智能体提供少量示例、清晰的知识库或文档供其学习,它就能完成任意框架之间的代码迁移适配。”他说,“这套方案在稠密大模型、混合专家模型(MoE),几乎所有类型模型上都表现出色。”
Tensordyne硬件可实时动态执行微缩放与动态量化运算,逻辑上与Nvidia的Transformer Engine有相似之处。
依托这套对数数值体系,芯片计算单元占用的硅片面积大幅缩减,因此片上静态内存(SRAM)容量达到当前主流GPU的5倍,单芯片256MB。这意味着大量运算可在片内完成,无需反复读写HBM内存,直接带来性能提升。节省下来的硅片面积还可用于均衡分配加速计算单元、片上SRAM与嵌入式CPU资源;片上CPU专门负责混合专家模型路由调度、解码循环等任务。Backhus补充,这款加速器采用48核架构,原生针对Transformer模型优化,同时也能高效兼容传统算力负载。

单元式片上网络(NoC)
Tensordyne拥有专利单元式片上网络架构,能够降低长尾延迟,在多芯片并行算力调度场景下优势尤为突出。Tensordyne联合创始人、首席产品官RKAnand表示,这是实现高速解码推理的核心支撑之一。“混合专家模型的数据特征和互联网流量类似,存在大量突发、零散的小包数据。”他解释道,“这套低延迟单元式互联架构拥塞控制能力极强。得益于此,我们无需采用多厂商硬件分离式部署方案,整套算力可统一在单芯片、单系统内完成调度。”
Tensordyne芯片间单跳互联延迟低于1微秒。Anand称,当下市面上各类硬件分离式方案虽能一定程度提升Token吞吐,但缺少专用互联网络设计,存在明显短板;同时跨异构开发环境拆分算力负载,还会带来运维层面的各类难题。
“从可靠性角度来看,系统内设备数量、机架数量与整体有效可靠性呈负相关。”他表示。
Anand介绍,Tensordyne整套系统对全球超大模型的预填充、解码两大阶段推理都具备极强适配能力。以2万亿参数混合专家模型为例,常规部署方案可将机架内4台72芯片服务器中的1台用于预填充,剩余3台承担解码任务,单用户每秒Token输出可达1300枚。企业测算数据显示,该场景下Tensordyne每百万Token成本约11美元,相比下一代多架构硬件分离方案低一个数量级。
Tensordyne与HPE、Juniper合作开发整机横向扩展互联与机箱硬件。服务器内部芯片通过搭载网络交换芯片的垂直印刷电路板互联,摒弃线缆设计,大幅提升系统可靠性,Backhus补充道。
每个计算托盘配备2条200Gbps以太网链路,对接上层数据中心网络;单托盘搭载NVMe固态硬盘,可存储8TB高频上下文数据或KV缓存。
Backhus表示,Napier服务器还可在同一横向扩展域内并行运行多套模型,支撑AI智能体类算力负载(同一扩展域内芯片可通过RDMA实现高速互通)。
“如今在一套智能体算力栈内,多模型协同通信成为可能。”他说,“这能大幅降低长尾延迟、提升智能体运行速度,多用户、多任务、多模型可同时部署在单台Napier服务器上并发运行。”
该系列系统预计2027年第二季度启动交付;配套开发云将于2026年底上线,供客户远程完成性能测试调优。
值得注意的是,基于InferenceX公开基准数据,Tensordyne仿真测算显示:其机架级系统每兆瓦算力可输出300万Token/秒,而搭载NVL72-GB300的机架仅18.3万Token/秒;单台Tensordyne整机柜吞吐量36.3万Token/秒,NVL72-GB300机架为2.74万Token/秒。该测试基于DeepSeek-R1-670B模型,统一采用FP4精度、高交互场景(单用户210Token/秒)条件测算。




