LNS架构AI芯片，能效碾压主流GPU

公众号记得加星标⭐️，第一时间推送不会错过。

这款芯片是采用台积电3nm工艺制造，单封装功耗300瓦。

LNS架构AI芯片，能效碾压主流GPU图3

AI芯片初创企业Tensordyne已完成其数据中心推理芯片流片。该公司表示，相较于主流GPU竞品，这款芯片的能效将提升一个数量级。企业称，在相同负载下，基于自家芯片搭建的系统，每瓦每秒Token处理量是搭载Nvidia GB300系统的17倍；单机架每秒Token吞吐量可达后者13倍。

Tensordyne联合创始人、AI副总裁Gilles Backhus表示，数据中心AI推理市场面临两大核心难题：推理速度与部署成本。“所有人都想要高速AI，同时也需要低成本AI。”Backhus提到，市场对Cerebras、Groq产品的追捧足以说明，行业愿意为更快的Token处理能力支付溢价，“这是一项极具挑战性的难题，更何况大模型的参数量还在持续膨胀。”

他表示，目前开源模型参数量已达万亿级别，闭源模型更是逼近10万亿参数。“当下，高吞吐、低成本的Token处理能力比以往任何时候都更为关键。”他说道，“否则大量商业模式与应用场景都无法落地。我们相信，我们推出的这套技术体系，是业内首个可同时解决速度、成本两大痛点的方案。”

Tensordyne这款芯片搭载144GB HBM3e高速内存。

系统性能参数

Tensordyne这款芯片是适配其对数运算架构的专用硬件加速器，采用台积电3nm工艺制造，单封装功耗300瓦；芯片稠密FP8算力达2.1千万亿次浮点运算（PFLOPS），配套144GB HBM3e内存。

该服务器以对数发明者John Napier命名，这套72片芯片组成的Napier服务器采用风冷设计，整机功耗30千瓦，仅占用四分之一机架空间。整机搭载10TB高带宽内存，足以完整存放FP4精度下的10万亿参数大模型。Backhus称，该产品对标满机架搭载Nvidia Blackwell架构的系统；选择单域72颗芯片的设计，是为了降低客户从NVL72架构基础设施迁移的门槛。

由4台Napier服务器（合计288颗芯片）组成的风冷整机柜，稠密FP8总算力608PFLOPS，片上静态内存74GB，总HBM内存42TB，整机功耗120千瓦。

Tensordyne的核心优势源自底层数学架构：企业自研一套名为Pareto的数值体系，基于对数数值系统（LNS）开发。对数数值系统并非新技术，但此前始终没有对应的专用硬件加速方案。Tensordyne的核心知识产权，是其面向对数域加法运算的自研近似算法，以及配套硬件实现方案。

“我们已经在市面上几乎所有主流大模型上完成验证。”Backhus表示，“这套方案不需要客户重新训练模型、或是额外做校准适配。我们清楚，让客户额外做这些操作会带来极高的使用门槛，因此我们完全规避了这一要求。”

Tensordyne配套软件栈会自动完成全部数值格式转换，对终端用户完全透明；若客户有底层开发需求，也可开放自研Python底层语言接口。Backhus介绍，超大规模云厂商普遍采用PyTorch搭建高层模型定义，搭配Triton做底层算子开发；企业自研AI智能体可自动完成GPU专用代码的迁移转换。

“只要给智能体提供少量示例、清晰的知识库或文档供其学习，它就能完成任意框架之间的代码迁移适配。”他说，“这套方案在稠密大模型、混合专家模型（MoE），几乎所有类型模型上都表现出色。”

Tensordyne硬件可实时动态执行微缩放与动态量化运算，逻辑上与Nvidia的Transformer Engine有相似之处。

依托这套对数数值体系，芯片计算单元占用的硅片面积大幅缩减，因此片上静态内存（SRAM）容量达到当前主流GPU的5倍，单芯片256MB。这意味着大量运算可在片内完成，无需反复读写HBM内存，直接带来性能提升。节省下来的硅片面积还可用于均衡分配加速计算单元、片上SRAM与嵌入式CPU资源；片上CPU专门负责混合专家模型路由调度、解码循环等任务。Backhus补充，这款加速器采用48核架构，原生针对Transformer模型优化，同时也能高效兼容传统算力负载。

Tensordyne四分之一机架规格的Napier服务器内含8个计算托盘，每个托盘搭载9颗芯片。

单元式片上网络（NoC）

Tensordyne拥有专利单元式片上网络架构，能够降低长尾延迟，在多芯片并行算力调度场景下优势尤为突出。Tensordyne联合创始人、首席产品官RKAnand表示，这是实现高速解码推理的核心支撑之一。“混合专家模型的数据特征和互联网流量类似，存在大量突发、零散的小包数据。”他解释道，“这套低延迟单元式互联架构拥塞控制能力极强。得益于此，我们无需采用多厂商硬件分离式部署方案，整套算力可统一在单芯片、单系统内完成调度。”

Tensordyne芯片间单跳互联延迟低于1微秒。Anand称，当下市面上各类硬件分离式方案虽能一定程度提升Token吞吐，但缺少专用互联网络设计，存在明显短板；同时跨异构开发环境拆分算力负载，还会带来运维层面的各类难题。

“从可靠性角度来看，系统内设备数量、机架数量与整体有效可靠性呈负相关。”他表示。

Anand介绍，Tensordyne整套系统对全球超大模型的预填充、解码两大阶段推理都具备极强适配能力。以2万亿参数混合专家模型为例，常规部署方案可将机架内4台72芯片服务器中的1台用于预填充，剩余3台承担解码任务，单用户每秒Token输出可达1300枚。企业测算数据显示，该场景下Tensordyne每百万Token成本约11美元，相比下一代多架构硬件分离方案低一个数量级。

Tensordyne与HPE、Juniper合作开发整机横向扩展互联与机箱硬件。服务器内部芯片通过搭载网络交换芯片的垂直印刷电路板互联，摒弃线缆设计，大幅提升系统可靠性，Backhus补充道。

每个计算托盘配备2条200Gbps以太网链路，对接上层数据中心网络；单托盘搭载NVMe固态硬盘，可存储8TB高频上下文数据或KV缓存。

Backhus表示，Napier服务器还可在同一横向扩展域内并行运行多套模型，支撑AI智能体类算力负载（同一扩展域内芯片可通过RDMA实现高速互通）。

“如今在一套智能体算力栈内，多模型协同通信成为可能。”他说，“这能大幅降低长尾延迟、提升智能体运行速度，多用户、多任务、多模型可同时部署在单台Napier服务器上并发运行。”

该系列系统预计2027年第二季度启动交付；配套开发云将于2026年底上线，供客户远程完成性能测试调优。

值得注意的是，基于InferenceX公开基准数据，Tensordyne仿真测算显示：其机架级系统每兆瓦算力可输出300万Token/秒，而搭载NVL72-GB300的机架仅18.3万Token/秒；单台Tensordyne整机柜吞吐量36.3万Token/秒，NVL72-GB300机架为2.74万Token/秒。该测试基于DeepSeek-R1-670B模型，统一采用FP4精度、高交互场景（单用户210Token/秒）条件测算。

*声明：本文系原作者创作。文章内容系其个人观点，我方转载仅为分享与讨论，不代表我方赞成或认同，如有异议，请联系后台。

LNS架构AI芯片，能效碾压主流GPU图8