百灵大模型Ling-2.6-flash正式亮相，主打高智效比与Agent场景优化

【科技纵览】4月22日，蚂蚁集团百灵大模型团队揭晓了此前在OpenRouter平台上以“Elephant Alpha”代号匿名测试的新品真身——Ling-2.6-flash。这款总参数量达104B、激活参数为7.4B的Instruct模型，自一周前低调上线以来，日均Token调用量已攀升至100B级别，并连续多日占据Trending榜单首位。面对日益增长的算力消耗压力，该模型并未盲目追求长文本输出以换取评测高分，而是另辟蹊径，聚焦于推理效率、Token利用率及Agent实际应用场景的系统性优化，力求在维持强劲智能水平的同时，实现更快速度、更低成本与更高业务适配度。

从技术架构层面审视，Ling-2.6-flash引入了混合线性架构，从底层重构计算逻辑以释放推理潜能。实测数据显示，在4卡H20硬件环境下，其推理速度峰值可达340 tokens/s，Prefill吞吐能力更是达到Nemotron-3-Super模型的2.2倍。与此同时，通过在训练阶段对Token效率进行针对性校准，该模型能够以更精简的输出达成既定目标。在Artificial Analysis的全方位评测中，Ling-2.6-flash仅消耗15M tokens即可完成全部任务，这一数值约为Nemotron-3-Super等同类模型的十分之一，展现出极高的“智效比”。

针对当前市场需求最为旺盛的Agent应用，Ling-2.6-flash进行了定向增强。在工具调用、多步规划及任务执行等关键环节持续打磨后，该模型在BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval及PinchBench等多项权威基准测试中表现优异。即便面对激活参数规模更大的竞争对手，Ling-2.6-flash依然能取得相近甚至达到SOTA（State-of-the-Art）级别的成绩，在同尺寸模型中确立了领先地位。

为降低开发者体验门槛，百灵大模型将在OpenRouter及官方平台同步开启为期一周的免费API调用服务。免费期结束后，计费策略将分为两档：通过OpenRouter调用的价格为输入0.1美元/百万tokens、输出0.3美元/百万tokens，缓存命中按0.02美元/百万tokens（基于20%比例）计费；而官方API平台在每日提供50万tokens免费额度后，超出部分按输入0.6元/百万tokens、输出1.8元/百万tokens的标准收费。此外，IT之家获悉，包括BF16、FP8及INT4在内的多个量化版本也将于近期正式开源，进一步丰富生态选择。