【科技纵览】4月22日,蚂蚁集团百灵大模型团队揭晓了此前在OpenRouter平台上以“Elephant Alpha”代号匿名测试的新品真身——Ling-2.6-flash。这款总参数量达104B、激活参数为7.4B的Instruct模型,自一周前低调上线以来,日均Token调用量已攀升至100B级别,并连续多日占据Trending榜单首位。面对日益增长的算力消耗压力,该模型并未盲目追求长文本输出以换取评测高分,而是另辟蹊径,聚焦于推理效率、Token利用率及Agent实际应用场景的系统性优化,力求在维持强劲智能水平的同时,实现更快速度、更低成本与更高业务适配度。

从技术架构层面审视,Ling-2.6-flash引入了混合线性架构,从底层重构计算逻辑以释放推理潜能。实测数据显示,在4卡H20硬件环境下,其推理速度峰值可达340 tokens/s,Prefill吞吐能力更是达到Nemotron-3-Super模型的2.2倍。与此同时,通过在训练阶段对Token效率进行针对性校准,该模型能够以更精简的输出达成既定目标。在Artificial Analysis的全方位评测中,Ling-2.6-flash仅消耗15M tokens即可完成全部任务,这一数值约为Nemotron-3-Super等同类模型的十分之一,展现出极高的“智效比”。
针对当前市场需求最为旺盛的Agent应用,Ling-2.6-flash进行了定向增强。在工具调用、多步规划及任务执行等关键环节持续打磨后,该模型在BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval及PinchBench等多项权威基准测试中表现优异。即便面对激活参数规模更大的竞争对手,Ling-2.6-flash依然能取得相近甚至达到SOTA(State-of-the-Art)级别的成绩,在同尺寸模型中确立了领先地位。
为降低开发者体验门槛,百灵大模型将在OpenRouter及官方平台同步开启为期一周的免费API调用服务。免费期结束后,计费策略将分为两档:通过OpenRouter调用的价格为输入0.1美元/百万tokens、输出0.3美元/百万tokens,缓存命中按0.02美元/百万tokens(基于20%比例)计费;而官方API平台在每日提供50万tokens免费额度后,超出部分按输入0.6元/百万tokens、输出1.8元/百万tokens的标准收费。此外,IT之家获悉,包括BF16、FP8及INT4在内的多个量化版本也将于近期正式开源,进一步丰富生态选择。