百灵大模型Ling-2.6-flash正式亮相,主打高智效比与Agent场景优化

科技区角 2026-04-22 10:31

【科技纵览】4月22日,蚂蚁集团百灵大模型团队揭晓了此前在OpenRouter平台上以“Elephant Alpha”代号匿名测试的新品真身——Ling-2.6-flash。这款总参数量达104B、激活参数为7.4B的Instruct模型,自一周前低调上线以来,日均Token调用量已攀升至100B级别,并连续多日占据Trending榜单首位。面对日益增长的算力消耗压力,该模型并未盲目追求长文本输出以换取评测高分,而是另辟蹊径,聚焦于推理效率、Token利用率及Agent实际应用场景的系统性优化,力求在维持强劲智能水平的同时,实现更快速度、更低成本与更高业务适配度。



从技术架构层面审视,Ling-2.6-flash引入了混合线性架构,从底层重构计算逻辑以释放推理潜能。实测数据显示,在4卡H20硬件环境下,其推理速度峰值可达340 tokens/s,Prefill吞吐能力更是达到Nemotron-3-Super模型的2.2倍。与此同时,通过在训练阶段对Token效率进行针对性校准,该模型能够以更精简的输出达成既定目标。在Artificial Analysis的全方位评测中,Ling-2.6-flash仅消耗15M tokens即可完成全部任务,这一数值约为Nemotron-3-Super等同类模型的十分之一,展现出极高的“智效比”。

针对当前市场需求最为旺盛的Agent应用,Ling-2.6-flash进行了定向增强。在工具调用、多步规划及任务执行等关键环节持续打磨后,该模型在BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval及PinchBench等多项权威基准测试中表现优异。即便面对激活参数规模更大的竞争对手,Ling-2.6-flash依然能取得相近甚至达到SOTA(State-of-the-Art)级别的成绩,在同尺寸模型中确立了领先地位。

为降低开发者体验门槛,百灵大模型将在OpenRouter及官方平台同步开启为期一周的免费API调用服务。免费期结束后,计费策略将分为两档:通过OpenRouter调用的价格为输入0.1美元/百万tokens、输出0.3美元/百万tokens,缓存命中按0.02美元/百万tokens(基于20%比例)计费;而官方API平台在每日提供50万tokens免费额度后,超出部分按输入0.6元/百万tokens、输出1.8元/百万tokens的标准收费。此外,IT之家获悉,包括BF16、FP8及INT4在内的多个量化版本也将于近期正式开源,进一步丰富生态选择。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
大模型
more
告别网页套壳,微软将为Win11打造纯原生应用;国际民航新规每人最多带2个充电宝;华为盘古大模型负责人离职;苹果iOS 27版Siri前瞻...
智元机器人发布GO-2具身基座大模型
让大模型多模态检索全面超越SOTA!ReCALL框架化解生成式与判别式的范式冲突|CVPR'26
斯坦福年度结论:中美大模型已没差距
ColaVLA:自动驾驶大模型,不一定非要把「思考过程」写成文字
智元机器人推GO-2具身基座大模型,迈向“知行合一”新阶段
对话地平线前高管牛建伟:万亿参数大模型如何重塑具身智能
某大厂AI掉队的暗中一面:1号位内斗、管理混乱;电商大厂AI项目失败,老板原地解散团队;头部大模型公司老板忌讳公开发言|AI情报局VOL.3
大模型架构的下半场
国产大模型强势崛起:豆包登顶国内榜首,小米双模上榜,开源赛道领跑全球
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号