
> 本文转载自「中国电信人工智能研究院」
明明榜单分数不相上下
实际部署后却状况百出
改个系统提示就掉性能
换个输出格式就出错

智能体工作流里的小问题
直接引发连锁失效
......
大模型“高分低能”
问题到底出在哪?
相信不少做 AI 落地的朋友都遇过这种糟心情况,其实问题根本不在模型的基础能力,而在“稳定性”,这也是大多数排行榜不会告诉你的核心指标。
过去选模型,大家只看单一的基准测试分数,却忘了一个关键事实:实际业务中,系统提示、输出协议、交互模式从来不是一成不变的。
产品迭代要调整指令话术,不同场景要切换输出格式,智能体多步调用要适配不同工具约束......这些看似微小的变化,对部分模型来说就是“致命打击”。
一个模型要做到可靠,首要前提就是其输出不会因指令、格式的细微变化而产生剧烈波动。继信容律揭示模型的效率“天赋”,TeleAI 团队进一步通过评估可靠性扒开大模型评分背后的真实状况,告诉用户这款模型是否真的如测出来的那样好用。
通过审计单个模型的生成稳定性,CreditAudit 为同源律指导下的家族模型“训练-评测”闭环提供稳健指导,确保从该体系训练出的每一个模型,都具备上线实战所需的高稳定性和可靠性。

CreditAudit 就像一个“大模型信用审计师”,它不搞对抗性测试,只是用日常业务中会遇到的、语义对齐的系统提示模板去评估模型,最终给出两个核心参考。
一是模型的基准能力,即现有排行榜的评测分数。
二是模型的性能波动风险,波动越小说明模型在指令、格式变化时越稳定。
按照波动程度,TeleAI 给出 AAA、AA、A、BBB 四个信用等级,如同给信用卡分等级,一眼就能看出模型的“靠谱程度”。

在智能体、高失败成本的核心业务场景,稳定的重要性远高于那几分的平均差距。一个稍弱但足够稳定的模型,实际落地效果往往远超“高分但易碎”的模型。业务需要的是持续可靠的输出,而不是一时的榜单好看。
这也给所有做大模型落地的从业者提了个醒:模型选型从来不是“唯分数论”,而是“能力”和“稳定性”的双重考量。
相关工作

Hongjun An, Wenhan Hu, Sida Huang, Siqi Huang, Ruanjun Li, Yuanzhi Liang, Jiawei Shao, Yiliang Song, Zihan Wang, Cheng Yuan, Chi Zhang, Hongyuan Zhang, Wenhao Zhuang, Xuelong Li. "AI Flow: Perspectives, Scenarios, and Approaches", Vicinagearth 3, 1 (2026).
-- 完 --






