大模型到底怎么选?别再光盯着榜单看评分了!

机智流 2026-02-15 19:34

大模型到底怎么选?别再光盯着榜单看评分了!图1

> 本文转载自「中国电信人工智能研究院」

 

明明榜单分数不相上下

实际部署后却状况百出

 

改个系统提示就掉性能

换个输出格式就出错

 

大模型到底怎么选?别再光盯着榜单看评分了!图2

 

智能体工作流里的小问题

直接引发连锁失效

......

 

大模型“高分低能”

 问题到底出在哪?

 

 

相信不少做 AI 落地的朋友都遇过这种糟心情况,其实问题根本不在模型的基础能力,而在“稳定性”,这也是大多数排行榜不会告诉你的核心指标。

 

过去选模型,大家只看单一的基准测试分数,却忘了一个关键事实:实际业务中,系统提示、输出协议、交互模式从来不是一成不变的

 

产品迭代要调整指令话术,不同场景要切换输出格式,智能体多步调用要适配不同工具约束......这些看似微小的变化,对部分模型来说就是“致命打击”

 

 

举个例子

 

评测中的问题是

“请提供一份提拉米苏的制作配方”

 

大模型到底怎么选?别再光盯着榜单看评分了!图3

 

实际应用中用户可能会说

 
“救命啊!明天是我对象生日!
我想给她做一份提拉米苏
结果马斯卡彭奶酪
买成了硬邦邦的奶油芝士
手指饼干也忘了买
但家里有好多奥利奥
现在还有救吗?!
在线等,急!”
 
大模型到底怎么选?别再光盯着榜单看评分了!图4

于是

明明在测试中给出了详细步骤
但到真实场景中
模型就开始
答非所问,胡说八道

 

 
为了扒开大模型评分背后的真实状况,告诉用户这款模型是否真的如测出来的那样好用,中国电信集团 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授带领科研团队创新研发了一套“大模型信用审计框架 CreditAudit”,致力于构建下一代大模型综合评价体系

 

一个模型要做到可靠,首要前提就是其输出不会因指令、格式的细微变化而产生剧烈波动。继信容律揭示模型的效率“天赋”,TeleAI 团队进一步通过评估可靠性扒开大模型评分背后的真实状况,告诉用户这款模型是否真的如测出来的那样好用。

 

通过审计单个模型的生成稳定性,CreditAudit 为同源律指导下的家族模型“训练-评测”闭环提供稳健指导,确保从该体系训练出的每一个模型,都具备上线实战所需的高稳定性和可靠性

 

大模型到底怎么选?别再光盯着榜单看评分了!图5

 

CreditAudit 就像一个“大模型信用审计师”,它不搞对抗性测试,只是用日常业务中会遇到的、语义对齐的系统提示模板去评估模型,最终给出两个核心参考。

 

一是模型的基准能力,即现有排行榜的评测分数。

 

二是模型的性能波动风险,波动越小说明模型在指令、格式变化时越稳定。

 

按照波动程度,TeleAI 给出 AAA、AA、A、BBB 四个信用等级,如同给信用卡分等级,一眼就能看出模型的“靠谱程度”。

 

大模型到底怎么选?别再光盯着榜单看评分了!图6

 

在此基础上,TeleAI 团队还创新引入“四象限”评估体系,按照模型能力的“强弱”和“稳定性”划分区域。

 

 

再举个例子

 

基准测试榜单有如下推理题目

 

大模型到底怎么选?别再光盯着榜单看评分了!图7

 

CreditAudit 框架
会模拟实际应用可能遇到的“情形”
进行非对抗性、语义对齐的延拓
 
大模型到底怎么选?别再光盯着榜单看评分了!图8
大模型到底怎么选?别再光盯着榜单看评分了!图9
大模型到底怎么选?别再光盯着榜单看评分了!图10
......

 

 
当通过上述语义对齐但形式不同的问题设定去调用大模型时,就可以通过模型在不同设定下回答的稳定性来评估其“信用等级”

 

在智能体、高失败成本的核心业务场景,稳定的重要性远高于那几分的平均差距。一个稍弱但足够稳定的模型,实际落地效果往往远超“高分但易碎”的模型。业务需要的是持续可靠的输出,而不是一时的榜单好看。

 

这也给所有做大模型落地的从业者提了个醒:模型选型从来不是“唯分数论”,而是“能力”和“稳定性”的双重考量

 

 

说到底

大模型落地的核心是
「能用、好用、持续用」
 
 而排行榜打分数
只是模型在固定条件下的表现
 
 TeleAI 不仅弥补了
“稳定性”这个关键维度
更让模型选型
从看榜单选分数
回归到按需求选靠谱的本质
 
 适合业务实际需求
部署后少踩坑的模型
才是真正的好模型
 
  
项目地址
https://github.com/LLwork8888/CreditAudit

 

大模型到底怎么选?别再光盯着榜单看评分了!图11
 

 

 

 

相关工作

大模型到底怎么选?别再光盯着榜单看评分了!图12
Yiliang Song, Hongjun An, Jiangong Xiao, Haofei Zhao, Jiawei Shao, Xuelong Li, “CreditAudit: 2nd Dimension for LLM Evaluation and Selection”, arXiv:2602.02515
 
Cheng Yuan, Jiawei Shao, Xuelong Li, "Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression", arXiv:2511.08066.
 
Jiawei Shao and Xuelong Li, "AI Flow at the Network Edge," in IEEE Network, vol. 40, no. 1, pp. 330-336, Jan. 2026, doi: 10.1109/MNET.2025.3541208. 

 

Hongjun An, Wenhan Hu, Sida Huang, Siqi Huang, Ruanjun Li, Yuanzhi Liang, Jiawei Shao, Yiliang Song, Zihan Wang, Cheng Yuan, Chi Zhang, Hongyuan Zhang, Wenhao Zhuang, Xuelong Li. "AI Flow: Perspectives, Scenarios, and Approaches", Vicinagearth 3, 1 (2026).

-- 完 --

 

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
大模型
more
全国首个!超3万卡国产AI算力上线,喂饱万亿参数大模型
百度正式发布文心大模型5.0 全模态能力与用户规模同步跃升
中国团队引领太空算力:首次太空在轨部署通用大模型,发2800颗卫星服务数亿硅基智能体
刚刚,腾讯姚顺雨团队首个成果发布!揭示大模型真正瓶颈
Seedance2.0乱杀后,豆包2.0终于来了!字节在接近自己的Gemini 3时刻
DeepSeek-OCR 2大模型开源,重塑文档AI的认知逻辑
三个月完成两轮融资!前蚂蚁大模型首席架构师创业,发布行业首款 GEO 产品化 AI Agent
字节跳动锚定AI新高峰,2026年聚焦“豆包/Dola助手”战略布局
大模型淘汰赛下半场,阶跃的底牌是什么?
单台昇腾服务器可跑!国产算力加持大模型升级,推理性能提升50%
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号