据wccftech报道,英伟达Blackwell GB300 在全新智能体 AI 工作负载基准测试 AA-AgentPerf 中创下性能纪录!
英伟达Blackwell Ultra GB300 在智能体 AI 任务中的性能达到 Hopper 架构产品的 20 倍,在最新一轮基准测试中斩获最高性能成绩。

评测机构 Artificial Analysis 推出了一款全新基准测试工具 AA-AgentPerf,该工具用于测算推理部署集群在真实业务负载下能够承载的活跃智能体数量,其覆盖的业务负载场景包含多种真实工况。 AA-AgentPerf 基准测试主要衡量三项核心指标,这三项指标也是当前 AI 线上部署的核心评判标准,具体如下:
Time to First Token(TTFT,首 Token 生成时延):从发送推理请求到收到首个输出 Token 的单请求延迟;
输出生成速度:获取首 Token 之后,单个请求每秒产出的 Token 数量;
系统整体输出吞吐:所有并发运行的智能体每秒合计输出的 Token 总量。
英伟达首次发布基于 DeepSeek V4 Pro 大模型、在 GB300 NVL72 整机平台上测得的 AA-AgentPerf 基准测试数据。该模型属于当前赋能各类智能体应用的前沿大模型,在 AI 行业中应用十分广泛。

首轮基准测试结果显示,英伟达GB300 硬件跑出了最优性能,单位兆瓦算力下的性能是前代 HGX H200 平台的 20 倍。GB300 每兆瓦算力最多可支撑 60000 个并发智能体,相对 Hopper 架构实现了巨大性能跨越。

英伟达表示,本次测试数据充分体现出 GB300 NVL72 整机与 Blackwell 架构的优势:能够稳定承载大规模智能体代码类工作负载,并且在多路并发智能体会话场景下始终维持 GPU 高满载利用率。
放眼未来,英伟达Rubin 架构产品即将面世,依托经过全面强化的 AI 架构,它将进一步拉大性能领先优势:其 NVFP4 算力单元可提供 50 PFLOPs 算力;搭配 Vera CPU 后,大模型工具调用能力与端到端全链路的性能、能效都将实现大幅提升。
