想从事 AI 基础架构、AI 工厂或 AI 网络相关工作,需要具备哪些核心技能?从 AI 数据中心设计、GPU 集群部署到高性能网络和 AI 运维管理,相关岗位对专业技能的要求不断提升。NVIDIA 深度学习培训中心(DLI)提供 AI 基础架构与网络系列认证,帮助您验证在 AI 基础架构规划、部署、运营和优化等领域的专业能力。
7 - 8 月 NVIDIA 认证现场考试上海、北京考位现已开放预约,立即报名考取 NVIDIA 认证,验证专业能力,把握 AI 发展机遇。
AI 基础架构与网络(4 门认证)
NVIDIA-Certified Associate:
AI Infrastructure and Operations(NCA-AIIO)
01
关于认证
验证 AI 计算与基础架构和运营相关的基本技能。
02
认证等级
Associate 初级
03
考试概况
60 分钟现场考试,50 道单选或多选题
04
考试涵盖主题
AI 基础知识:NVIDIA AI 生态系统,涵盖软件堆栈、AI、机器学习和深度学习的核心概念,以及架构对比(GPU/CPU、训练/推理)和 AI 用例。
AI 基础架构:硬件识别、GPU 基础架构扩展、电力与散热基础知识、本地部署与云端的对比、集群组件识别、设施需求、AI 网络架构、数据中心协议、高速网络选项,以及 DPU 在数据中心中的优势。
AI 运营:管理和监测 AI 数据中心的关键技能、集群编排和作业调度、GPU 性能监测,虚拟化加速 AI 基础架构的注意事项。
NVIDIA Certified Professional:
AI Infrastructure (NCP-AII)
01
关于认证
验证部署、管理和维护 NVIDIA AI 基础架构的能力。
02
认证等级
Professional 中级
03
考试概况
120 分钟现场考试,70 – 75 道单选或多选题
04
考试涵盖主题
系统和服务器启动:端到端的硬件部署,包含机架、电源、BMC、安全、固件、物理安装、初始服务器和网络设置、线缆验证以及 AI 工作负载的硬件验证。确保在扩展 AI 操作之前所有组件都已正确部署、配置和运行。
物理层管理:配置和维护物理资源,包括 GPU/BlueField DPU 网络、线缆和收发器管理,以及使用 MIG 进行 GPU 分区。确保所有物理组件可支持安全、可扩展、高性能的 AI 数据中心运营。
控制平面安装与配置:操作系统、集群管理器、驱动程序、容器工具和管理软件的安装和配置。协调 NVIDIA AI 集群部署、资源分组、安全访问以及可靠的系统软件集成。
集群测试与验证:通过压力测试、基准测试、线缆完整性检查、固件验证和带宽验证,确认集群健康状态和就绪情况,包括端到端诊断和老化测试,以确保高可靠性和最优的 AI 工作负载性能。
故障排查与优化:检测、分析并解决硬件故障和性能瓶颈,运用根因分析、组件更换及服务器和存储调优等方法,持续优化 NVIDIA AI 工厂环境中的多厂商硬件配置与运行性能。
NVIDIA Certified Professional:
AI Operations (NCP-AIO)
01
关于认证
验证对 NVIDIA AI 基础架构进行监测、故障排除和优化的能力。
02
认证等级
Professional 中级
03
考试概况
120 分钟现场考试,70 – 75 道单选或多选题
04
考试涵盖主题
安装和部署:熟悉 NVIDIA Mission Control 工具套件,特别是使用 Base Command Manager (BCM) 的熟练程度。监测、管理和维护集群的实践技能,包括作业调度、资源分配、安全和故障排查。具备部署和配置 Kubernetes、SLURM 和 NVIDIA DOCA™ 等技能。
管理:管理各种 AI 工作负载环境。管理 Slurm 和 Kubernetes 集群等任务,对于调度和编排任务至关重要。具备管理 AI 工作负载管理平台 Run:ai 以及配置 MIG(多实例 GPU)的知识。具备处理 AI 工作负载的数据中心架构的能力。
AI 工作负载管理:软硬件安装和配置。包括安装和配置 BCM,并使用 BCM 在 NVIDIA 主机上安装 Kubernetes。需能够部署来自 NGC 的容器以及云虚拟机映像 (VMI) 容器。了解 AI 数据中心的存储需求并在 DPU-Arm 上部署 DOCA。
故障排查和优化:解决 Docker、NVIDIA NVLink™ 和 NVSwitch™ 系统的 Fabric Manager、BCM、Magnum IO™ 组件及存储性能相关问题。确保组件无缝协同工作和 AI 工作负载高效稳定运行。
NVIDIA Certified Professional:
AI Networking (NCP-AIN)
01
关于认证
验证利用 NVIDIA 先进的网络技术部署和配置环境的能力。
02
认证等级
Professional 中级
03
考试概况
120 分钟现场考试,70 – 75道单选或多选题
04
考试涵盖主题
AI 数据中心设计和优化:掌握 AI 数据中心架构设计方法,根据业务需求选择适合的网络技术(以太网或 InfiniBand)与存储方案,并优化 NVIDIA AI 基础架构拓扑,满足性能、扩展性和高可用性。
NVIDIA Spectrum 网络:配置、优化、保护 Spectrum-X 交换机并排除故障。使用 NVIDIA NetQ™、CloudAI Benchmark 和 DPU 等工具,定义高级 QoS 和遥测,监测和调优网络性能,并在以太网架构的 AI Fabric 中,解决复杂的真实场景连接需求及微分段问题。
NVIDIA InfiniBand 网络:设置和维护 InfiniBand 交换机、配置可靠的多租户网络、管理子网管理器和网络分区、使用 NVIDIA Unified Fabric Manager (UFM®) 等工具监测性能、解决拥塞或拓扑问题,验证高级轨道优化 AI 数据中心设计,实现可扩展性和低延迟。
Kubernetes 集成:部署和管理 NVIDIA Network Operator 和设备插件,在 Kubernetes 集群中启用 RDMA/InfiniBand,验证 GPU 资源,与 AI 工作负载无缝集成。排除集群网络接口故障、部署驱动程序以及在异构基础架构上调度资源。
故障诊断与排查:掌握运用诊断工具和遥测数据分析 AI 网络性能问题的方法,能够快速识别和定位复杂环境中的延迟、拥塞及连接故障,并实施符合生产环境要求的修复与优化策略。
自动化和配置:运用 NVUE 模板和自定义 Ansible Playbook,实现 Spectrum-X 与 InfiniBand 网络的自动化部署、零接触配置及验证;在多厂商 AI 网络环境中维护配置一致性,并自动完成 RoCE、VLAN 和高可用性等关键网络服务的配置与管理。
查看以上认证详情
请访问 NVIDIA 认证中文官网
扫描如下二维码,或复制并访问:
nvidia.cn/training/certification

更多咨询:欢迎扫描如下二维码加入 NVIDIA DLI 认证交流群。如遇群满,微信添加 DLIChina,备注“咨询认证”。

NVIDIA 认证现场考试
考试日期和地点
(每日两场,可约任一考试科目)
上海考场:7 月 30 日
北京考场:8 月 19 日
更多考试时段即将公布
考试地点
NVIDIA 北京或上海公司(报名成功后,您将收到详细信息)
考试语言
可选中文或英文
考试费用
NVIDIA-Certified Associate (NCA-AIIO):960 元
NVIDIA-Certified Professional (NCP-AII, NCP-AIO, NCP-AIN):2880 元
报名考试
先购买考试券,收到 dlichina@nvidia.com 发出的考试券后,再通过考试平台预约考试
请扫描如下二维码,或点击文末“阅读原文”,购买考试券
或复制并访问:
https://www.bagevent.com/event/8919062

NVIDIA AI 培训班课程表
立即报名由 NVIDIA 认证讲师全天中文实时在线授课答疑的 AI 实操培训,系统掌握代理式 AI、物理 AI 等端到端的核心开发技能。通过完全配置的云端实验环境边学边练,获得 NVIDIA 培训证书,并为进一步考取 NVIDIA 认证做好准备。
7 月 16 日:为大语言模型添加新知识
8 月 6 日:大规模部署与优化 AI 推理
8 月 20 日:使用大语言模型构建代理式 AI
9 月 3 日:使用多模态构建 AI 智能体
9 月 17 日:加速计算基础 —— CUDA C++ 前沿技术
后续课表敬请关注
报名 AI 培训班
扫描如下二维码,或复制并访问:
bagevent.com/event/8359360
点击“立即报名”,选择课程,添加数量
优惠:团购 5 张 8 折,高校师生 7 折。微信添加 NVIDIALearn,申请 AI 培训班折扣

NVIDIA 培训精选合集
扫描下方海报二维码,访问生成式 AI 认证学习路径,从选择科目到考取认证一站通关。点击网页头图,新用户免费领一门认证推荐培训。
