
今年 AI 领域最高光的时刻之一,就是 DeepSeek 发布了 R1 模型。
这是一个开源的大语言模型,它能在高端消费级硬件上运行,性能却足以媲美 OpenAI 的 o1 推理模型。
就在那一刻,我们拥有独立于顶级实验室的、强大的本地 AI 的希望,被重新点燃。
本地运行模型,甚至本地微调,突然之间成了许多应用场景下极具可行性的选择。
DGX Spark 终于震撼登场
理解了这一切,我们才能真正看懂英伟达此刻推出的这款新产品——刚刚全面上市的 DGX Spark。
我很幸运,在一周前就提前拿到了 DGX Spark,并从那时起一直在测试它。
英伟达的市场团队非常慷慨地为我提供了这次机会,并投入了大量时间耐心解答我的所有疑问。
尽管如此,我必须声明,本文中的观点完全出自我个人,没有任何修饰和隐瞒。
初见印象


DGX Spark 开箱
虽然我看过照片,也见过黄仁勋把它托在手掌上的样子,但当你亲眼见到它时,还是会被它的小巧所震撼。
它的包装盒本就很小,主要作用是保护主机、电源和几根线缆。
主机的尺寸仅为 150mm x 150mm x 50mm,只比最新的 Mac mini 稍宽稍深一点。
它甚至不比 Jetson AGX Orin 开发套件大多少,而后者在 Spark 问世前,一直被视为英伟达小型超级计算机的标杆。
DGX Spark 的美学设计传承自 DGX 产品线,感觉就像是有人用缩小射线把一台 DGX 服务器变成了迷你版。
我拿给家人看时,他们一眼就认出了这种标志性的设计风格。
安装设置
如前所述,Spark 附带一个小巧的电源适配器和一根 USB-C 充电线。
充电线插入机器背部一个专用的 USB-C 充电口,这也是背部四个 USB-C 口之一。此外,还有一个以太网口和一个 HDMI 接口。
它的操作系统是 DGX OS 的一个特殊版本,该系统基于 Ubuntu 开发。整个安装过程非常顺畅。
我起初还有点担心,因为发现手头没有有线键鼠,但系统很轻松就识别并配对了我的蓝牙外设。

桌面是标准的 Ubuntu 风格,背景是一张巨大的“英伟达之眼”壁纸。
访问与连接
我将 DGX Spark 设置成一台拥有独立显示器和外设的单机工作站。
但它的设计初衷其实是服务于那些“笔记本电脑级的重度用户”,把它作为笔记本的外部计算单元非常简单。
只要在同一网络下,你就可以直接通过 SSH 连上它(SSH 默认开启),或者使用 NVIDIA Sync 应用连接,后者在功能上更像是 SSH 的一个封装。
Sync 应用支持 Windows、MacOS 和 Ubuntu/Debian 系统。我在 MacOS 和 Debian 上都测试过,一切正常。
系统还可以被配置成“无头”模式,也就是主要作为一台没有显示器的服务器来使用。这个配置可以在初次安装时设定,也可以之后在系统设置里更改。
硬件规格
这可能是 Spark 最令人瞠目结舌的部分:它配备了 128 GB 的统一内存!!!
这意味着 GPU 和 CPU 可以毫无延迟地访问同一个内存池,无需进行耗时的数据迁移。
Spark 还配备了 4 TB 的超大存储空间,这足以让你在本地存放好几个大语言模型和海量的微调数据。
Spark 的澎湃动力源自英伟达的 GB10 Grace Blackwell 超级芯片。
它将一个 20 核的 ARM CPU 和一个算力高达 1 PetaFlop 的 Blackwell GPU 整合在一起,实现了我所见过的最高单位尺寸下的浮点运算性能。
它轻松击败了市面上所有同类系统。虽然与独立显卡相比,GB10 的性能大约和 5070 游戏显卡在同一水平,但别忘了,一块 5070 显卡就比这整台机器还大!
然而,真正让 Spark 充满魅力的,是其软硬件的完美结合。
软件栈
DGX Spark 的核心卖点之一,自然是英伟达强大的软件生态,尤其是 CUDA。
DGX OS 预装了 CUDA 13.0,这是当前最新、最前沿的版本。
这既是好事,也有不便之处:安装 CUDA 往往是深度学习开发中最痛苦的环节之一,自带 CUDA 13.0 意味着你在未来很长一段时间内都不需要再为升级烦恼,也许能一直用到通用人工智能到来!(开个玩笑)
但截至目前,所有主流深度学习框架(如 TensorFlow, PyTorch)都还未发布支持 CUDA 13 的版本。
这意味着你必须通过容器或虚拟环境来使用这些框架。这算不上大问题,但至少在现阶段,确实给数据科学家和模型开发者的工作流程增加了一些不必要的麻烦。
DGX OS 中还预装了另一个很酷的小工具——图形化仪表盘。
它可以用来实时监控系统资源(主要是内存和 GPU 使用率),并能一键启动 Jupyter Lab。

示例、用例与指南
英伟达的工程师们提供了许多非常酷的入门示例,可以在(文末附链接)找到。
我试玩了其中很多,感觉它们既有说服力又令人印象深刻。
不过,在我拥有 Spark 的这短短一周里,还来不及对任何一个示例进行深入探索。我计划在未来几周和几个月里,对它进行更严苛的测试,届时会有更多性能方面的分享。
ComfyUI
ComfyUI 是一个开源的、基于节点的程序,它让用户通过一系列文本提示来生成图像。它使用像 Stable Diffusion 这样的免费扩散模型作为基础,并结合了 ControlNet 和 LCM 低秩自适应等工具,每个工具在程序中都由一个节点表示。
我体验了图形界面下的 ComfyUI 和 Flux。它能根据提示词生成各种天马行空的图像,不过当我输入一些比较偏门的提示词时,输出结果就有点不知所云了。
如今的顶尖图像视频应用已经达到了惊人的逼真度,相比之下,这些早期的模型确实显得有些过时了。
尽管如此,能够在自己的机器上,本地、无限量地生成 AI 内容,这种感觉还是非常酷的。
Open WebUI 与 Ollama
Ollama 已成为在本地运行大语言模型的首选应用,而 WebUI 则是一个设计精良的聊天界面。
在 Spark 上安装 WebUI 的过程非常简单。我测试了 ChatGPT OSS 的 200 亿和 1200 亿参数版本,两者运行都极为流畅。
虽然还没来得及和我的 MacBook Pro 进行严格的量化对比,但直观感觉,Spark 运行这些聊天机器人的速度要快得多。
使用 PyTorch 进行微调
这是我花时间最多的一个示例。能在这么小巧的硬件上微调如此强大的大语言模型,简直让人难以置信。
官方指南提供了三个微调脚本:在 Llama3-8B 上进行 LoRA 微调、对 Llama3-70B 进行 qLoRA 微调,以及在 Llama3-3B 上进行全参数微调。
所有这些任务都能在很短时间内完成,根据模型、数据集和训练策略的不同,耗时从几分钟到几小时不等。
RAPIDS 和 XGBoost
目前官方网站上还没有 RAPIDS 和 XGBoost 的示例,但我从一个 Docker 容器中找到了它们。
在测试中,GPU 相对于 CPU 的加速比存在一些不一致的情况,但总体而言 Rapids 在 Spark 上是可用的。
加速效果在支持向量机上最为明显(约 10 倍),但截至目前,我还没有在 XGBoost 上观察到显著的性能提升。我计划在未来几周深入研究这个问题。
结语
DGX Spark 是每一位本地 AI 开发者的梦想机器。它小巧的身躯,足以重新点燃整个社区对本地开发的渴望与热情。
它让你能以一种极其紧凑和优雅的方式,尽享英伟达硬件与软件生态的全部优势。
多年来,每逢长途旅行,我除了工作主力本,还不得不背着一台笨重的戴尔 Inspiron 笔记本工作站,只因它内置了一块 RTX 5000 显卡。
现在,我终于可以把那个大家伙扔在家里,只带上这台神奇的小型超级计算机,轻装上路。
作者:BOJAN TUNGUZ
参考资料:https://developer.nvidia.com/topics/ai/dgx-spark
一键三连「