不用云端也能跑 Agent？我们把一张 24GB 的 AI 卡插进了 ARM 小主机

如果你关注 Radxa，大概率也喜欢开发板、Linux、小主机，或者各种能自己动手折腾的硬件。那你可能也会好奇：本地 AI 现在到底有什么好玩的？

正好，Radxa Orion O6N 刚更到 v1.2 版本，新增了 M.2 加速卡接口，我们就借着这个机会，把两个有意思的东西凑到了一起：

Radxa Orion O6N：一台搭载 CIX P1、12 核 Arm CPU 的小主机，这次更到了 v1.2 版本

后摩 LQ50-24GB AI 加速卡：一张 PCIe 形态的 AI 加速卡，板载 24GB 内存

相比 v1.1，O6N v1.2 主要做了两个调整：

新增了 M.2 加速卡支持，也就是我们这次插 LQ50 用的接口
移除了不常用的 UFS 模块支持

也正因为有了这个新接口，我们才能完成这次测试。

我们把这张 24GB 的 PCIe AI 卡插进 O6N 正面新增的 M.2 接口，试着在上面跑本地模型、本地 Ollama 服务。先用 llama.cpp 自带的网页对话界面跑通最稳的一步，再接上开源 Agent Coding 工具 opencode。目标很简单：看看这台 Arm 小主机，能不能真的变成一台本地 AI 服务器。

给 O6N 加一张 AI 外挂

O6N 发布已经有一阵子了。它本身不是没有 AI 能力：这颗 CIX P1 平台自带 NPU，整机综合 AI 算力能到 45 TOPS。但现实是，目前 O6N 官方支持在 NPU 上跑的主要还是 CV 类模型。之前想在 O6N 上跑大语言模型，大多还是靠 llama.cpp 用 CPU 凑活。

所以这次 LQ50 的意义很清楚：它不是给 O6N 从零开始“加 AI”，而是把本地大模型这块拼图补上。而 v1.2 版本新增的 M.2 接口，正好给这张 AI 卡留出了位置。

O6N 本身就是一台小而完整的 Arm 主机：Linux、PCIe、NVMe、网络接口，该有的都有。这类机器的乐趣就在于，它不会停在发布那一刻。只要扩展接口还在，新硬件出来就能长出新玩法。这次 LQ50 就是这样的新玩法。

再说明一下：这次展示的 O6N + LQ50，需要 v1.2 及以上版本的硬件才能支持满血性能释放，v1.1 及之前的版本因为没有预留 M.2 加速卡接口需要的功率所以性能不能完全发挥。

插进 O6N 之后，我们先没急着跑模型。第一步先确认：系统认不认？

不用云端也能跑 Agent？我们把一张 24GB 的 AI 卡插进了 ARM 小主机图3

在机器上跑 hm_smi -a，能清晰看到这张卡已经在线。翻译成人话：O6N 通过 PCIe 识别到了 LQ50，驱动和固件都正常，24GB 板载内存可见，空闲时板卡功耗大约 6W。

然后，把模型服务跑在本地

硬件点亮，接下来就是服务。

LQ50 不是 NVIDIA GPU，自然不走 CUDA 那套路线。这次我们用的是后摩提供的 HLAWOllama，可以理解成适配后摩硬件的 Ollama 服务。

服务跑起来之后，本机 11434 端口就能响应请求，模型也能通过 hlaw_ollama 管理。实际测试里，我们拉了一个约 20GB 的模型：Qwen3.5-35B-A3B 的 GGUF 量化版本。

不用云端也能跑 Agent？我们把一张 24GB 的 AI 卡插进了 ARM 小主机图4

35B 听起来很大，但 A3B 说明这是个 MoE 模型，每次推理只激活其中一部分专家。量化之后，模型大小压到了 20GB 左右，正好能放进 LQ50 这张 24GB 卡的空间里。这就是 24GB 板载内存的价值：它决定了这类中大型本地模型能不能装进去、能不能跑起来。

而且 LQ50 不只是支持这一个模型。LLM 这边已经有 Qwen3.6-35B-A3B、Qwen3-30B-A3B、GPT-OSS-20B 等；多模态这边也覆盖了 Gemma4、Qwen3-VL。再往外，ASR、OCR、TTS、Embedding、Reranker、YOLO 检测分割都能支持。

先来一个最稳的玩法：网页对话

如果只是想证明“这套东西真的能用”，最稳妥的方式不是一上来就跑 Agent，先跑个经典网页对话试试水。

在 O6N 上进入 HLAWOllama 目录，启动 llama.cpp 自带的网页服务：

ounter(lineounter(linecd ~/houmo/apps/HLAWOllama./bin/llama-server -m models/qwen3.5-35b.gguf

打开浏览器，就能看到那个熟悉的 llama.cpp Web UI：输入问题，模型在本地直接给你回复。这个界面没什么花活，但胜在直观、稳定，一眼就能看懂。模型文件在本机，推理在本机，服务也在本机。

不用云端也能跑 Agent？我们把一张 24GB 的 AI 卡插进了 ARM 小主机图5

我们也记录了一次推理性能。在这次测试里，Qwen3.5-35B-A3B 的端到端输出速度约 30.8 tokens/s，首 token 延迟约 269 ms。对一个跑在 O6N + LQ50 上的本地 35B MoE 模型来说，这个结果已经能让网页对话用得比较顺畅了。

我们也试了试接入主流 Agent

当然，只能聊天还不够。现在大家对 AI 的期待早就不是“你问我答”了，而是 Agent：它能理解任务、写文件、调用工具，最好还能自己跑命令、看报错、再改一轮。

所以我们也尝试把本地模型接进开源 Agent Coding 工具 opencode，把 provider 指到本机的 Ollama/OpenAI 兼容接口 http://127.0.0.1:11434/v1。这样它请求的就不是云端模型，而是 O6N 本机上通过 LQ50 跑起来的模型服务。

我们给了它一个很小的任务：创建一个 hello_agent.py，输出一句 Hello from O6N + LQ50 local Agent!。它确实跑起来了，也能在界面里进入思考、生成内容、尝试写文件。虽然只是个小任务，但整个流程是通的。

不用云端也能跑 Agent？我们把一张 24GB 的 AI 卡插进了 ARM 小主机图6

这次真正跑通的，是一条完整的本地 AI 链路

到这里，我们可以把整条链路串起来看了：

O6N v1.2 提供了一台低功耗、接口完整、适合长期运行的 Arm 小主机，还新增了 M.2 扩展接口。
LQ50 补上了本地大模型和多模态模型的推理能力。
HLAWOllama 把底层硬件能力包装成了熟悉的本地模型服务。
llama.cpp Web UI 让你可以直接在浏览器里和模型对话。
opencode 这类 Agent 工具，则进一步证明它可以接入更上层的开发者工作流。

这也是这次适配最有意思的地方：它不是在做一台“更大的云端服务器”，而是把本地 AI 需要的几块拼图，刚好放进了一台 Arm 小主机的形态里。

对开发者和硬件玩家来说，这意味着 O6N 不再只是一台能跑 Linux、能接外设的小主机。经过这次适配，它多了一个新方向：成为你的本地 AI 服务器。

你可以在它上面跑本地模型服务，验证不同模型的效果，尝试多模态能力，也可以把它接入自己熟悉的开发工具链，探索端侧 AI 的各种玩法。

本地 AI 还在快速发展。更强的端侧模型、更成熟的工具调用协议、更友好的本地推理栈，都会继续把这件事往前推。但至少现在，O6N v1.2 + LQ50 已经把这条路跑通了。

剩下的，就交给更多模型、更多工具，以及开发者们自己的想象力。

购买信息

Radxa 瑞莎 Orion O6N ARM V9 开源主板 v1.2 版本，预售已经开始。

预计发货时间：2026 年 7 月 15 日左右。

点击阅读原文前往购买页面

不用云端也能跑 Agent？我们把一张 24GB 的 AI 卡插进了 ARM 小主机图7