正好,Radxa Orion O6N 刚更到 v1.2 版本,新增了 M.2 加速卡接口,我们就借着这个机会,把两个有意思的东西凑到了一起:
Radxa Orion O6N:一台搭载 CIX P1、12 核 Arm CPU 的小主机,这次更到了 v1.2 版本 
后摩 LQ50-24GB AI 加速卡:一张 PCIe 形态的 AI 加速卡,板载 24GB 内存 
相比 v1.1,O6N v1.2 主要做了两个调整:
新增了 M.2 加速卡支持,也就是我们这次插 LQ50 用的接口 移除了不常用的 UFS 模块支持
也正因为有了这个新接口,我们才能完成这次测试。
我们把这张 24GB 的 PCIe AI 卡插进 O6N 正面新增的 M.2 接口,试着在上面跑本地模型、本地 Ollama 服务。先用 llama.cpp 自带的网页对话界面跑通最稳的一步,再接上开源 Agent Coding 工具 opencode。目标很简单:看看这台 Arm 小主机,能不能真的变成一台本地 AI 服务器。
给 O6N 加一张 AI 外挂
O6N 发布已经有一阵子了。它本身不是没有 AI 能力:这颗 CIX P1 平台自带 NPU,整机综合 AI 算力能到 45 TOPS。但现实是,目前 O6N 官方支持在 NPU 上跑的主要还是 CV 类模型。之前想在 O6N 上跑大语言模型,大多还是靠 llama.cpp 用 CPU 凑活。
所以这次 LQ50 的意义很清楚:它不是给 O6N 从零开始“加 AI”,而是把本地大模型这块拼图补上。而 v1.2 版本新增的 M.2 接口,正好给这张 AI 卡留出了位置。
O6N 本身就是一台小而完整的 Arm 主机:Linux、PCIe、NVMe、网络接口,该有的都有。这类机器的乐趣就在于,它不会停在发布那一刻。只要扩展接口还在,新硬件出来就能长出新玩法。这次 LQ50 就是这样的新玩法。
再说明一下:这次展示的 O6N + LQ50,需要 v1.2 及以上版本的硬件才能支持满血性能释放,v1.1 及之前的版本因为没有预留 M.2 加速卡接口需要的功率所以性能不能完全发挥。
插进 O6N 之后,我们先没急着跑模型。第一步先确认:系统认不认?

在机器上跑 hm_smi -a,能清晰看到这张卡已经在线。翻译成人话:O6N 通过 PCIe 识别到了 LQ50,驱动和固件都正常,24GB 板载内存可见,空闲时板卡功耗大约 6W。
然后,把模型服务跑在本地
硬件点亮,接下来就是服务。
LQ50 不是 NVIDIA GPU,自然不走 CUDA 那套路线。这次我们用的是后摩提供的 HLAWOllama,可以理解成适配后摩硬件的 Ollama 服务。
服务跑起来之后,本机 11434 端口就能响应请求,模型也能通过 hlaw_ollama 管理。实际测试里,我们拉了一个约 20GB 的模型:Qwen3.5-35B-A3B 的 GGUF 量化版本。

35B 听起来很大,但 A3B 说明这是个 MoE 模型,每次推理只激活其中一部分专家。量化之后,模型大小压到了 20GB 左右,正好能放进 LQ50 这张 24GB 卡的空间里。这就是 24GB 板载内存的价值:它决定了这类中大型本地模型能不能装进去、能不能跑起来。
而且 LQ50 不只是支持这一个模型。LLM 这边已经有 Qwen3.6-35B-A3B、Qwen3-30B-A3B、GPT-OSS-20B 等;多模态这边也覆盖了 Gemma4、Qwen3-VL。再往外,ASR、OCR、TTS、Embedding、Reranker、YOLO 检测分割都能支持。
先来一个最稳的玩法:网页对话
如果只是想证明“这套东西真的能用”,最稳妥的方式不是一上来就跑 Agent,先跑个经典网页对话试试水。
在 O6N 上进入 HLAWOllama 目录,启动 llama.cpp 自带的网页服务:
ounter(lineounter(linecd ~/houmo/apps/HLAWOllama./bin/llama-server -m models/qwen3.5-35b.gguf
打开浏览器,就能看到那个熟悉的 llama.cpp Web UI:输入问题,模型在本地直接给你回复。这个界面没什么花活,但胜在直观、稳定,一眼就能看懂。模型文件在本机,推理在本机,服务也在本机。

我们也记录了一次推理性能。在这次测试里,Qwen3.5-35B-A3B 的端到端输出速度约 30.8 tokens/s,首 token 延迟约 269 ms。对一个跑在 O6N + LQ50 上的本地 35B MoE 模型来说,这个结果已经能让网页对话用得比较顺畅了。
我们也试了试接入主流 Agent
当然,只能聊天还不够。现在大家对 AI 的期待早就不是“你问我答”了,而是 Agent:它能理解任务、写文件、调用工具,最好还能自己跑命令、看报错、再改一轮。
所以我们也尝试把本地模型接进开源 Agent Coding 工具 opencode,把 provider 指到本机的 Ollama/OpenAI 兼容接口 http://127.0.0.1:11434/v1。这样它请求的就不是云端模型,而是 O6N 本机上通过 LQ50 跑起来的模型服务。
我们给了它一个很小的任务:创建一个 hello_agent.py,输出一句 Hello from O6N + LQ50 local Agent!。它确实跑起来了,也能在界面里进入思考、生成内容、尝试写文件。虽然只是个小任务,但整个流程是通的。

这次真正跑通的,是一条完整的本地 AI 链路
到这里,我们可以把整条链路串起来看了:
O6N v1.2 提供了一台低功耗、接口完整、适合长期运行的 Arm 小主机,还新增了 M.2 扩展接口。 LQ50 补上了本地大模型和多模态模型的推理能力。 HLAWOllama 把底层硬件能力包装成了熟悉的本地模型服务。 llama.cpp Web UI 让你可以直接在浏览器里和模型对话。 opencode 这类 Agent 工具,则进一步证明它可以接入更上层的开发者工作流。
这也是这次适配最有意思的地方:它不是在做一台“更大的云端服务器”,而是把本地 AI 需要的几块拼图,刚好放进了一台 Arm 小主机的形态里。
对开发者和硬件玩家来说,这意味着 O6N 不再只是一台能跑 Linux、能接外设的小主机。经过这次适配,它多了一个新方向:成为你的本地 AI 服务器。
你可以在它上面跑本地模型服务,验证不同模型的效果,尝试多模态能力,也可以把它接入自己熟悉的开发工具链,探索端侧 AI 的各种玩法。
本地 AI 还在快速发展。更强的端侧模型、更成熟的工具调用协议、更友好的本地推理栈,都会继续把这件事往前推。但至少现在,O6N v1.2 + LQ50 已经把这条路跑通了。
剩下的,就交给更多模型、更多工具,以及开发者们自己的想象力。
购买信息
Radxa 瑞莎 Orion O6N ARM V9 开源主板 v1.2 版本,预售已经开始。
预计发货时间:2026 年 7 月 15 日左右。
点击阅读原文前往购买页面
