不用云端也能跑 Agent?我们把一张 24GB 的 AI 卡插进了 ARM 小主机

Radxa 2026-06-18 20:06
如果你关注 Radxa,大概率也喜欢开发板、Linux、小主机,或者各种能自己动手折腾的硬件。那你可能也会好奇:本地 AI 现在到底有什么好玩的?

正好,Radxa Orion O6N 刚更到 v1.2 版本,新增了 M.2 加速卡接口,我们就借着这个机会,把两个有意思的东西凑到了一起:

  • Radxa Orion O6N:一台搭载 CIX P1、12 核 Arm CPU 的小主机,这次更到了 v1.2 版本
    不用云端也能跑 Agent?我们把一张 24GB 的 AI 卡插进了 ARM 小主机图1
  • 后摩 LQ50-24GB AI 加速卡:一张 PCIe 形态的 AI 加速卡,板载 24GB 内存
    不用云端也能跑 Agent?我们把一张 24GB 的 AI 卡插进了 ARM 小主机图2

相比 v1.1,O6N v1.2 主要做了两个调整:

  • 新增了 M.2 加速卡支持,也就是我们这次插 LQ50 用的接口
  • 移除了不常用的 UFS 模块支持

也正因为有了这个新接口,我们才能完成这次测试。

我们把这张 24GB 的 PCIe AI 卡插进 O6N 正面新增的 M.2 接口,试着在上面跑本地模型、本地 Ollama 服务。先用 llama.cpp 自带的网页对话界面跑通最稳的一步,再接上开源 Agent Coding 工具 opencode。目标很简单:看看这台 Arm 小主机,能不能真的变成一台本地 AI 服务器。

给 O6N 加一张 AI 外挂

O6N 发布已经有一阵子了。它本身不是没有 AI 能力:这颗 CIX P1 平台自带 NPU,整机综合 AI 算力能到 45 TOPS。但现实是,目前 O6N 官方支持在 NPU 上跑的主要还是 CV 类模型。之前想在 O6N 上跑大语言模型,大多还是靠 llama.cpp 用 CPU 凑活。

所以这次 LQ50 的意义很清楚:它不是给 O6N 从零开始“加 AI”,而是把本地大模型这块拼图补上。而 v1.2 版本新增的 M.2 接口,正好给这张 AI 卡留出了位置。

O6N 本身就是一台小而完整的 Arm 主机:Linux、PCIe、NVMe、网络接口,该有的都有。这类机器的乐趣就在于,它不会停在发布那一刻。只要扩展接口还在,新硬件出来就能长出新玩法。这次 LQ50 就是这样的新玩法。

再说明一下:这次展示的 O6N + LQ50,需要 v1.2 及以上版本的硬件才能支持满血性能释放,v1.1 及之前的版本因为没有预留 M.2 加速卡接口需要的功率所以性能不能完全发挥。

插进 O6N 之后,我们先没急着跑模型。第一步先确认:系统认不认?

不用云端也能跑 Agent?我们把一张 24GB 的 AI 卡插进了 ARM 小主机图3

在机器上跑 hm_smi -a,能清晰看到这张卡已经在线。翻译成人话:O6N 通过 PCIe 识别到了 LQ50,驱动和固件都正常,24GB 板载内存可见,空闲时板卡功耗大约 6W。

然后,把模型服务跑在本地

硬件点亮,接下来就是服务。

LQ50 不是 NVIDIA GPU,自然不走 CUDA 那套路线。这次我们用的是后摩提供的 HLAWOllama,可以理解成适配后摩硬件的 Ollama 服务。

服务跑起来之后,本机 11434 端口就能响应请求,模型也能通过 hlaw_ollama 管理。实际测试里,我们拉了一个约 20GB 的模型:Qwen3.5-35B-A3B 的 GGUF 量化版本。

不用云端也能跑 Agent?我们把一张 24GB 的 AI 卡插进了 ARM 小主机图4

35B 听起来很大,但 A3B 说明这是个 MoE 模型,每次推理只激活其中一部分专家。量化之后,模型大小压到了 20GB 左右,正好能放进 LQ50 这张 24GB 卡的空间里。这就是 24GB 板载内存的价值:它决定了这类中大型本地模型能不能装进去、能不能跑起来。

而且 LQ50 不只是支持这一个模型。LLM 这边已经有 Qwen3.6-35B-A3B、Qwen3-30B-A3B、GPT-OSS-20B 等;多模态这边也覆盖了 Gemma4、Qwen3-VL。再往外,ASR、OCR、TTS、Embedding、Reranker、YOLO 检测分割都能支持。

先来一个最稳的玩法:网页对话

如果只是想证明“这套东西真的能用”,最稳妥的方式不是一上来就跑 Agent,先跑个经典网页对话试试水。

在 O6N 上进入 HLAWOllama 目录,启动 llama.cpp 自带的网页服务:

ounter(lineounter(linecd ~/houmo/apps/HLAWOllama./bin/llama-server -m models/qwen3.5-35b.gguf

打开浏览器,就能看到那个熟悉的 llama.cpp Web UI:输入问题,模型在本地直接给你回复。这个界面没什么花活,但胜在直观、稳定,一眼就能看懂。模型文件在本机,推理在本机,服务也在本机。

不用云端也能跑 Agent?我们把一张 24GB 的 AI 卡插进了 ARM 小主机图5

我们也记录了一次推理性能。在这次测试里,Qwen3.5-35B-A3B 的端到端输出速度约 30.8 tokens/s,首 token 延迟约 269 ms。对一个跑在 O6N + LQ50 上的本地 35B MoE 模型来说,这个结果已经能让网页对话用得比较顺畅了。

我们也试了试接入主流 Agent

当然,只能聊天还不够。现在大家对 AI 的期待早就不是“你问我答”了,而是 Agent:它能理解任务、写文件、调用工具,最好还能自己跑命令、看报错、再改一轮。

所以我们也尝试把本地模型接进开源 Agent Coding 工具 opencode,把 provider 指到本机的 Ollama/OpenAI 兼容接口 http://127.0.0.1:11434/v1。这样它请求的就不是云端模型,而是 O6N 本机上通过 LQ50 跑起来的模型服务。

我们给了它一个很小的任务:创建一个 hello_agent.py,输出一句 Hello from O6N + LQ50 local Agent!。它确实跑起来了,也能在界面里进入思考、生成内容、尝试写文件。虽然只是个小任务,但整个流程是通的。

不用云端也能跑 Agent?我们把一张 24GB 的 AI 卡插进了 ARM 小主机图6

这次真正跑通的,是一条完整的本地 AI 链路

到这里,我们可以把整条链路串起来看了:

  • O6N v1.2 提供了一台低功耗、接口完整、适合长期运行的 Arm 小主机,还新增了 M.2 扩展接口。
  • LQ50 补上了本地大模型和多模态模型的推理能力。
  • HLAWOllama 把底层硬件能力包装成了熟悉的本地模型服务。
  • llama.cpp Web UI 让你可以直接在浏览器里和模型对话。
  • opencode 这类 Agent 工具,则进一步证明它可以接入更上层的开发者工作流。

这也是这次适配最有意思的地方:它不是在做一台“更大的云端服务器”,而是把本地 AI 需要的几块拼图,刚好放进了一台 Arm 小主机的形态里。

对开发者和硬件玩家来说,这意味着 O6N 不再只是一台能跑 Linux、能接外设的小主机。经过这次适配,它多了一个新方向:成为你的本地 AI 服务器。

你可以在它上面跑本地模型服务,验证不同模型的效果,尝试多模态能力,也可以把它接入自己熟悉的开发工具链,探索端侧 AI 的各种玩法。

本地 AI 还在快速发展。更强的端侧模型、更成熟的工具调用协议、更友好的本地推理栈,都会继续把这件事往前推。但至少现在,O6N v1.2 + LQ50 已经把这条路跑通了。

剩下的,就交给更多模型、更多工具,以及开发者们自己的想象力。


购买信息

Radxa 瑞莎 Orion O6N ARM V9 开源主板 v1.2 版本,预售已经开始。

预计发货时间:2026 年 7 月 15 日左右。

点击阅读原文前往购买页面

不用云端也能跑 Agent?我们把一张 24GB 的 AI 卡插进了 ARM 小主机图7

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI Arm
more
玩了一天AI支付宝,张嘴就能点麦当劳、收能量,超级App开始卷Agent OS了|附邀请码
郝景芳用AI写书没问题,该追问的是这三件事
3亿美元融资、20亿美元估值背后,中国AI应用跑出「产品矩阵」
2万亿AI算力基建的蛋糕怎么分?
上线只活了180天,AI应用层的泡沫被戳破了
消息称第二代 iPhone Air 将补上双摄,2027 年春季发布
AI扩产推高WFE预期,设备龙头进入平台化竞争
库克:内存压力大,苹果将涨价;传 DeepSeek 估值超 4000 亿;联想推 AI 主机 MINI,2999 元 | 极客早知道
腾讯老兵+大厂00后新锐,码上飞想做的不只是AI Coding
高中毕业也能进SK海力士研发部了,AI 时代还要卷文凭吗
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号