【K230@LLAMA 系列】手把手教你基于 llama.cpp 部署 Qwen-0.5B 到 K230

首先由衷感谢 PLCT 实验室的重磅贡献，让 llama.cpp 正式实现了对 RISC-V 128 位向量扩展（RVV）的原生支持，为 RISC-V 架构在 AI 推理加速领域的发展筑牢了关键技术基础，也让 K230 这类搭载 RVV 128 位扩展的 RISC-V 硬件，能充分释放 llama.cpp 框架下的大模型推理算力！

参考文档：

而在边缘设备上部署运行小参数量大语言模型（LLM），正是 AI 技术落地普惠的核心方向与未来趋势。相较于云端大模型部署，边缘端小参数量 LLM 无需依赖高带宽网络，可实现本地实时推理、数据隐私本地留存，完美适配工业物联网、智能安防、端侧智能硬件等对延迟和数据安全有高要求的场景；同时小参数量模型对硬件资源需求更低，能在 K230 这类轻量级边缘计算硬件上高效运行，大幅降低 AI 落地的硬件成本与部署门槛。

本次我们带来K230@LLAMA系列实操教程，依托llama.cpp轻量化推理框架，手把手教你在K230上跑通Qwen-2.5-0.5B模型，借助RVV加速充分释放硬件算力，实现轻量大模型的端侧运行！

受限于 K230 的 CPU 硬件资源，当前模型推理速度仍有一定提升空间；但我们坚信，随着大模型技术的持续迭代优化，会有更多针对边缘场景量身打造的轻量专用大模型问世，而 K230 凭借 RVV 128 位向量加速、轻量化硬件适配性的核心优势，正是这类边缘轻量模型落地部署的优质载体，能完美匹配各类边缘端 AI 场景的落地需求！

scp qwen2.5-0.5b/qwen2.5-0.5b-instruct-q8_0.gguf root@10.100.228.216:~/  #复制q8模型到设备；
[root@canaan ~ ]#llama-cli -m qwen2.5-0.5b-instruct-q8_0.gguf
Loading model...

▄▄ ▄▄██ ████ ██  ▀▀█▄ ███▄███▄  ▀▀█▄    ▄████ ████▄ ████▄██ ██ ▄█▀██ ██ ██ ██ ▄█▀██    ██    ██ ██ ██ ████ ██ ▀█▄██ ██ ██ ██ ▀█▄██ ██ ▀████ ████▀ ████▀                                    ██    ██                                    ▀▀    ▀▀
build      : b582-f5fd827model      : qwen2.5-0.5b-instruct-q8_0.ggufmodalities : text
available commands:  /exit or Ctrl+C     stop or exit  /regen              regenerate the last response  /clear              clear the chat history  /read               add a text file

> hello,123+234=?
你好!123+234=357
[ Prompt: 3.1 t/s | Generation: 2.2 t/s ]

一

核心前提：

K230 RVV加速的核心优势

K230搭载的RISC-V架构原生支持RVV向量指令集，本次部署中我们在llama.cpp编译环节开启RVV相关配置，让模型推理过程充分利用硬件向量加速能力，相比普通编译方式，大幅提升Qwen-2.5-0.5B模型的推理效率，兼顾端侧部署的轻量化与实时性。

要在 K230 上成功运行 llama.cpp，需对相关系统配置、编译参数等进行针对性调整适配。为了兼顾不同开发者的需求，我们准备了两种实操方案：若你想快速验证部署效果，直接参考第二部分的快速部署步骤，下载镜像烧录即可快速上手；若你需要自定义编译适配、深度开发调试，可参考第三部分进阶操作，完成从环境配置到源码编译的全流程操作。

二

快速部署步骤：

一键跑通Qwen-2.5-0.5B

本教程为快速实操版，我们提供了定制化镜像，已完成内核调整、llama.cpp预编译，直接烧录即可上手，无需繁琐的环境配置。

步骤1：烧录定制化镜像到K230开发板

本次适配2GB颗粒的K230 01Studio 开发板，需烧录定制镜像。

下载链接：

http://kendryte-download.canaan-creative.com/developer/k230/sysimage-sdcard.img.gz

【K230@LLAMA 系列】手把手教你基于 llama.cpp 部署 Qwen-0.5B 到 K230图1

镜像核心修改说明

内核内存优化：调整mmz内存分配，将内存主要分给CPU，修改文件buildroot-overlay/board/canaan/k230-soc/fragment/linux_cam.fragment，配置为CONFIG_CMA_SIZE_PERCENTAGE=5；

预集成llama.cpp：已完成编译的llama.cpp工具集存放于开发板/usr/bin目录，可直接调用。

步骤2：下载GGUF格式Qwen-2.5-0.5B模型并传输至开发板

从Hugging Face下载Qwen-2.5-0.5B的GGUF格式模型（推荐q8_0量化版本，兼顾精度与推理速度）；

【K230@LLAMA 系列】手把手教你基于 llama.cpp 部署 Qwen-0.5B 到 K230图2

通过scp命令将模型文件传输至K230开发板，示例命令：

scp qwen2.5-0.5b/qwen2.5-0.5b-instruct-q8_0.gguf root@10.100.228.216:~/

（注：需替换为你的开发板实际IP地址）

步骤3：启动模型并进行交互推理

开发板系统启动后，登录Linux系统，输入用户名为root，无密码
执行推理命令，加载模型并启动交互：

llama-cli -m ../qwen2.5-0.5b-instruct-q8_0.gguf

模型加载完成后，即可输入问题进行交互，示例效果：

> hello,1+1=?Hello! The answer to 1+1 is 2.[ Prompt: 3.1 t/s | Generation: 2.1 t/s ]

常用交互指令：

/exit 或 Ctrl+C：停止/退出模型交互

/regen：重新生成上一个问题的回复

/clear：清空聊天历史

/read：添加文本文件进行推理

三

进阶操作：llama.cpp源码下载

与K230定制化编译

若你需要基于源码编译llama.cpp（适配K230 RVV加速），可按照以下步骤操作，核心需开启GGML_RVV相关配置，充分利用K230的RVV向量加速能力。

底包编译

git clone git@github.com:kendryte/k230_linux_sdk.git;cd k230_linux_sdk;echo"BR2_PACKAGE_LLAMA_CPP=y" >> buildroot-overlay/configs/k230_canmv_01studio_defconfig;make k230_canmv_01studio_defconfig;make linux-dirclean;make;

四

模型补充：HF格式

Qwen-2.5-0.5B转换为GGUF格式

若你下载的是Hugging Face上的原生HF格式Qwen-2.5-0.5B模型，需先转换为llama.cpp支持的GGUF格式，步骤如下：

从Hugging Face下载HF格式模型：https://huggingface.co/Qwen/Qwen2.5-0.5B/tree/main
安装模型转换所需依赖：

pip3 install -r requirements/requirements-convert_hf_to_gguf.txt

执行转换脚本，将HF模型转为GGUF格式：

./convert_hf_to_gguf.py qwen2.5-0.5b/

五

教程总结

本次教程依托K230的RISC-V RVV向量加速能力，结合llama.cpp轻量化推理框架，实现了Qwen-2.5-0.5B轻量大模型在K230端侧的快速部署与运行。定制化镜像让新手可一键上手，进阶编译步骤则满足了个性化开发需求，全程充分发挥了K230在RISC-V端侧大模型部署的硬件优势。

欢迎大家积极尝试不同模型进行实操体验，将你的部署心得、实测效果分享至问答社区～我们会从中甄选优质分享内容，为创作者送上礼品！

勘智问答社区：

https://www.kendryte.com/answer/