scp qwen2.5-0.5b/qwen2.5-0.5b-instruct-q8_0.gguf root@10.100.228.216:~/ #复制q8模型到设备;[root@canaan ~ ]#llama-cli -m qwen2.5-0.5b-instruct-q8_0.ggufLoading model...▄▄ ▄▄██ ████ ██ ▀▀█▄ ███▄███▄ ▀▀█▄ ▄████ ████▄ ████▄██ ██ ▄█▀██ ██ ██ ██ ▄█▀██ ██ ██ ██ ██ ████ ██ ▀█▄██ ██ ██ ██ ▀█▄██ ██ ▀████ ████▀ ████▀██ ██▀▀ ▀▀build : b582-f5fd827model : qwen2.5-0.5b-instruct-q8_0.ggufmodalities : textavailable commands:/exit or Ctrl+C stop or exit/regen regenerate the last response/clear clear the chat history/read add a text file> hello,123+234=?你好!123+234=357[ Prompt: 3.1 t/s | Generation: 2.2 t/s ]
核心前提:
K230 RVV加速的核心优势
K230搭载的RISC-V架构原生支持RVV向量指令集,本次部署中我们在llama.cpp编译环节开启RVV相关配置,让模型推理过程充分利用硬件向量加速能力,相比普通编译方式,大幅提升Qwen-2.5-0.5B模型的推理效率,兼顾端侧部署的轻量化与实时性。
要在 K230 上成功运行 llama.cpp,需对相关系统配置、编译参数等进行针对性调整适配。为了兼顾不同开发者的需求,我们准备了两种实操方案:若你想快速验证部署效果,直接参考第二部分的快速部署步骤,下载镜像烧录即可快速上手;若你需要自定义编译适配、深度开发调试,可参考第三部分进阶操作,完成从环境配置到源码编译的全流程操作。
快速部署步骤:
一键跑通Qwen-2.5-0.5B
本教程为快速实操版,我们提供了定制化镜像,已完成内核调整、llama.cpp预编译,直接烧录即可上手,无需繁琐的环境配置。
步骤1:烧录定制化镜像到K230开发板
本次适配2GB颗粒的K230 01Studio 开发板,需烧录定制镜像。
下载链接:
http://kendryte-download.canaan-creative.com/developer/k230/sysimage-sdcard.img.gz

镜像核心修改说明
内核内存优化:调整mmz内存分配,将内存主要分给CPU,修改文件buildroot-overlay/board/canaan/k230-soc/fragment/linux_cam.fragment,配置为CONFIG_CMA_SIZE_PERCENTAGE=5;
预集成llama.cpp:已完成编译的llama.cpp工具集存放于开发板/usr/bin目录,可直接调用。
步骤2:下载GGUF格式Qwen-2.5-0.5B模型并传输至开发板
从Hugging Face下载Qwen-2.5-0.5B的GGUF格式模型(推荐q8_0量化版本,兼顾精度与推理速度);

通过scp命令将模型文件传输至K230开发板,示例命令:
scp qwen2.5-0.5b/qwen2.5-0.5b-instruct-q8_0.gguf root@10.100.228.216:~/(注:需替换为你的开发板实际IP地址)
步骤3:启动模型并进行交互推理
开发板系统启动后,登录Linux系统,输入用户名为root,无密码
执行推理命令,加载模型并启动交互:
llama-cli -m ../qwen2.5-0.5b-instruct-q8_0.gguf模型加载完成后,即可输入问题进行交互,示例效果:
> hello,1+1=?Hello! The answer to 1+1 is 2.[ Prompt: 3.1 t/s | Generation: 2.1 t/s ]
常用交互指令:
/exit 或 Ctrl+C:停止/退出模型交互
/regen:重新生成上一个问题的回复
/clear:清空聊天历史
/read:添加文本文件进行推理
进阶操作:llama.cpp源码下载
与K230定制化编译
若你需要基于源码编译llama.cpp(适配K230 RVV加速),可按照以下步骤操作,核心需开启GGML_RVV相关配置,充分利用K230的RVV向量加速能力。
底包编译
git clone git@github.com:kendryte/k230_linux_sdk.git;cd k230_linux_sdk;echo"BR2_PACKAGE_LLAMA_CPP=y" >> buildroot-overlay/configs/k230_canmv_01studio_defconfig;make k230_canmv_01studio_defconfig;make linux-dirclean;make;
模型补充:HF格式
Qwen-2.5-0.5B转换为GGUF格式
若你下载的是Hugging Face上的原生HF格式Qwen-2.5-0.5B模型,需先转换为llama.cpp支持的GGUF格式,步骤如下:
从Hugging Face下载HF格式模型:https://huggingface.co/Qwen/Qwen2.5-0.5B/tree/main
安装模型转换所需依赖:
pip3 install -r requirements/requirements-convert_hf_to_gguf.txt执行转换脚本,将HF模型转为GGUF格式:
./convert_hf_to_gguf.py qwen2.5-0.5b/教程总结
本次教程依托K230的RISC-V RVV向量加速能力,结合llama.cpp轻量化推理框架,实现了Qwen-2.5-0.5B轻量大模型在K230端侧的快速部署与运行。定制化镜像让新手可一键上手,进阶编译步骤则满足了个性化开发需求,全程充分发挥了K230在RISC-V端侧大模型部署的硬件优势。
欢迎大家积极尝试不同模型进行实操体验,将你的部署心得、实测效果分享至问答社区~ 我们会从中甄选优质分享内容,为创作者送上礼品!
勘智问答社区:
https://www.kendryte.com/answer/