【K230@LLAMA 系列】手把手教你基于 llama.cpp 部署 Qwen-0.5B 到 K230

嘉楠开发者 2026-02-27 08:00



首先由衷感谢 PLCT 实验室的重磅贡献,让 llama.cpp 正式实现了对 RISC-V 128 位向量扩展(RVV)的原生支持,为 RISC-V 架构在 AI 推理加速领域的发展筑牢了关键技术基础,也让 K230 这类搭载 RVV 128 位扩展的 RISC-V 硬件,能充分释放 llama.cpp 框架下的大模型推理算力!


参考文档:


而在边缘设备上部署运行小参数量大语言模型(LLM),正是 AI 技术落地普惠的核心方向与未来趋势。相较于云端大模型部署,边缘端小参数量 LLM 无需依赖高带宽网络,可实现本地实时推理、数据隐私本地留存,完美适配工业物联网、智能安防、端侧智能硬件等对延迟和数据安全有高要求的场景;同时小参数量模型对硬件资源需求更低,能在 K230 这类轻量级边缘计算硬件上高效运行,大幅降低 AI 落地的硬件成本与部署门槛。


本次我们带来K230@LLAMA系列实操教程,依托llama.cpp轻量化推理框架,手把手教你在K230上跑通Qwen-2.5-0.5B模型,借助RVV加速充分释放硬件算力,实现轻量大模型的端侧运行!


受限于 K230 的 CPU 硬件资源,当前模型推理速度仍有一定提升空间;但我们坚信,随着大模型技术的持续迭代优化,会有更多针对边缘场景量身打造的轻量专用大模型问世,而 K230 凭借 RVV 128 位向量加速、轻量化硬件适配性的核心优势,正是这类边缘轻量模型落地部署的优质载体,能完美匹配各类边缘端 AI 场景的落地需求!



scp qwen2.5-0.5b/qwen2.5-0.5b-instruct-q8_0.gguf root@10.100.228.216:~/  #复制q8模型到设备;
[root@canaan ~ ]#llama-cli -m qwen2.5-0.5b-instruct-q8_0.gguf
Loading model...

▄▄ ▄▄██ ████ ██  ▀▀█▄ ███▄███▄  ▀▀█▄    ▄████ ████▄ ████▄██ ██ ▄█▀██ ██ ██ ██ ▄█▀██    ██    ██ ██ ██ ████ ██ ▀█▄██ ██ ██ ██ ▀█▄██ ██ ▀████ ████▀ ████▀                                    ██    ██                                    ▀▀    ▀▀
build      : b582-f5fd827model      : qwen2.5-0.5b-instruct-q8_0.ggufmodalities : text
available commands:  /exit or Ctrl+C     stop or exit  /regen              regenerate the last response  /clear              clear the chat history  /read               add a text file

> hello,123+234=?
你好!123+234=357
[ Prompt: 3.1 t/s | Generation: 2.2 t/s ]


核心前提:

K230 RVV加速的核心优势

K230搭载的RISC-V架构原生支持RVV向量指令集,本次部署中我们在llama.cpp编译环节开启RVV相关配置,让模型推理过程充分利用硬件向量加速能力,相比普通编译方式,大幅提升Qwen-2.5-0.5B模型的推理效率,兼顾端侧部署的轻量化与实时性。


要在 K230 上成功运行 llama.cpp,需对相关系统配置、编译参数等进行针对性调整适配。为了兼顾不同开发者的需求,我们准备了两种实操方案:若你想快速验证部署效果,直接参考第二部分的快速部署步骤,下载镜像烧录即可快速上手;若你需要自定义编译适配、深度开发调试,可参考第三部分进阶操作,完成从环境配置到源码编译的全流程操作。


快速部署步骤:

一键跑通Qwen-2.5-0.5B

本教程为快速实操版,我们提供了定制化镜像,已完成内核调整、llama.cpp预编译,直接烧录即可上手,无需繁琐的环境配置。



步骤1:烧录定制化镜像到K230开发板

本次适配2GB颗粒的K230 01Studio 开发板,需烧录定制镜像。


下载链接:

http://kendryte-download.canaan-creative.com/developer/k230/sysimage-sdcard.img.gz


【K230@LLAMA 系列】手把手教你基于 llama.cpp 部署 Qwen-0.5B 到 K230图1



镜像核心修改说明

  1. 内核内存优化:调整mmz内存分配,将内存主要分给CPU,修改文件buildroot-overlay/board/canaan/k230-soc/fragment/linux_cam.fragment,配置为CONFIG_CMA_SIZE_PERCENTAGE=5;


  1. 预集成llama.cpp:已完成编译的llama.cpp工具集存放于开发板/usr/bin目录,可直接调用。



步骤2:下载GGUF格式Qwen-2.5-0.5B模型并传输至开发板

  1. 从Hugging Face下载Qwen-2.5-0.5B的GGUF格式模型(推荐q8_0量化版本,兼顾精度与推理速度);

【K230@LLAMA 系列】手把手教你基于 llama.cpp 部署 Qwen-0.5B 到 K230图2
  1. 通过scp命令将模型文件传输至K230开发板,示例命令:

scp qwen2.5-0.5b/qwen2.5-0.5b-instruct-q8_0.gguf root@10.100.228.216:~/

(注:需替换为你的开发板实际IP地址)



步骤3:启动模型并进行交互推理

  1. 开发板系统启动后,登录Linux系统,输入用户名为root,无密码


  2. 执行推理命令,加载模型并启动交互:

llama-cli -m ../qwen2.5-0.5b-instruct-q8_0.gguf


  1. 模型加载完成后,即可输入问题进行交互,示例效果:

> hello,1+1=?Hello! The answer to 1+1 is 2.[ Prompt: 3.1 t/s | Generation: 2.1 t/s ]


  1. 常用交互指令:

/exit 或 Ctrl+C:停止/退出模型交互

/regen:重新生成上一个问题的回复

/clear:清空聊天历史

/read:添加文本文件进行推理


进阶操作:llama.cpp源码下载

与K230定制化编译

若你需要基于源码编译llama.cpp(适配K230 RVV加速),可按照以下步骤操作,核心需开启GGML_RVV相关配置,充分利用K230的RVV向量加速能力。



底包编译

git clone git@github.com:kendryte/k230_linux_sdk.git;cd k230_linux_sdk;echo"BR2_PACKAGE_LLAMA_CPP=y" >> buildroot-overlay/configs/k230_canmv_01studio_defconfig;make k230_canmv_01studio_defconfig;make linux-dirclean;make;

模型补充:HF格式

Qwen-2.5-0.5B转换为GGUF格式

若你下载的是Hugging Face上的原生HF格式Qwen-2.5-0.5B模型,需先转换为llama.cpp支持的GGUF格式,步骤如下:


  1. 从Hugging Face下载HF格式模型:https://huggingface.co/Qwen/Qwen2.5-0.5B/tree/main


  2. 安装模型转换所需依赖:

pip3 install -r requirements/requirements-convert_hf_to_gguf.txt


  1. 执行转换脚本,将HF模型转为GGUF格式:

./convert_hf_to_gguf.py qwen2.5-0.5b/


教程总结

本次教程依托K230的RISC-V RVV向量加速能力,结合llama.cpp轻量化推理框架,实现了Qwen-2.5-0.5B轻量大模型在K230端侧的快速部署与运行。定制化镜像让新手可一键上手,进阶编译步骤则满足了个性化开发需求,全程充分发挥了K230在RISC-V端侧大模型部署的硬件优势。


欢迎大家积极尝试不同模型进行实操体验,将你的部署心得、实测效果分享至问答社区~ 我们会从中甄选优质分享内容,为创作者送上礼品!


勘智问答社区:

https://www.kendryte.com/answer/


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
黑石领投6亿美元,印度AI基础设施初创Neysa加速部署超2万块GPU
美众议院通过法案:未经美国许可,远程使用GPU即是违法!
英特尔将推全新GPU,由新任高管团队主导AI芯片战略转型
GPU-Z 2.69.0版发布,全面支持摩尔线程MTT S30等多款新显卡
港股“国产GPU第一股”来了,市值1000亿
刚刚,壁仞科技敲钟上市!GPU在手订单超12亿,拿下多个国产第一
深度拆解沐曦MXMACA软件栈功能,算力自主+生态兼容,破解国产GPU落地难题
刚刚,上海GPU龙头上市,开盘涨超31%,市值484亿
高通GPU负责人跳槽英特尔!
燧原科技IPO虽迟但到,“国产GPU四小龙”凑齐资本牌桌
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号