Day 0 详细操作指南!基于 openEuler 和 vLLM Ascend,教你快速上手 GLM-5.2

OpenAtom openEuler 2026-06-17 22:00
Day 0 详细操作指南!基于 openEuler 和 vLLM Ascend,教你快速上手 GLM-5.2图1

2026年6月17日,智谱新一代旗舰基础模型GLM-5.2正式上线并开源。作为GLM系列迭代升级的重磅基座模型,GLM-5.2在上下文长度、代码能力、长程任务、智能体任务等领域实现全方位突破,从“答得好”走向“干得久”。 GLM-5.2 在前端开发、后端架构及长程任务等核心场景的成功率上,相比前一代 GLM-5.1 实现了全面提升,在处理复杂系统工程与深度调试时展现出更高的稳定性。在主流编程基准测试中,GLM-5.2 持续保持开源模型 SOTA(最优)地位,其综合能力已与海外顶尖模型 Claude Opus 4.8 处于同一可比区间。



Day 0 详细操作指南!基于 openEuler 和 vLLM Ascend,教你快速上手 GLM-5.2图2


vLLM 是 PyTorch Foundation 下的开源 LLM 推理引擎,为用户和开发者提供快速、易用的 LLM 推理能力,vLLM-Ascend 提供了 vLLM 对昇腾的支持。本指南将帮助你使用 OpenAtom openEuler(简称:“openEuler”或“开源欧拉”)和 vLLM Ascend 在昇腾上运行GLM-5.2。



Day 0 详细操作指南!基于 openEuler 和 vLLM Ascend,教你快速上手 GLM-5.2图3


本指南将采用 vLLM Ascend 的容器镜像启动方式,在昇腾 Atlas 800 A3 (128G × 8) 节点上运行GLM-5.2。


Day 0 详细操作指南!基于 openEuler 和 vLLM Ascend,教你快速上手 GLM-5.2图4



步骤一:确保昇腾驱动正常安装



在拉起容器前,请先确保昇腾驱动已经正常安装,可使用 npu-smi info 命令进行查看。




步骤二:下载模型权重



GLM-5.2-w8a8(Quantized version):

https://modelers.cn/models/Eco-Tech/GLM-5.2-w8a8





步骤三:拉起vLLM Ascend容器运行环境



使用如下命令拉起 vLLM Ascend 容器运行环境:


Update --device according to your device (Atlas A3:/dev/davinci[0-15]).Update the vllm-ascend image according to your environment.Note you should download the weight to /root/.cache in advance.export IMAGE=quay.io/ascend/vllm-ascend:glm5.2-a3-openeulerexport NAME=vllm-ascendRun the container using the defined variablesNoteIf you are running bridge network with docker, please expose available ports for multiple nodes communication in advancedocker run --rm \--privileged \--name $NAME \--net=host \--shm-size=1g \--device /dev/davinci0 \--device /dev/davinci1 \--device /dev/davinci2 \--device /dev/davinci3 \--device /dev/davinci4 \--device /dev/davinci5 \--device /dev/davinci6 \--device /dev/davinci7 \--device /dev/davinci8 \--device /dev/davinci9 \--device /dev/davinci10 \--device /dev/davinci11 \--device /dev/davinci12 \--device /dev/davinci13 \--device /dev/davinci14 \--device /dev/davinci15 \--device /dev/davinci_manager \--device /dev/devmm_svm \--device /dev/hisi_hdc \-/usr/local/dcmi:/usr/local/dcmi \-/usr/local/Ascend/driver/tools/hccn_tool:/usr/local/Ascend/driver/tools/hccn_tool \-/usr/local/bin/npu-smi:/usr/local/bin/npu-smi \-/usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \-/usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \-/etc/ascend_install.info:/etc/ascend_install.info \-/root/.cache:/root/.cache \-it $IMAGE bash



步骤四:在容器环境内部署推理服务



# 将通信算子展开到AI Vector Coreexport HCCL_OP_EXPANSION_MODE="AIV"# 设置 HCCL 通信缓冲区大小export HCCL_BUFFSIZE=200# 禁用OpenMP线程绑定export OMP_PROC_BIND=false# 将OpenMP线程数设置为1export OMP_NUM_THREADS=1# 启用torch-npu动态内存段扩展export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True# 启用PD阶段负载均衡export VLLM_ASCEND_BALANCE_SCHEDULING=1# 启用MLAPO优化export VLLM_ASCEND_ENABLE_MLAPO=1# 显式指定vLLM版本export VLLM_VERSION=0.21.0vllm serve /root/.cache/modelscope/hub/models/vllm-ascend/GLM-5.2-w8a8 \--host 0.0.0.0 \--port 8077 \--data-parallel-size 2 \--tensor-parallel-size 8 \--enable-expert-parallel \--seed 1024 \--served-model-name glm-52 \--max-num-seqs 48 \--max-model-len 20480 \--max-num-batched-tokens 4096 \--trust-remote-code \--gpu-memory-utilization 0.95 \--quantization ascend \--async-scheduling \--additional-config '{"enable_npugraph_ex": true,"fuse_muls_add":true,"multistream_overlap_shared_expert":true}' \--compilation-config '{"cudagraph_mode""FULL_DECODE_ONLY"}' \--speculative-config '{"num_speculative_tokens"3"method""deepseek_mtp"}'



步骤五:验证



待服务启动后,通过curl命令发送请求来验证是否部署成功。


curl http://127.0.0.1:8077/v1/chat/completions \    -H "Content-Type: application/json" \    -d '{       "model""glm-52",       "messages": [           {              "role""user",              "content""Who are you?"            }        ],        "max_completion_tokens"256,        "temperature"0     }'


-END-


供稿 | 陈智超、周韦彤、周栋、曹梦晴

编辑 | 丘云

校审 | 郑振宇、刘彦飞




关注我们,了解更多




Day 0 详细操作指南!基于 openEuler 和 vLLM Ascend,教你快速上手 GLM-5.2图5

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
openEuler
more
openEuler 携手麒麟软件,落地「已知问题分析智能 Agent 」并规模化引入生产场景,开启智能运维全新范式
服务器全天待命,飞书 Agent 秒响应:OpenClaw 在 openEuler 上的容器化部署指南
开源燎原 共筑中间件新生态 东方通&openEuler Meetup走进西安电子科技大学
openEuler社区AI漏洞修复平台:通过PatchFlow Agent完成内核CVE漏洞修复
openEuler 社区 2026 年 3 月运作报告
openEuler 即将亮相 2026 中国国际金融展,参会亮点抢先看
从 openEuler 兼容性测试看 RISC-V 软件生态协同缺口
openEuler 24.03 LTS SP3 RISC-V 版本正式进入长期维护阶段
活动回顾 | openEuler AI 与操作系统融合创新 Meetup 北京站圆满举办!
openEuler Agentic安全纵深防御方案: 让用户敢用和放心地使用Agent
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号