推理提速15倍、成本直降95%！北大系创企端出4B模型，叫板DeepSeek-V3.2

推理提速15倍、成本直降95%！北大系创企端出4B模型，叫板DeepSeek-V3.2图1 🤖头图由AI生成

单张显卡就能跑。

作者 | 王涵

编辑 | 冰倩

智东西3月25日报道，今天，北大系AI编程创企硅心科技（aiXcoder）推出轻量级模型aiX-apply-4B，该模型支持256K上下文，参数量仅4B，一张消费级显卡即可部署。

该模型适用于企业级的代码修改场景，可自动识别修改意图、定位目标区域、保持原有格式与上下文结构，并将修改后代码应用到原始文件中。

基准测试方面，aiX-apply模型在Python、Java、JavaScript、C++等主流编程语言，以及JSON、Markdown等多类型文件格式的测试中，平均准确率达到93.8%，超越Qwen3-4B基座模型62.6%的准确度，甚至高于千亿级大模型DeepSeek-V3.2。

推理提速15倍、成本直降95%！北大系创企端出4B模型，叫板DeepSeek-V3.2图3

▲基准测试对比

在企业级生产环境实测中，aiX-apply模型在单卡RTX 4090上即可运行，推理速度每秒可达2000 tokens，对比DeepSeek-V3.2则需要在八卡H200环境下部署。同一任务场景下，aiX-apply模型算力成本仅为DeepSeek-V3.2的5%，推理速度则提升15倍。

在技术上，代码合并任务以“复述原文+局部修改”为主，存在大量可复用文本片段，aiXcoder团队引入自适应投机采样技术，通过更轻量的机制预判重复片段，压缩了端到端延迟时间。

01.

准确性和稳定性均比肩DeepSeek V3.2

在超长代码文件的精确编辑和跨语言环境下的代码理解与生成等场景中，aiX-apply模型都有良好的范式泛化能力。

aiXcoder团队结合真实应用场景设计了泛化性的测评维度，包括随机替换代码边界占位符、处理超长序列代码、在不完整的代码文件中进行局部编辑，以及引入训练数据中占比极低甚至未显式覆盖的编程语言。

结果表明，aiX-apply模型通过专门的强化学习训练，在多维度泛化性测评场景中，其准确性和稳定性可以与DeepSeek V3.2比肩。