AI 的下一个战场:端侧模型崛起

AI科技评论 2025-08-15 17:30
资讯配图


大模型退烧,小模型接棒。



作者丨齐铖湧

编辑丨陈彩娴

资讯配图

过去一段时间,大模型行业经历了一场风切变。

越来越多厂商官宣了自己的小模型成果:8 月初,腾讯官宣“混元系列小模型”落地,不久后,阿里跟进两款通义Qwen3-4B。

起初,大家以为只是国内大厂对轰,互秀肌肉罢了。几天后,剧情愈演愈烈。

大洋彼岸,英伟达研究院和佐治亚理工大学在论文里抛出了一个“暴论”:小语言模型才是未来,在社交媒体上引发了不少讨论。

资讯配图

论文链接:https://arxiv.org/abs/2506.02153v1

不久后, OpenAI 也传来消息,破天荒开源了 GPT-OSS-20B 等两款小尺寸模型。同日,面壁开源最新的4B参数的多模态模型 MiniCPM-V 4.0。

头部玩家们如此整齐划一的举动表明:小模型不再只是囿于算力资源的创业公司的押注;相反,在基础大模型突破愈发艰难的当下,越来越多公司将研发团队的部分战斗力转向小模型,尤其是落地到各个终端设备上的端侧模型。

事实上,面壁智能 CEO 李大海很早就提出:AGI 的实现必然分为云端与终端两条技术路线。只是在云端基础大模型火热比拼的背景下,这一观点很容易被行业喧嚣所湮没。

云端上,DeepSeek 与 Qwen 被誉为国内基础模型的第一梯队,许多厂商与这两家竞争屡屡碰壁。相形之下,终端模型此前玩家甚少。如果你认为这是一个门槛低、技术壁垒低的赛道,转向冲刺端侧小模型,现实或许比你想象得要骨感:

端侧模型是一个广阔的赛道,但并不如大家想象中的技术含量低、竞争更容易。

面壁智能从 2024 年 1 月发表第一款“小钢炮” MiniCPM 1.0 小模型以来,从端侧模型领跑者到今天的端侧模型行业落地先行者,已经走过一年半的时间。他们的探索表明,端侧模型在技术研究上的难点不亚于基础大模型,落地上更是同时受限于算力、功耗、速度要求等因素。

换言之,AI 基础模型无论追求“极大”还是“极小”,都要求扎实的技术积累与持续突破。

资讯配图

01

当小模型走出“论文”世界

事实上,小模型之风并不是今年才掀起:从 2023 年下半年开始,Mistral AI、面壁智能、岩芯数智等团队就已经在开始探索落地到手机、电脑、机器人、汽车等终端设备上的端侧模型。

由于这些端侧模型的参数规模都不大,因此也被业界乃至投资人误以为:这是一个买得起几张卡的高校实验室就能突破的方向,俗称“小模型”。但实际上,模型虽小,要求的技术含量却不小。在去年年中,OpenAI 也发布了 o1-mini 等成果,苹果、DeepSeek、Qwen 团队也陆续发布了相应的小模型。

停留在论文上的小模型,与真正落地到终端设备上的小模型,实际有着“天壤之别”:

主打基础大模型的厂商看似可以“顺手”地在其发布的大模型基础上蒸馏出 7B、8B 尺寸的小模型,并在不同的榜单上取得高分——但这个行为的意义,实际只能表明其论文层面的小模型性能,进而借小模型来佐证大模型的能力、吸引更多的开发者。

当这些小模型要走向终端设备时,还需要经过一段长时间与设备厂商的磨合:从算力、功耗要求、推理速度到断网延迟等等,做模型与设备的适配——而大部分基础模型厂商,并没有足够的时间、资源或魄力去完成这一步。

苹果、三星手机厂商虽有团队探索小模型,但最终也陆续与专门的模型厂商接触,恰说明论文层面开源的小模型难以满足这一需求。

那么,小模型从论文走出、落地到终端设备上的难点是什么呢?

本质上,就是需要戴着镣铐跳舞:对于设备厂商来说,算力、功耗、网络延迟是端侧模型必须适配的要求。许多尝试接触设备厂商的模型团队在这一过程中屡屡碰壁,正是因为无法从技术上解决端侧小模型算力高、功耗高、推理速度慢或多模态能力不足的问题。

以手机厂商为例。单从开源社区上下载开源小模型落地到手机上,虽然满足了手机特有的算力限制,但由于模型尺寸不佳、底层架构没搞好等,即使模型能在手机上跑起来,也会立刻出现“发烫”、“宕机”、“极度耗电”等问题;更别提需要调用云端算力的小模型,一遇到断网就直接“歇菜”。

我们平时生活中使用的手机,平板汽车等设备,都是算力非常有限的设备。

在部署模型时,最关键的两大限制是内存容量和 CPU/GPU 处理速度。云端的高性能服务器通常拥有庞大的内存容量,往往超过 100GB 甚至 1TB,相比之下,手机的内存通常在 12GB 到 16GB 之间,基本无法支撑多模态大模型的部署。

另一方面,智能手机中 CPU 的整体处理速度明显较慢,且据了解,目前专为 AI 时代的终端设备开发的芯片进度仍较缓慢,许多设备用的是前几代的算力。

比如,骁龙 8 Gen3 只有 8 个 CPU 核心,Intel Xeon Platinum 8580 则达到了 60 个 CPU 核心;功效方面,高通 Adreno 750 只有 6 TFLOPS,而 NVIDIA 4090 则可以达到 83 TFLOPS。这意味着,我们的手机,平板,车机,在没有云端服务器支持的情况下,显然无法跑这些动辄几十亿参数的模型。

所以,虽然 3B、7B、8B 这样的小模型在训练算力上的要求不高,往往几张卡就能满足,但是如何在满足算力、设备功耗等基础上、还能保持优异的模型性能,就需要持续的深耕与高含量的技术实力。

面壁智能作为国内端侧模型的佼佼者,能赢得投资人持续支持,并在国内连续两三年的大模型红海竞争中生存下来,占据“端侧第一”的行业心智,正是因为他们确实在小模型技术上“有点东西”。

8月15日,李大海在面壁智能三周年之际发出全员信,信中谈到端侧战略选择背后——“百模大战硝烟弥漫之际,管理团队曾深度自省,大模型同质化竞争严重,面壁的核心竞争力是什么?答案愈辩愈明:高效!我们是天生的效率追求者,自觉地追求‘同等性能我最小,同等参数我最强’,最终带来更快速度、更低成本的端侧模型方案。”

资讯配图

02

当“开拓者”,没那么简单

事实上,从 2023 年国内众多玩家群涌向云端大模型时,面壁智能就已选择 all in 端侧小模型。

面壁智能不仅比阿里通义、腾讯混元更早开启小模型的探索,并且几乎是领先行业一年半的身位。提前一年半的布局,让面壁有不少成果。

模型层面,面壁推出了“小钢炮” MiniCPM 端侧模型系列,2024 年至今完成了四次基础模型的迭代。

2024 年 2 月 1 日,推出 MiniCPM 1.0 旗舰端侧模型,以 2.4 B 参数超越了号称「欧洲版 OpenAI」Mistral 的性能标杆之作 Mistral-7B,甚至领先于更晚推出的 Google Gemma模型。

同时还越级超越 Llama2-13B、ChatGLM3-6B 等知名高性能开源模型。但缺点是它只是纯文本基座。

同一年,MiniCPM 2.0 发布上线,不仅把体量变小一半,还把系列拆成 1.2 B、2B、MoE 8×2B 以及视觉版 MiniCPM-V 2.0,其中 MiniCPM-1.2B 适配了更多落地场景的同时,性能超越了 Llama2-13B,推理速度也达到了人类语速近 25 倍。

资讯配图

2024 年三季度,MiniCPM 3.0 登场。

这一代最大的特色是“以小博大”。凭借 4B 的模型,打平甚至超越 GPT-3.5-Turbo 与 Phi-3.5-mini,还在端侧能做到无限长文本,这意味着,端侧模型的“ ChatGPT 时代 ”来临了。

MiniCPM4.0 是在今年推出的,这一代不仅做到了 5% 的原生极高稀疏度,实现推理常规 5 倍加速,最关键的是,让长文本、深思考在端侧真正跑起来,宣告了端侧长文本时代到来。

四次迭代,面壁智能的端侧模型体积越来越小,上下文越来越长,能力越来越全,部署越来越轻。

最近发布的 4B 参数的多模态模型MiniCPM-V 4.0 ,在 OpenCompass 等多个榜单取得同级 SOTA ,还得益于独特的模型结构设计,实现了同尺寸模型下最快的首响时间与更低的显存占用,真正做到了稳定运行、快速响应,在手机上长时间连续使用无发热、无卡顿。

MiniCPM-V 4.0模型链接:

Hugging Face: 

🔗 https://huggingface.co/openbmb/MiniCPM-V-4

Github:

🔗 https://github.com/OpenBMB/MiniCPM-o

上个月 Nature 子刊《Nature Communications》正式收录了面壁智能此前发布的一项关于新模型 MiniCPM-V 的研究成果系列,其中就包括一个 OpenCompass 评分中超越 GPT-4V(2023.11.16 版本)的 80 亿参数模型。

开源方面,面壁智能的小钢炮 MiniCPM 系列是 2024 年 Hugging Face 最多下载、最受欢迎的中国大模型,截至目前全平台下载量累计破 1300 万。

除去技术和学术等层面,真正能让大家直观感受的,还是落地到现实世界的场景。

面壁内部信显示,MiniCPM 模型作为「端侧大脑」的核心,已经在汽车、手机、PC、家居等终端领域落地生根。

特别是汽车场景,面壁智能在打造智能化汽车的新一代人机交互(AI座舱)方面,形成了特色优势。面壁发布了一个以 MiniCPM 模型为核心的汽车助手 cpmGO——据 AI 科技评论了解,这是业界第一个纯端侧的智能座舱。

cpmGO有三个特点:

快准稳——91%执行准确率,交互流畅

纯本地——数据不离车,毫秒级响应

全场景——无惧弱网断网

能做到这样的特性,背后是与高通、英特尔、联发科技、梧桐车联、德赛西威、中科创达、安波福等在内的十几家主流芯片厂商方案的适配与优化。

资讯配图

据了解,目前面壁已经与长安、上汽大众、长城、吉利、广汽等车企达成合作。搭载端侧模型的第一款量产车会在今年三季度上市,型号是网红车款长安马自达 MAZDA EZ-60。

资讯配图

内部信披露,在7月下旬的组织升级中,面壁专门成立了“汽车业务线”,推动下一代智能座舱压强式突破,目标非常直接:“将MiniCPM 搭载到更多汽车上”。

对于如何看待升温的端侧智能战场,李大海在信中也做出了回应:“压力当然存在,但并非来自友商竞争。恰恰相反,更多创业公司和巨头涌入,印证了我们选择赛道的正确性与前景的无限可能。更多参与者,必将带来市场加速成长,让我们能更早实现‘为每台设备装上大脑’的端侧愿景。端侧场景也足够丰富和分散,容得下众多参与者各自找到发展的商业价值。”

面壁真正的压力,是要在新入局者还在追赶面壁技术优势时,把商业优势更快地建立起来,转化为商业成功,这需要我们极致追求技术与用户价值的平衡。在有限的端侧硬件环境中,我们已经高效地把模型跑起来,还要聪明地把模型技能点都「点」在用户需求的「睛」上,创造出云端模型无法替代的差异化用户体验。”

资讯配图
资讯配图
//

推荐阅读

资讯配图

离开优必选的日子


资讯配图

腾讯 Robotics X 无战事

资讯配图

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
谷歌在上海办了场 AI 嘉年华,开发者们却说像逛「AI 基地」
用AI帮中小企业傻瓜式获客,这个营销Agent收入每月增长150%
AirPods重大更新,又要颠覆行业?
【报告】AI专题五:2025台湾产业AI化大调查暨AI落地指引(附PDF下载)
【报告】AI专题二:中文大模型基准测评2025年上半年报告(附PDF下载)
华人AI编程独角兽估值突破700亿!每周工作超80小时
To B 领域第一批吃 AI 螃蟹的人,复盘了「AI 落地」的真相和方法论
追剧不断网,可能背后有个AI在加班,故障诊断准度破91.79%
哈曼AudioworX集成赛轮思音频AI全面提升车载体验
扎克伯格看OpenAI直播挖人,北大校友孙之清加入Meta
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号