前几天一个做产品的朋友给我发截图,是某品牌新机的卖点页——"AI 算力 45 TOPS"几个字写得贼大,下面一行小字:"端云协同"。他问我:这俩词分别什么意思?他做产品做了七八年。连他都没整明白。这事挺说明问题的——端侧 AI 是这两年被提得最多的概念之一,但真讲明白的,没几个。我们社区聊端侧 AI 也快聊一年了,今天干脆一次写完,争取让普通人看得懂、产品经理能听出门道、投资人能拍得了板。 01先说清楚:以前也有端侧 AI,但和今天不是一回事 端侧 AI(On-device AI),意思就是 AI 模型跑在你手里那台设备上,不联网也能用。人脸解锁、相册按人脸归类、汽车的车道偏离预警,全算。这些十年前就有。但那些都是"专用小模型"——就干一件事,写死的,做不了别的。今天讲的端侧 AI 不是这种。它是把你在 ChatGPT 上用的那种大模型,塞进你口袋里手机上。能写邮件、能看图说话、能跨 App 帮你订机票。这事三年前在工程师圈里都没人敢公开讨论。7B、3B 量级的生成式模型,对芯片、内存、散热的要求高到离谱。结果 2024 年下半年,它就真发生了。 02为什么偏偏是这两年 被问得最多的就是这个。答案有点反常识——其实就是三件事凑到了一块。硬件够了。苹果 M 系列的统一内存、高通骁龙 8 Gen 3、联发科天玑 9300+,NPU 算力终于撑得起一个 7B 模型。两年前还是 PPT 概念,今年已经在消费者手里。顺带说一句,功耗和散热也终于压下来了——现在跑一次推理,手机不会再烫到能煎蛋。模型瘦了。这个更夸张——Llama 3.2 的 1B 和 3B、Phi-3 mini、Qwen2.5 1.5B,量化加蒸馏之后,效果能逼近一年前的 70B。换句话说,一年前得调云端才能干的活,现在塞个 1G 多的文件进手机就行。最后一件最反常识:云端算不起。大模型 API 现在看着便宜,1M tokens 几块钱。可你想一下——苹果要把 AI 内置进 iOS,全球十几亿台设备,每个人每天唤起十几次,这账算出来是天文数字。苹果不可能白干,更不可能让用户为"帮我润色一条短信"另开订阅。算来算去,只剩一条路:绝大部分请求挪回设备本地,云端只兜底最难的那 10%。所以端侧不是什么技术情怀,是被钱逼出来的产业选择。这一点我觉得行业讨论得严重不够。 03大多数文章把端侧 AI 的价值讲错了 现在媒体讲端侧 AI 几乎都在讲一件事:省钱。"原本在云端的挪到本地了,省云算力。"——这话不能说错,但格局太小。真正值钱的地方,是它能做云端做不到的事。最关键的一点,是"个人上下文"。你的聊天记录、相册、备忘录、邮件、健康数据、银行账单,全在你手机里。这些东西你愿意它们离开设备、传到 OpenAI 的服务器上吗?大部分人不愿意。可一个真正"懂你"的 AI 助手,前提就是它得看到这些数据。云端 AI 永远绕不过这个矛盾。端侧 AI 不用——因为它本来就在你设备上,根本不需要"传"。延迟是第二件。500 毫秒和 50 毫秒不是同一种产品。文本对话你感觉不出来,但 AI 眼镜的实时翻译、车载语音、AR、机器人控制,这点差就是生与死。再就是离线。地铁、隧道、飞机、信号烂的山区,云端 AI 直接掉线,端侧照常用。对车厂这个尤其要命——车机语音在隧道里听不懂话,是产品事故。三件事串起来你会发现:端侧 AI 不是"廉价版云端 AI"。它撑起的是另一种东西,叫"个人 AI"——一个真正属于你、了解你、永远在线的助手。这件事,云端从架构上就给不了。 04这些事端侧 AI 还干不了 先泼盆冷水。端侧 AI 也不是万能。长文档分析、上万字写作、复杂多步推理、高质量视频生成——这些活今天的端侧模型干不了,三年内大概率也干不了。知识更新也是个问题:端侧模型一旦烧进设备就是静态的,问它最新的新闻、最新的财报,照样歇菜。所以下面讲的场景都有一个共性:高频、小活、要快、涉及个人数据。脏活累活还得云端兜着。 05三个已经在跑的场景 讲点看得见摸得着的。这些不是 PPT,是 2025 到 2026 年的现状。手机的系统级 AI。Apple Intelligence、华为盘古、小米澎湃 AI、vivo 蓝心、OPPO AndesGPT——所有手机大厂都在做同一件事:把 AI 做成系统能力,而不是塞一个 App。长按一段文字,系统直接润色翻译总结;拍了张照片,AI 帮你消除路人。背后大部分是端侧小模型在跑。这一波"AI 手机"真的不是噱头,它确实在改变交互。汽车的智能座舱。这块比手机还猛。理想、小鹏、问界、蔚来都已经把端侧大模型塞进车机系统了。隧道、地库、信号烂的山路,语音助手照样听得懂"我有点冷"、"放点抒情的"、"导航去刚才那个加油站"。再往前一步是辅助驾驶——多模态端侧模型实时处理摄像头数据、做行为预测,这部分根本不能等云端。AI 眼镜。Meta 和 Ray-Ban 合作那副,大概是过去两年最有意思的硬件。能看能听能翻译,关键计算都在本地。它的意义远远超过"一副眼镜"。它意味着 AI 终于可以离开手机了——开始往耳机、手表、戒指、胸针上长。每一个原本"算力不够"的设备,都可以重新做一遍。这个市场未来三年大概会冒出一批新的硬件公司,而且都不会以"手机厂"的形式出现。最后顺带提一句,To B 那边其实更猛——工厂端侧质检、医院影像辅诊、农业虫情识别,这些场景对成本和延迟敏感到云端根本不是选项。但媒体爱讲消费品故事,所以这块的进展长期被低估。我们社区里做工业 AI 的读者其实占了不小比例,回头单独写一篇详细聊。 06别再争"端侧 vs 云端"了,问题本身就提错了 到今天还有人在争"端侧会不会取代云端"。每次看到都想叹气。答案早就清楚了:端云协同。简单的、高频的、涉及隐私的、要求实时的,端侧搞定。复杂的、需要海量知识的、要跑大推理的,云端兜底。中间一层"路由"决定每个请求该去哪。举个例子:你跟手机说"帮我把昨晚拍的猫整理成相册",识别和归类是端侧干的;接着说一句"再写段配文发朋友圈",文案这活就被路由甩给了云端。一句话里两边各干一半,用户感觉不到切换。苹果的 Private Cloud Compute 就是这套。Google 的 Gemini Nano + Gemini Pro 也一样。头部公司都已经表过态,没什么悬念。真正的悬念在另一个地方——能玩端云协同的前提,是你端侧得跑得起来。如果你只会调云端 API,连入场资格都没有。门票变了。这是这一波最容易被低估的事。 07机会在哪里? 落地说点实在的。普通人这边,好消息是你的设备会越来越懂你,而且不需要你把数据交出去。隐私和体验第一次有机会同时变好。另外,那些原来要订阅才能用的 AI 功能,会慢慢变成"设备自带"。钱包会松一点。不信你试试:把手机调到飞行模式,再让它"总结一下这段文字"——如果还能用,那就是端侧在跑。企业这边稍微残酷一点。原本"调一个 API 就完事"的产品架构要被推翻。哪些放端、哪些放云、模型怎么选、推理怎么调、隐私边界怎么划——全是新东西,全得自己想。如果你公司 AI 战略还停留在"等大模型公司更新",那基本就是在被动等死。这一轮的红利,藏在产品架构的重构里,不在更牛的模型里。创业者反而机会最多。我们大概看出来三个方向。一个是端侧工具链。模型压缩、量化、跨硬件部署、端云路由这些基建活,大公司不会全做,留给小团队的口子不小。做对了天花板很高。一个是垂直行业的端侧应用。医疗影像、工业质检、智能家居本地大脑、教育硬件、儿童玩具、宠物用品——每个领域里都有一个"端侧 AI 加持"的新物种没被做出来。重点是先找一个云端没法满足的真实痛点,然后再把端侧能力嫁接上去。顺序很重要,反过来基本做不成。最后一个是端云协同的中间层。做那个"智能路由"、做"端云分工管理"工具的人,未来三五年坐的就是下一代 AI 基础设施的位置。这块目前没什么人占。做边缘计算社区这么多年,我从没像最近两年这样明确地感觉到行业重心在挪。AI 的故事,正在从"云上"往"边上"悄悄走。云不会消失。但未来三五年,一款 AI 产品能不能出圈,关键已经不是"模型多大",而是"模型离用户多近"。端侧 AI 这事,2024 年讲是趋势,2025 年讲是赛道,2026年今年再讲,已经是基本盘。今年还没把"端侧"两个字想明白的,明年就要交学费了。