2025 年初的 CES 上,英伟达连续抛出两条重磅消息:一是号称 920 亿晶体管的 RTX 5090,继续把消费级 GPU 的性能上限往上推;二是体积接近 Mac mini 的个人 AI “超算” Project DIGITS,让“模型能在桌面跑起来”这件事更像现实方案,而不只是宣传语。

差不多同一时期,白宫管理和预算办公室(OMB)发布了 M-25-21 备忘录,要求联邦机构在“创新、治理与公众信任”的框架下,加快 AI 的采用与管理。这两件事凑在一起,会发现一个共同点:生成式 AI 的重心,正在从单纯依赖云端算力,逐步向终端与边缘延伸。这里的变化不只是“部署位置换一下”,而是产品形态、成本结构、数据流向和责任边界都在跟着重排。
趋势背后大概是三股力量:商业侧要更确定的 ROI;治理侧要更清晰的数据边界和问责链条;硬件侧则在把推理能力做小、做省电、做易部署。等到生成式 AI 真正进入日常业务,决定它能不能“活下去”的,往往不是模型演示有多惊艳,而是能不能融进设备、场景和流程,持续跑、稳定跑。


过去几年,行业里有一种默认假设:参数越大、模型越强,效果自然更好。但一旦进入商业场景,评估标准就会从“能不能做到”转向“值不值得做”。
在 AI 的全生命周期里,训练(training)更多是阶段性的大额投入;而推理(inference)是持续发生的运营成本,随着调用量、用户规模和业务流程的铺开,这部分支出会迅速抬升,甚至成为主要成本项。
微软的纳德拉曾用很直白的方式强调过推理的重要性:模型最终要靠推理被“用起来”。问题在于,推理越被用起来,成本压力就越真实。
有数据显示,许多大型企业的 AI 预算中,推理已经占到很高比例,并且在短时间内出现明显上升。对像 OpenAI 这样的公司来说,2024 年至 2025 年三季度,仅在微软 Azure 上的相关支出就高达 124.3 亿美元,接近收入的一半。换句话说,在云端路径下,算力账单会直接决定利润空间。
这会逼着企业把账算得更细:当云端调用大模型 API 的费用,逐步接近本地部署“同等能力”的 60%~70% 时,很多团队就会开始重新评估架构选择——哪些请求必须上云、哪些可以下沉到本地或边缘,以获得更稳定的成本结构。一个常见的对比是:
-
云端大模型:处理 1000 万次调用,月费可能在 15 万到 75 万美元之间。优势是上线快、运维负担小;代价是每一次调用都在叠加可变成本。
-
边缘/本地轻量模型:在相同调用规模下,成本可能降到 1.5 万到 7.5 万美元。硬件折旧完成后,推理的边际成本会显著降低,更接近“固定成本 + 低变动”。
这里出现的“10 倍级差距”,并不神秘,核心变量往往是小模型(SLM)是否能覆盖主要任务。通用大模型更像“全能工具箱”,但很多业务场景并不需要每次都动用最强、最贵的能力。经过特定领域数据与任务调优的 38 亿参数小模型,在一些明确边界的任务上可以达到接近大模型的效果,同时把能耗与计算量压到更可控的水平。
所以说,边缘推理这波起来,也不见得是“小就是美”那套叙事,更像是被成本逼出来的一条路——大模型负责秀肌肉,小模型负责养家糊口。因为商业世界不讲情怀,只看规模化的单位成本能不能压得住。


如果说小模型是在软件层面把成本压下来,那么 NPU(神经网络处理器)解决的,是终端侧“怎么更高效地把推理跑起来”的问题。
过去很长一段时间里,终端算力的分工相对固定:CPU 负责通用计算和系统调度,GPU 擅长并行任务;AI 负载更多是“能跑就行”,并没有成为决定平台能力的核心指标。到了 2025 年,情况明显不同:在手机、PC 等主流终端上,NPU 正在从“加分项”变成“必选项”,甚至开始影响产品的定位和卖点。
在移动端,高通、联发科、苹果围绕先进制程与自研架构持续加码。以高通的骁龙 8 Elite 为例,自研 Oryon 架构带来的 CPU 表现提升,让端侧 AI 在性能与能效上更有底气;联发科天玑 9400 则把重点放在更贴近开发者与应用侧的能力上,例如端侧 LoRA 训练/微调的支持——这意味着设备不仅能运行模型,还可能在一定边界内完成个性化适配,让模型更贴合用户的使用习惯与偏好(当然,这也对隐私、资源调度和稳定性提出更高要求)。
PC 端的变化更直接。微软为 Copilot+ PC 设定的 40 TOPS NPU 门槛,本质上是在用硬件能力给“本地 AI 体验”划线:不是所有电脑都能被称为“AI PC”。随着这条线成为行业共识,个人电脑的角色也会随之变化——它不再只是把请求转发到云端的入口,而是开始承担更多本地推理任务:更低延迟、更稳定的响应、在弱网或离线时仍可用,并且在部分场景下减少数据出端的需求。
说白了,NPU 这波普及,有点像当年给电脑装显卡——现在看着用不上,等游戏出来了再装就晚了。厂商现在把算力先铺进去,赌的就是未来两年会有一批应用长出来,而且只长在有算力的设备上。


技术路线怎么选,最后往往绕不开两件事:数据归谁管、出了问题谁负责。
边缘 AI 的价值也不只在速度和成本,更现实的一点是:它能让一部分数据处理留在本地或受控环境里,减少数据外流与合规风险。对很多业务来说,这一点往往比性能提升更关键。
苹果的“私有云计算”(PCC)可以作为一个参考例子。你在 iPhone 上问 Siri 更复杂的问题时,如果端侧算力不够,确实可能需要把请求交给云端。但 PCC 试图做的,是把“上云”变成一种更受约束的计算扩展,而不是沿用传统公共云那套“数据进来、长期留痕、权限复杂”的模式。
PCC 强调的关键点之一是“无状态”处理:请求只用于完成当下这一次任务,尽量不保留与用户相关的长期数据。你可以把它理解成“用完就走”的流程设计——不是靠承诺少存,而是尽量把“该不该存、能不能存”在机制上收紧。
它的做法也很符合苹果一贯的路线:
-
硬件级信任根:用硬件安全能力承载密钥与隔离边界,而不是完全交给软件。
-
可审计性:把关键机制开放给外部安全研究者验证(至少让“能否被检验”成为设计目标)。
-
最小权限:尽量减少任何人或系统组件接触明文数据的机会,把访问面压到最小。
更重要的是,数据主权和隐私不是公关话术能解决的,它最终会落到产品形态上——能不能在本地就处理的尽量本地处理,非得上云的也要把云变得更“可控、可查、可证明”。PCC 这种路线,本质上是在把信任写进架构里:不是要求用户相信苹果,而是尽量让系统“即使不被相信,也没那么容易出事”。


国内厂商走的路子不太一样。他们没跟 OpenAI 拼参数大小,而是先想一件事:我现在能拿 AI 做个什么功能,让用户明天就能用上?体验先跑起来,模型、芯片、系统再慢慢适配。说白了,场景推着技术走,不是技术找场景。
以华为为例,鸿蒙 NEXT 更像是把 AI 能力下沉到系统层,做成一种“公共能力”。很多能力不要求应用自己训练模型,而是通过系统提供的能力组件去实现,比如摘要、翻译、图文处理等。对开发者来说,这种方式的意义在于:不用从头搭一整套 AI 管线,也能把 AI 功能快速嵌进产品里,门槛明显更低。
小米的澎湃 OS 2.0 则更强调“跨设备协同”。手机、汽车、全屋设备都有传感器和本地算力,AI 更容易在边缘侧完成感知、触发和部分决策,然后再把复杂任务交给云端或更强的设备。这条路走得通与否,关键不在模型参数,而在系统能不能把设备之间的状态、权限和数据流真正打通。
vivo 的蓝心 3B 则是另一种思路:更小的模型、更明确的任务边界,优先把端侧功耗和稳定性压下来。它讲的“功耗优化 46%”本质上是在回答一个更现实的问题——端侧 AI 不是只看效果,还要看电量、发热和持续可用性。
把这些放在一起看,会发现一个共同点:国内厂商并没有一味追大参数,而是更在意能不能在自己的生态里形成“可复用的能力”和“可持续的体验”。在边缘 AI 这件事上,生态深度和场景覆盖,很可能比“模型有多大”更决定胜负。


但现实也很硬。边缘 AI 要规模化,绕不开供应链与成本波动带来的不确定性。尤其是存储这类关键环节,一旦出现大幅涨价,首先受影响的往往不是旗舰产品,而是出货量最大的中低端市场——消费者换机周期拉长,硬件普及速度放缓,很多“靠装机量跑出来”的新体验会被拖慢。
另外一个更棘手的问题是:部署和运维的复杂度会成倍上升。云端 AI 更像集中式系统,统一版本、统一监控、统一回滚;而边缘 AI 是分布式系统——不同品牌、不同芯片、不同系统版本、不同网络条件,甚至不同传感器配置都会影响效果。模型更新、兼容性测试、线上故障定位、版本灰度和回滚,每一项都比云端难做。
这话说白了:让一台样机跑通 demo,应届生三天就能搞定;让一千万台手机稳定跑半年,不出 bug、不烧 CPU、不耗电翻车,那就是另一回事了。真正卡脖子的不是算法,是工程。


如果换一个更冷静的角度来看,巨头押注边缘 AI,并不是要“把云打掉”,而是在重新划分分工:哪些能力必须集中在云端,哪些能力应该留在边缘设备侧。
更可能出现的形态是:
-
云端 继续做训练、知识沉淀、复杂推理和统一治理;
-
边缘 承担低延迟交互、离线可用、隐私敏感数据的本地处理,以及更贴近场景的个性化适配。
这种分工带来的好处很实际:体验更稳定、成本更可控、数据边界更清楚。它不一定更“酷”,但更接近可规模化的工程路线。
当然,前面提到的存储成本波动、生态碎片化,都会反复影响落地节奏。但算法侧的轻量化趋势(更小模型、更高效推理)和硬件侧的 NPU 普及,已经把方向拉得很明确:AI 会越来越多地出现在终端上,并且以“能长期用、能稳定用”为第一优先级。

- End -