为什么全球科技巨头都在押注边缘 AI？

2025 年初的 CES 上，英伟达连续抛出两条重磅消息：一是号称 920 亿晶体管的 RTX 5090，继续把消费级 GPU 的性能上限往上推；二是体积接近 Mac mini 的个人 AI “超算” Project DIGITS，让“模型能在桌面跑起来”这件事更像现实方案，而不只是宣传语。

差不多同一时期，白宫管理和预算办公室（OMB）发布了 M-25-21 备忘录，要求联邦机构在“创新、治理与公众信任”的框架下，加快 AI 的采用与管理。这两件事凑在一起，会发现一个共同点：生成式 AI 的重心，正在从单纯依赖云端算力，逐步向终端与边缘延伸。这里的变化不只是“部署位置换一下”，而是产品形态、成本结构、数据流向和责任边界都在跟着重排。

趋势背后大概是三股力量：商业侧要更确定的 ROI；治理侧要更清晰的数据边界和问责链条；硬件侧则在把推理能力做小、做省电、做易部署。等到生成式 AI 真正进入日常业务，决定它能不能“活下去”的，往往不是模型演示有多惊艳，而是能不能融进设备、场景和流程，持续跑、稳定跑。

推理成本成为主要变量

过去几年，行业里有一种默认假设：参数越大、模型越强，效果自然更好。但一旦进入商业场景，评估标准就会从“能不能做到”转向“值不值得做”。

在 AI 的全生命周期里，训练（training）更多是阶段性的大额投入；而推理（inference）是持续发生的运营成本，随着调用量、用户规模和业务流程的铺开，这部分支出会迅速抬升，甚至成为主要成本项。

微软的纳德拉曾用很直白的方式强调过推理的重要性：模型最终要靠推理被“用起来”。问题在于，推理越被用起来，成本压力就越真实。

有数据显示，许多大型企业的 AI 预算中，推理已经占到很高比例，并且在短时间内出现明显上升。对像 OpenAI 这样的公司来说，2024 年至 2025 年三季度，仅在微软 Azure 上的相关支出就高达 124.3 亿美元，接近收入的一半。换句话说，在云端路径下，算力账单会直接决定利润空间。

这会逼着企业把账算得更细：当云端调用大模型 API 的费用，逐步接近本地部署“同等能力”的 60%～70% 时，很多团队就会开始重新评估架构选择——哪些请求必须上云、哪些可以下沉到本地或边缘，以获得更稳定的成本结构。一个常见的对比是：

云端大模型：处理 1000 万次调用，月费可能在 15 万到 75 万美元之间。优势是上线快、运维负担小；代价是每一次调用都在叠加可变成本。
边缘/本地轻量模型：在相同调用规模下，成本可能降到 1.5 万到 7.5 万美元。硬件折旧完成后，推理的边际成本会显著降低，更接近“固定成本 + 低变动”。

这里出现的“10 倍级差距”，并不神秘，核心变量往往是小模型（SLM）是否能覆盖主要任务。通用大模型更像“全能工具箱”，但很多业务场景并不需要每次都动用最强、最贵的能力。经过特定领域数据与任务调优的 38 亿参数小模型，在一些明确边界的任务上可以达到接近大模型的效果，同时把能耗与计算量压到更可控的水平。

所以说，边缘推理这波起来，也不见得是“小就是美”那套叙事，更像是被成本逼出来的一条路——大模型负责秀肌肉，小模型负责养家糊口。因为商业世界不讲情怀，只看规模化的单位成本能不能压得住。

硬件侧的变化：NPU 正在成为标配能力

如果说小模型是在软件层面把成本压下来，那么 NPU（神经网络处理器）解决的，是终端侧“怎么更高效地把推理跑起来”的问题。

过去很长一段时间里，终端算力的分工相对固定：CPU 负责通用计算和系统调度，GPU 擅长并行任务；AI 负载更多是“能跑就行”，并没有成为决定平台能力的核心指标。到了 2025 年，情况明显不同：在手机、PC 等主流终端上，NPU 正在从“加分项”变成“必选项”，甚至开始影响产品的定位和卖点。

在移动端，高通、联发科、苹果围绕先进制程与自研架构持续加码。以高通的骁龙 8 Elite 为例，自研 Oryon 架构带来的 CPU 表现提升，让端侧 AI 在性能与能效上更有底气；联发科天玑 9400 则把重点放在更贴近开发者与应用侧的能力上，例如端侧 LoRA 训练/微调的支持——这意味着设备不仅能运行模型，还可能在一定边界内完成个性化适配，让模型更贴合用户的使用习惯与偏好（当然，这也对隐私、资源调度和稳定性提出更高要求）。

PC 端的变化更直接。微软为 Copilot+ PC 设定的 40 TOPS NPU 门槛，本质上是在用硬件能力给“本地 AI 体验”划线：不是所有电脑都能被称为“AI PC”。随着这条线成为行业共识，个人电脑的角色也会随之变化——它不再只是把请求转发到云端的入口，而是开始承担更多本地推理任务：更低延迟、更稳定的响应、在弱网或离线时仍可用，并且在部分场景下减少数据出端的需求。

说白了，NPU 这波普及，有点像当年给电脑装显卡——现在看着用不上，等游戏出来了再装就晚了。厂商现在把算力先铺进去，赌的就是未来两年会有一批应用长出来，而且只长在有算力的设备上。

把数据留在“可控边界”里

技术路线怎么选，最后往往绕不开两件事：数据归谁管、出了问题谁负责。

边缘 AI 的价值也不只在速度和成本，更现实的一点是：它能让一部分数据处理留在本地或受控环境里，减少数据外流与合规风险。对很多业务来说，这一点往往比性能提升更关键。

苹果的“私有云计算”（PCC）可以作为一个参考例子。你在 iPhone 上问 Siri 更复杂的问题时，如果端侧算力不够，确实可能需要把请求交给云端。但 PCC 试图做的，是把“上云”变成一种更受约束的计算扩展，而不是沿用传统公共云那套“数据进来、长期留痕、权限复杂”的模式。

PCC 强调的关键点之一是“无状态”处理：请求只用于完成当下这一次任务，尽量不保留与用户相关的长期数据。你可以把它理解成“用完就走”的流程设计——不是靠承诺少存，而是尽量把“该不该存、能不能存”在机制上收紧。

它的做法也很符合苹果一贯的路线：

硬件级信任根：用硬件安全能力承载密钥与隔离边界，而不是完全交给软件。
可审计性：把关键机制开放给外部安全研究者验证（至少让“能否被检验”成为设计目标）。
最小权限：尽量减少任何人或系统组件接触明文数据的机会，把访问面压到最小。

当然，这套东西也不是开了金钟罩，但它至少把一件事摆到台面上：数据出去的时候，去了哪、干了啥、谁碰过，得能说清楚。对企业来说，这比“我们很安全”的空头支票管用；对普通用户，也不用靠信仰去信苹果，系统自己就能证明自己。

更重要的是，数据主权和隐私不是公关话术能解决的，它最终会落到产品形态上——能不能在本地就处理的尽量本地处理，非得上云的也要把云变得更“可控、可查、可证明”。PCC 这种路线，本质上是在把信任写进架构里：不是要求用户相信苹果，而是尽量让系统“即使不被相信，也没那么容易出事”。

中国厂商的打法：先把体验做出来

国内厂商走的路子不太一样。他们没跟 OpenAI 拼参数大小，而是先想一件事：我现在能拿 AI 做个什么功能，让用户明天就能用上？体验先跑起来，模型、芯片、系统再慢慢适配。说白了，场景推着技术走，不是技术找场景。

以华为为例，鸿蒙 NEXT 更像是把 AI 能力下沉到系统层，做成一种“公共能力”。很多能力不要求应用自己训练模型，而是通过系统提供的能力组件去实现，比如摘要、翻译、图文处理等。对开发者来说，这种方式的意义在于：不用从头搭一整套 AI 管线，也能把 AI 功能快速嵌进产品里，门槛明显更低。

小米的澎湃 OS 2.0 则更强调“跨设备协同”。手机、汽车、全屋设备都有传感器和本地算力，AI 更容易在边缘侧完成感知、触发和部分决策，然后再把复杂任务交给云端或更强的设备。这条路走得通与否，关键不在模型参数，而在系统能不能把设备之间的状态、权限和数据流真正打通。

vivo 的蓝心 3B 则是另一种思路：更小的模型、更明确的任务边界，优先把端侧功耗和稳定性压下来。它讲的“功耗优化 46%”本质上是在回答一个更现实的问题——端侧 AI 不是只看效果，还要看电量、发热和持续可用性。

把这些放在一起看，会发现一个共同点：国内厂商并没有一味追大参数，而是更在意能不能在自己的生态里形成“可复用的能力”和“可持续的体验”。在边缘 AI 这件事上，生态深度和场景覆盖，很可能比“模型有多大”更决定胜负。

冷思考：成本变量与碎片化，才是落地的难点

但现实也很硬。边缘 AI 要规模化，绕不开供应链与成本波动带来的不确定性。尤其是存储这类关键环节，一旦出现大幅涨价，首先受影响的往往不是旗舰产品，而是出货量最大的中低端市场——消费者换机周期拉长，硬件普及速度放缓，很多“靠装机量跑出来”的新体验会被拖慢。

另外一个更棘手的问题是：部署和运维的复杂度会成倍上升。云端 AI 更像集中式系统，统一版本、统一监控、统一回滚；而边缘 AI 是分布式系统——不同品牌、不同芯片、不同系统版本、不同网络条件，甚至不同传感器配置都会影响效果。模型更新、兼容性测试、线上故障定位、版本灰度和回滚，每一项都比云端难做。

这话说白了：让一台样机跑通 demo，应届生三天就能搞定；让一千万台手机稳定跑半年，不出 bug、不烧 CPU、不耗电翻车，那就是另一回事了。真正卡脖子的不是算法，是工程。