为什么全球科技巨头都在押注边缘 AI?

边缘计算社区 2026-03-04 09:00

2025 年初的 CES 上,英伟达连续抛出两条重磅消息:一是号称 920 亿晶体管的 RTX 5090,继续把消费级 GPU 的性能上限往上推;二是体积接近 Mac mini 的个人 AI “超算” Project DIGITS,让“模型能在桌面跑起来”这件事更像现实方案,而不只是宣传语。

 

为什么全球科技巨头都在押注边缘 AI?图2

 

差不多同一时期,白宫管理和预算办公室(OMB)发布了 M-25-21 备忘录,要求联邦机构在“创新、治理与公众信任”的框架下,加快 AI 的采用与管理。这两件事凑在一起,会发现一个共同点:生成式 AI 的重心,正在从单纯依赖云端算力,逐步向终端与边缘延伸。这里的变化不只是“部署位置换一下”,而是产品形态、成本结构、数据流向和责任边界都在跟着重排。

 

趋势背后大概是三股力量:商业侧要更确定的 ROI;治理侧要更清晰的数据边界和问责链条;硬件侧则在把推理能力做小、做省电、做易部署。等到生成式 AI 真正进入日常业务,决定它能不能“活下去”的,往往不是模型演示有多惊艳,而是能不能融进设备、场景和流程,持续跑、稳定跑。

 

为什么全球科技巨头都在押注边缘 AI?图3
为什么全球科技巨头都在押注边缘 AI?图4
推理成本成为主要变量

 

过去几年,行业里有一种默认假设:参数越大、模型越强,效果自然更好。但一旦进入商业场景,评估标准就会从“能不能做到”转向“值不值得做”。

 

在 AI 的全生命周期里,训练(training)更多是阶段性的大额投入;而推理(inference)是持续发生的运营成本,随着调用量、用户规模和业务流程的铺开,这部分支出会迅速抬升,甚至成为主要成本项。

 

微软的纳德拉曾用很直白的方式强调过推理的重要性:模型最终要靠推理被“用起来”。问题在于,推理越被用起来,成本压力就越真实。

 

有数据显示,许多大型企业的 AI 预算中,推理已经占到很高比例,并且在短时间内出现明显上升。对像 OpenAI 这样的公司来说,2024 年至 2025 年三季度,仅在微软 Azure 上的相关支出就高达 124.3 亿美元,接近收入的一半。换句话说,在云端路径下,算力账单会直接决定利润空间。

 

这会逼着企业把账算得更细:当云端调用大模型 API 的费用,逐步接近本地部署“同等能力”的 60%~70% 时,很多团队就会开始重新评估架构选择——哪些请求必须上云、哪些可以下沉到本地或边缘,以获得更稳定的成本结构。一个常见的对比是:

 

 

这里出现的“10 倍级差距”,并不神秘,核心变量往往是小模型(SLM)是否能覆盖主要任务通用大模型更像“全能工具箱”,但很多业务场景并不需要每次都动用最强、最贵的能力。经过特定领域数据与任务调优的 38 亿参数小模型,在一些明确边界的任务上可以达到接近大模型的效果,同时把能耗与计算量压到更可控的水平。

 

所以说,边缘推理这波起来,也不见得是“小就是美”那套叙事,更像是被成本逼出来的一条路——大模型负责秀肌肉,小模型负责养家糊口。因为商业世界不讲情怀,只看规模化的单位成本能不能压得住。

 

为什么全球科技巨头都在押注边缘 AI?图5
为什么全球科技巨头都在押注边缘 AI?图6
硬件侧的变化:NPU 正在成为标配能力

 

如果说小模型是在软件层面把成本压下来,那么 NPU(神经网络处理器)解决的,是终端侧“怎么更高效地把推理跑起来”的问题。

 

过去很长一段时间里,终端算力的分工相对固定:CPU 负责通用计算和系统调度,GPU 擅长并行任务;AI 负载更多是“能跑就行”,并没有成为决定平台能力的核心指标。到了 2025 年,情况明显不同:在手机、PC 等主流终端上,NPU 正在从“加分项”变成“必选项”,甚至开始影响产品的定位和卖点。

 

在移动端,高通、联发科、苹果围绕先进制程与自研架构持续加码。以高通的骁龙 8 Elite 为例,自研 Oryon 架构带来的 CPU 表现提升,让端侧 AI 在性能与能效上更有底气;联发科天玑 9400 则把重点放在更贴近开发者与应用侧的能力上,例如端侧 LoRA 训练/微调的支持——这意味着设备不仅能运行模型,还可能在一定边界内完成个性化适配,让模型更贴合用户的使用习惯与偏好(当然,这也对隐私、资源调度和稳定性提出更高要求)。

 

PC 端的变化更直接。微软为 Copilot+ PC 设定的 40 TOPS NPU 门槛,本质上是在用硬件能力给“本地 AI 体验”划线:不是所有电脑都能被称为“AI PC”。随着这条线成为行业共识,个人电脑的角色也会随之变化——它不再只是把请求转发到云端的入口,而是开始承担更多本地推理任务:更低延迟、更稳定的响应、在弱网或离线时仍可用,并且在部分场景下减少数据出端的需求。

 

说白了,NPU 这波普及,有点像当年给电脑装显卡——现在看着用不上,等游戏出来了再装就晚了。厂商现在把算力先铺进去,赌的就是未来两年会有一批应用长出来,而且只长在有算力的设备上。

 

为什么全球科技巨头都在押注边缘 AI?图7
为什么全球科技巨头都在押注边缘 AI?图8
把数据留在“可控边界”里

 

技术路线怎么选,最后往往绕不开两件事:数据归谁管、出了问题谁负责。

 

边缘 AI 的价值也不只在速度和成本,更现实的一点是:它能让一部分数据处理留在本地或受控环境里,减少数据外流与合规风险。对很多业务来说,这一点往往比性能提升更关键。

 

苹果的“私有云计算”(PCC)可以作为一个参考例子。你在 iPhone 上问 Siri 更复杂的问题时,如果端侧算力不够,确实可能需要把请求交给云端。但 PCC 试图做的,是把“上云”变成一种更受约束的计算扩展,而不是沿用传统公共云那套“数据进来、长期留痕、权限复杂”的模式。

 

PCC 强调的关键点之一是“无状态”处理:请求只用于完成当下这一次任务,尽量不保留与用户相关的长期数据。你可以把它理解成“用完就走”的流程设计——不是靠承诺少存,而是尽量把“该不该存、能不能存”在机制上收紧。

它的做法也很符合苹果一贯的路线:

 

 
当然,这套东西也不是开了金钟罩,但它至少把一件事摆到台面上:数据出去的时候,去了哪、干了啥、谁碰过,得能说清楚。对企业来说,这比“我们很安全”的空头支票管用;对普通用户,也不用靠信仰去信苹果,系统自己就能证明自己。
 

更重要的是,数据主权和隐私不是公关话术能解决的,它最终会落到产品形态上——能不能在本地就处理的尽量本地处理,非得上云的也要把云变得更“可控、可查、可证明”PCC 这种路线,本质上是在把信任写进架构里:不是要求用户相信苹果,而是尽量让系统“即使不被相信,也没那么容易出事”。

 
为什么全球科技巨头都在押注边缘 AI?图9
为什么全球科技巨头都在押注边缘 AI?图10
中国厂商的打法:先把体验做出来

 

国内厂商走的路子不太一样。他们没跟 OpenAI 拼参数大小,而是先想一件事:我现在能拿 AI 做个什么功能,让用户明天就能用上?体验先跑起来,模型、芯片、系统再慢慢适配。说白了,场景推着技术走,不是技术找场景。

 

华为为例,鸿蒙 NEXT 更像是把 AI 能力下沉到系统层,做成一种“公共能力”。很多能力不要求应用自己训练模型,而是通过系统提供的能力组件去实现,比如摘要、翻译、图文处理等。对开发者来说,这种方式的意义在于:不用从头搭一整套 AI 管线,也能把 AI 功能快速嵌进产品里,门槛明显更低。

 

小米的澎湃 OS 2.0 则更强调“跨设备协同”。手机、汽车、全屋设备都有传感器和本地算力,AI 更容易在边缘侧完成感知、触发和部分决策,然后再把复杂任务交给云端或更强的设备。这条路走得通与否,关键不在模型参数,而在系统能不能把设备之间的状态、权限和数据流真正打通。

 

vivo 的蓝心 3B 则是另一种思路:更小的模型、更明确的任务边界,优先把端侧功耗和稳定性压下来。它讲的“功耗优化 46%”本质上是在回答一个更现实的问题——端侧 AI 不是只看效果,还要看电量、发热和持续可用性。

 

把这些放在一起看,会发现一个共同点:国内厂商并没有一味追大参数,而是更在意能不能在自己的生态里形成“可复用的能力”和“可持续的体验”在边缘 AI 这件事上,生态深度和场景覆盖,很可能比“模型有多大”更决定胜负。

 

为什么全球科技巨头都在押注边缘 AI?图11
为什么全球科技巨头都在押注边缘 AI?图12
冷思考:成本变量与碎片化,才是落地的难点

 

但现实也很硬。边缘 AI 要规模化,绕不开供应链与成本波动带来的不确定性。尤其是存储这类关键环节,一旦出现大幅涨价,首先受影响的往往不是旗舰产品,而是出货量最大的中低端市场——消费者换机周期拉长,硬件普及速度放缓,很多“靠装机量跑出来”的新体验会被拖慢。

 

另外一个更棘手的问题是:部署和运维的复杂度会成倍上升云端 AI 更像集中式系统,统一版本、统一监控、统一回滚;而边缘 AI 是分布式系统——不同品牌、不同芯片、不同系统版本、不同网络条件,甚至不同传感器配置都会影响效果。模型更新、兼容性测试、线上故障定位、版本灰度和回滚,每一项都比云端难做。

 

这话说白了:让一台样机跑通 demo,应届生三天就能搞定;让一千万台手机稳定跑半年,不出 bug、不烧 CPU、不耗电翻车,那就是另一回事了。真正卡脖子的不是算法,是工程。

 

为什么全球科技巨头都在押注边缘 AI?图13
为什么全球科技巨头都在押注边缘 AI?图14
写在最后:云与端的分工,会变得更清晰

 

如果换一个更冷静的角度来看,巨头押注边缘 AI,并不是要“把云打掉”,而是在重新划分分工:哪些能力必须集中在云端,哪些能力应该留在边缘设备侧。

 

更可能出现的形态是:

 

 

这种分工带来的好处很实际:体验更稳定、成本更可控、数据边界更清楚。它不一定更“酷”,但更接近可规模化的工程路线。

 

当然,前面提到的存储成本波动、生态碎片化,都会反复影响落地节奏。但算法侧的轻量化趋势(更小模型、更高效推理)和硬件侧的 NPU 普及,已经把方向拉得很明确:AI 会越来越多地出现在终端上,并且以“能长期用、能稳定用”为第一优先级。

 

最后拼的是啥?不是参数大小,也不是发布会上的跑分。就是一件很朴素的事:你的 AI,用户愿不愿意天天用、用着顺不顺手、用久了放不放心。这三件事,少一件都跑不远。
 
如果贵司也在布局边缘 AI,欢迎报名参加 “2026 中国边缘计算 20 强企业排行榜” 评选活动,共同梳理并呈现行业中真正具备落地能力与持续交付的优秀企业。
为什么全球科技巨头都在押注边缘 AI?图15

 

- End -

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
苹果M5系列MacBook Pro/Air发布;微信公布2月朋友圈热度谣言;最高法公布五大网暴典型案例;政协委员建议禁止16岁以下使用社交平台...
MWC围观、OpenClaw屠榜!2026 AI变天:从“陪聊”到“干活”,中国开源模型成全球开发者首选
OpenClaw引爆AI基础设施竞赛,中国大模型厂商借“龙虾”实现商业化跃迁
直面Meta,千问AI眼镜MWC全球发布展台“挤爆”!全能AI助手硬控老外
Block裁员40%引爆AI替代潮:一场精心策划的“去人类化”表演?
豆包月活超2.26亿领跑AI原生应用赛道,用户规模碾压竞品总和
MiniMax上市后首份财报:去年业务净亏17亿,AI产品净增上亿用户,手握百亿现金
为什么全球科技巨头都在押注边缘 AI?
李飞飞World Labs最新判断:AI写完代码,下一步是「写世界」?
MWC 2026|高通:布局AI时代连接与6G商用
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号