英伟达万亿市值最大变数出现｜AI推理正从云端大举迁往边缘，苹果、高通在边缘侧引爆推理革命，云端vs边缘，谁是万亿赛道的终极答案？

当今人工智能（AI）的主流叙事是围绕 GPU 构建的。超大规模数据中心和主权实体正在一场全球军备竞赛中争夺英伟达的硬件。

投资者将算力视为我们这个时代的稀缺工业要素。他那一代人中最精明的商品交易员之一唐·威尔逊甚至预测，GPU 期货市场的规模可能在十年内超过石油。

这便是共识观点：GPU 是人工智能经济的石油。

但也存在一种逆向观点。推理，即已训练 AI 模型的日常使用，可能不会一直留在中心化的 GPU 集群中。相反，它可能会迁移到边缘：智能手机、笔记本电脑、汽车、工业传感器。如果这一转变成为现实，它将颠覆“GPU 是 AI 时代标志性商品”这一基本假设。

这个问题并非纸上谈兵。数十亿的资本支出、英伟达的估值，以及 GPU 金融化的整个前提，都取决于这个问题的答案。

人工智能会像石油和天然气一样，永远流经中心化的商品基础设施进行规模化吗？还是会像智能手机一样：无处不在、分布式且个性化？

为什么边缘推理很重要

推理的经济学模型与训练不同。训练是阶段性的、资本密集且中心化的：你需要数千个 GPU 并行运行，以处理海量数据集。而推理是持续的、面向用户的：每一次文本补全、每一次图像识别、每一次语音命令。它是人工智能持续产生的运营成本。

在边缘设备上运行推理解决了几个结构性瓶颈：

延迟： 云端推理需要在网络上进行一次往返。这对于某些任务来说可以容忍，但对于安全关键型或用户体验关键型的任务来说是不可接受的。在本地处理可以实现低于 100 毫秒的响应。
隐私： 本地模型意味着你的语音、文本或摄像头数据不会离开设备。苹果公司已经在这项优势上大力投入。
带宽和成本： 将原始视频或传感器数据发送到云端进行处理成本高昂。在本地完成工作意味着网络只传输结论，而不是数 TB 的原始输入。
能源效率： 数据中心已经消耗了美国个位数百分比的电力。将一小部分推理转移到数十亿高效的边缘 NPU 上，可以分散负载并降低成本。

换句话说，边缘推理并非不切实际的乌托邦。它是对成本、延迟和隐私限制的务实回应。

我们已经有确凿的证据表明，大量的推理可以在云端之外运行。

苹果： iOS18 系统搭载了一个约 30 亿参数的模型，运行在 iPhone 15 Pro 的神经网络引擎上。它在本地每秒能生成约 30 个 tokens。这可不是玩具级别的性能，而是一个放在你口袋里的微型 ChatGPT 级助手。
高通： 2023 年，他们演示了 Stable Diffusion 在一部骁龙手机上完全运行，用时不到 20 秒。而此前，人们认为这需要一个 A100 集群才能实现。
开源社区： 像 llama.cpp 这样的项目已经将 Meta 的 LLaMA 和 Mistral 模型压缩到可以在笔记本电脑甚至手机上运行。如今，爱好者们可以在本地运行 70 亿参数的大语言模型，无需云端支持。
工业部署： 汽车使用车载计算来实现自动驾驶；工厂摄像头可以实时检测缺陷，而无需将视频流传输到云端；智能音箱在本地处理语音指令。
云服务商的对冲策略： AWS Greengrass、Azure IoT Edge 和 Cloudflare Workers AI 都允许客户将推理推向离用户更近的地方。