智能是留在云端,还是迁移到边缘?答案决定了英伟达、数据中心和 GPU 期货的命运
当今人工智能(AI)的主流叙事是围绕 GPU 构建的。超大规模数据中心和主权实体正在一场全球军备竞赛中争夺英伟达的硬件。
投资者将算力视为我们这个时代的稀缺工业要素。他那一代人中最精明的商品交易员之一唐·威尔逊甚至预测,GPU 期货市场的规模可能在十年内超过石油。
这便是共识观点:GPU 是人工智能经济的石油。
但也存在一种逆向观点。推理,即已训练 AI 模型的日常使用,可能不会一直留在中心化的 GPU 集群中。相反,它可能会迁移到边缘:智能手机、笔记本电脑、汽车、工业传感器。如果这一转变成为现实,它将颠覆“GPU 是 AI 时代标志性商品”这一基本假设。
这个问题并非纸上谈兵。数十亿的资本支出、英伟达的估值,以及 GPU 金融化的整个前提,都取决于这个问题的答案。
人工智能会像石油和天然气一样,永远流经中心化的商品基础设施进行规模化吗?还是会像智能手机一样:无处不在、分布式且个性化?
为什么边缘推理很重要
推理的经济学模型与训练不同。训练是阶段性的、资本密集且中心化的:你需要数千个 GPU 并行运行,以处理海量数据集。而推理是持续的、面向用户的:每一次文本补全、每一次图像识别、每一次语音命令。它是人工智能持续产生的运营成本。
在边缘设备上运行推理解决了几个结构性瓶颈:
延迟: 云端推理需要在网络上进行一次往返。这对于某些任务来说可以容忍,但对于安全关键型或用户体验关键型的任务来说是不可接受的。在本地处理可以实现低于 100 毫秒的响应。 隐私: 本地模型意味着你的语音、文本或摄像头数据不会离开设备。苹果公司已经在这项优势上大力投入。 带宽和成本: 将原始视频或传感器数据发送到云端进行处理成本高昂。在本地完成工作意味着网络只传输结论,而不是数 TB 的原始输入。 能源效率: 数据中心已经消耗了美国个位数百分比的电力。将一小部分推理转移到数十亿高效的边缘 NPU 上,可以分散负载并降低成本。
换句话说,边缘推理并非不切实际的乌托邦。它是对成本、延迟和隐私限制的务实回应。
2025 年的证据
我们已经有确凿的证据表明,大量的推理可以在云端之外运行。
苹果: iOS18 系统搭载了一个约 30 亿参数的模型,运行在 iPhone 15 Pro 的神经网络引擎上。它在本地每秒能生成约 30 个 tokens。这可不是玩具级别的性能,而是一个放在你口袋里的微型 ChatGPT 级助手。 高通: 2023 年,他们演示了 Stable Diffusion 在一部骁龙手机上完全运行,用时不到 20 秒。而此前,人们认为这需要一个 A100 集群才能实现。 开源社区: 像 llama.cpp
这样的项目已经将 Meta 的 LLaMA 和 Mistral 模型压缩到可以在笔记本电脑甚至手机上运行。如今,爱好者们可以在本地运行 70 亿参数的大语言模型,无需云端支持。工业部署: 汽车使用车载计算来实现自动驾驶;工厂摄像头可以实时检测缺陷,而无需将视频流传输到云端;智能音箱在本地处理语音指令。 云服务商的对冲策略: AWS Greengrass、Azure IoT Edge 和 Cloudflare Workers AI 都允许客户将推理推向离用户更近的地方。
这些虽然是早期信号,但在消费、工业和企业场景中,它们都指向同一个方向:推理正在逃离数据中心。
如果边缘推理规模化,会带来哪些变化
数据中心
它们在训练和超大规模推理方面仍然不可或缺。但相对于「一切都将中心化」的叙事,其增长轨迹可能会趋于平缓。如果到 2030 年,边缘计算占到推理总量的 20-30%,那么最乐观的资本支出预测将被削减数万亿美元。
预计会出现一个分层拓扑结构:用于训练的中心化集群,用于处理延迟敏感型工作的区域性站点,以及处理日常推理的数十亿台设备。
英伟达
训练需求是稳固的。侵蚀发生在推理领域。超大规模数据中心正在构建 ASICs(如 Inferentia、TPU、MTIA)以减少对 GPU 的依赖。来自苹果、高通等公司的边缘芯片则占据了消费者推理市场。
英伟达的 GPU 功能强大但价格昂贵、发热量大,且每 18-24 个月就会更新换代。CUDA 在推理领域的主导地位较弱:ONNX 和 PyTorch 的运行时使得将目标转向非 GPU 硬件变得更加容易。英伟达仍然在训练市场占据主导,但推理市场正在碎片化。
金融化
这便是关键所在。唐·威尔逊曾说 GPU 期货的规模可能超过石油。这基于两个假设:可替代性和持久的需求。石油两者都满足,但 GPU 并非如此。
可替代性: 石油的化学成分是相同的;但 GPU 则不同。一个 H100 芯片不等同于一个 GB200,而且两者都将在几年内过时。 持久性: 石油为一个世纪的工业提供了动力;而随着 ASIC 和边缘 NPU 的规模化,GPU 的需求可能在五年内就出现分化。
短期 GPU 期货作为稀缺时期的对冲和投机合约是有意义的。但从长远来看,这个生态系统会变得支离破碎。单一的 GPU 合约无法代表整个算力经济。
预计会出现一个投资组合:训练型 GPU 合约、ASIC 容量互换、边缘计算指数。
展望 2030 年
一个合理的基准预测是:到 2030 年,全球 20-30% 的推理将在边缘设备上运行。
按领域细分:
视觉(消费+工业): 40-60% 在边缘 语音/助手: 30-50% 在边缘(有云端备用方案) 大语言模型聊天/知识: 10-25% 在边缘(小型本地模型,重度查询使用云端) 机器人/车辆: >80% 在边缘(安全关键型)
其余部分仍将留在云端:训练和超大规模推理仍依赖 GPU,但许多常规推理将迁移到定制的 ASIC 上。
这意味着一个金融化的演变路径:
2020 年代末: GPU 期货作为短期容量对冲工具而蓬勃发展。 2030 年代初: 市场碎片化开始显现;GPU 合约失去其基准地位。 未来: 人工智能算力市场将分裂成多种金融工具,没有一种能像石油那样占据主导地位。
值得关注的信号
投资者和运营者应监控以下几点:
设备基准测试: 每一代手机/笔记本电脑是否都能使可运行的模型大小翻倍? 云服务商定位: AWS 和 Azure 是否在市场推广中主打边缘优先的部署方式? ASIC 采纳情况: 亚马逊、谷歌、Meta 将推理任务从 GPU 上转移出去的速度有多快? 隐私法规: 要求本地处理数据的新法律是否会加速边缘化的进程?
这些信号将揭示 GPU 是继续作为标志性商品,还是仅仅成为一个异构化版图中的一部分。
结语
资本正涌入数据中心,仿佛 GPU 就是我们这个时代的石油。唐·威尔逊正在押注 GPU 期货将超越石油。
苹果正在本地运行大语言模型。高通将 Stable Diffusion 搬上了手机。汽车和工厂正在边缘处理数据。甚至连云服务商也在向分布式推理的方向进行对冲。
GPU 期货可以成为 2020 年代末的重磅金融工具。但到了 2030 年代初,算力金融化将走向分裂:GPU 用于训练,ASIC 用于超大规模推理,NPU 用于边缘。单一的、大一统的合约将无法在拓扑结构的转变中幸存。
如果推理迁移到边缘,那么人工智能的拓扑结构就会改变。如果你正在这个领域进行交易,那么策略就很明确了:做多近期的 GPU 稀缺性,逐步积累对 ASIC 和边缘领域的敞口,并摒弃那种认为一个类似石油的基准将在 2030 年代独霸天下的幻想。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!