10月28日,Akamai 正式发布了 Akamai Inference Cloud 平台。这不仅是一次从数据中心到网络边缘的战略延伸,更是对 AI 应用交付模式的一次根本性重构。

这家老牌 CDN 厂商这次把目标锁定在 AI 推理环节。与英伟达深度合作,将最新的 Blackwell 架构 AI 基础设施 部署到全球边缘节点。目标很明确:让 AI 决策发生在距离用户更近的地方,实现毫秒级响应速度。
1、
从 CDN 到云计算:Akamai 的边缘基因
Akamai 成立于 1998 年,起家靠的是内容分发网络。互联网早期,他们解决的问题很简单——把内容放到离用户近的地方,减少延迟。这个看似简单的理念,帮助互联网实现了真正的全球化扩张。
这个基因延续至今。2022 年收购 Linode 后,Akamai 开始系统性地构建边缘云战略。他们称之为 “Akamai Connected Cloud” ——一个将 25 个核心数据中心与超过 4200 个边缘节点连接起来的分布式平台,这个网络覆盖范围之广,在业界独一无二。
2024 年,公司启动代号 “Gecko” 的计划,代表 “Generalized Edge Compute”(通用边缘计算)。计划很激进:在年底前将支持虚拟机的计算能力部署到 100 座城市,在香港、吉隆坡、墨西哥克雷塔罗、约翰内斯堡等地建立新的边缘计算区域。
这次发布的 Inference Cloud,可以看作是 Gecko 计划在 AI 领域的具体落地,也是 Akamai 对 “下一代互联网基础设施” 的回答。

2、
推理成为瓶颈,边缘成为解法
AI 应用的两个阶段——训练和推理,成本结构正在发生根本性变化。
训练依然需要大规模数据中心,但 推理环节的计算量正在超越训练,成为新的瓶颈。
英伟达创始人黄仁勋的判断很直接:
“推理已经成为 AI 计算密集度最高的阶段,需要在全球范围内进行实时推理。”
传统的集中式推理存在三个关键问题:
第一是延迟问题。 数据要往返数据中心,每次网络往返都在增加时延。对于需要多轮推理的 AI 代理(Agentic AI)来说,这个问题尤其严重。如果每次推理调用都产生网络延迟,整个交互体验会变得缓慢笨拙,根本无法满足机器对机器通信的低延迟要求。
第二是成本问题。 GPU 资源昂贵且稀缺,集中式部署难以按需弹性扩展。更重要的是,数据从云存储到 CDN 分发会产生高额的出口费用(egress cost),这个隐性成本往往被低估。
第三是数据主权问题。 某些场景下,数据不能离开本地区域。金融交易、医疗数据、政府系统等领域,对数据位置有严格的合规要求。

Akamai 的解法是——把推理推到边缘。
这次发布的平台整合了英伟达最新的技术栈:
-
NVIDIA RTX PRO 服务器:搭载 RTX PRO 6000 Blackwell Server Edition GPU,专为边缘推理优化;
-
NVIDIA BlueField-3 DPU:提供数据处理加速与安全隔离,未来还将采用最新的 BlueField-4 DPU;
-
NVIDIA AI Enterprise 软件:包括 NIM(NVIDIA Inference Microservices)微服务,实现标准化的推理部署。
初期将在全球 20 个位置上线,后续将扩展到更多节点。这个部署速度在业界并不常见。
3、
重新定义 AI 应用:从 “AI 工厂” 到边缘智能
Akamai CEO Tom Leighton 博士提出了一个核心概念——“AI 工厂”(AI Factory)。
这是一个编排 AI 全生命周期的系统,从数据摄取到大规模智能创建。传统上,这些 “工厂” 都部署在核心数据中心。
Akamai Inference Cloud 的创新在于:将 AI 工厂扩展到边缘。
通过 Akamai 的大规模分布式边缘位置,实现数据与处理的去中心化,并将请求路由到最佳模型。
这不是简单的负载均衡,而是智能编排层的自动优化:常规推理在边缘通过 NVIDIA NIM 微服务立即执行,复杂推理则调用集中式 AI 工厂。
这种架构特别适合新兴的 “代理式 AI”(Agentic AI) 工作负载——这类系统需要多轮序列推理才能完成复杂任务,对延迟极其敏感。
边缘原生架构提供近乎即时的响应,让 AI 代理以类人的速度运行。
4、
四大应用场景:从理论到实践
Akamai 给出了四个典型场景,每个都指向实际的商业需求。
💡 智能商务:AI 代理的自主决策
传统电商推荐系统是被动响应。边缘 AI 可以做到主动适应:
智能代理根据用户位置、实时行为和购买意图,自主完成谈判、购买和交易优化。
这要求推理在本地完成,不能有明显延迟。
想象一个场景:用户在浏览产品时,AI 代理实时分析停留时间、点击模式、甚至鼠标移动轨迹,在毫秒级内调整推荐策略、价格展示和促销信息。
这种个性化程度,集中式架构根本无法实现。
💰 金融决策:流式推理的价值
金融场景对延迟的容忍度接近于零。欺诈检测系统需要在交易发生的瞬间做出判断,支付系统需要实时验证和加速交易。
AI 代理需要多轮推理才能完成复杂决策,如果每次都要等待数据中心响应,不仅体验糟糕,更可能错失关键时机。
边缘架构让推理几乎即时完成。
🤖 物理 AI:超越人类的反应速度
自动驾驶汽车、工业机器人、智慧城市基础设施——这些 “物理 AI” 系统需要 毫秒级决策精度。
人类反应时间约 200–300 毫秒,但自动驾驶系统需要在 10 毫秒内完成感知、决策与执行。
Akamai Inference Cloud 的目标是让物理 AI 以物理世界的速度运行:处理传感器数据、做出安全决策、协调行动。
⚙️ 降低部署门槛:抽象复杂性
分布式 AI 工作负载的编排极其复杂。开发者需要考虑模型路由、资源调度、数据同步、版本控制与安全隔离。
Akamai 的智能编排层将这些复杂性抽象化,开发者通过统一平台即可管理,系统自动路由任务到最优位置。
边缘 AI 的技术门槛与运维成本因此大幅下降。
5、
边缘推理的经济账
成本永远是关键。Akamai 强调了两大经济优势:
① 降低 GPU 依赖。
通过与 Neural Magic 等公司合作,部分推理工作负载可在 CPU 上高效运行,仅在必要时才调用 VPU 或 GPU。
有客户案例显示,使用 VPU 后编码与转码速度提升 16 倍,将原本几天的处理缩短到数小时。
② 减少数据传输成本。
传统云架构中,从云存储到 CDN 分发的数据出口费用(egress cost)可能占据账单大头。
Akamai 的 Project Cirrus 项目数据显示:自建边缘云后,成本降低 40%,延迟减少 80%。
对于大规模 AI 应用,这样的差距可能决定成败。
6、
行业观察:分布式计算的回归
Tom Leighton 博士指出:
“互联网最初是分布式的,后来被集中化,现在又在重新分布式化。”
这不是简单的技术叙事,而是产业周期的回归。
集中式云计算主导十年后,行业重新审视分布式架构的价值。IDC 研究显示,三分之二的 IT 决策者预计未来一年将显著增加分布式云使用量。
原因很清楚:应用需求变了。
第一代云主要服务后台系统,延迟要求不高;而新一代应用——流媒体、游戏、工业 IoT、自动驾驶——要求毫秒级响应。
集中式架构受限于物理定律,很难满足。
但分布式也带来挑战:运维复杂度、数据一致性、安全隔离等问题亟需系统性解决。
这也是为什么 Akamai 强调:
“我们不是要成为另一个超大规模云,而是以不同方式实现超大规模。”
技术挑战:魔鬼在细节中
愿景美好,但边缘 AI 推理的挑战巨大:
-
模型管理: 如何在数千节点上保持版本一致?如何平滑更新与监控推理质量?
-
资源调度: 不同区域流量差异大,如何动态调配 GPU 资源、平衡成本与性能?
-
数据隐私: 数据分散各地,如何确保安全隔离、满足各国合规要求?
Akamai 通过 NVIDIA BlueField DPU 提供硬件级安全隔离与加密,这为系统稳定性奠定了基础,但仍需时间验证。
7、
结语
从 1998 年至今,Akamai 一直在做一件事——让计算离用户更近。
从静态内容分发到 AI 推理,形式在变,本质未变。
Tom Leighton 的一句话值得铭记:
“下一波 AI 浪潮需要的用户接近性,正是让互联网规模化的关键因素。Akamai 曾解决过这个挑战——现在我们要再做一次。”
Akamai 能否成功,关键在三点:
-
边缘 AI 推理是否成为主流需求;
-
技术能否在规模化运营中保持稳定;
-
经济模型是否足够吸引客户。
时间会给出答案。
但至少现在,Akamai 给出了一个值得关注的方向:
AI 不一定要集中在少数数据中心,它可以,也应该无处不在。