【科技24时区】美国AI视频生成初创公司Luma AI于本周四正式发布其全新产品“Luma Agents”,该平台旨在实现文本、图像、视频与音频等多模态内容的端到端创意生产。Luma Agents基于公司自研的“统一智能”(Unified Intelligence)模型家族构建,其底层架构依托单一多模态推理系统进行训练,标志着Luma从生成工具向智能工作流系统的战略升级。

据Luma联合创始人兼首席执行官阿米特·贾恩(Amit Jain)介绍,Luma Agents的核心为Uni-1模型——这是“统一智能”系列中的首个基础模型,已接受涵盖音频、视频、图像、语言及空间推理等多维度数据的训练。贾恩向TechCrunch表示,Uni-1模型能够“以语言思考,并以像素或图像进行想象与渲染”,公司将其称为“像素中的智能”(intelligence in pixels)。他同时透露,音频与视频等更复杂的输出能力将在后续模型版本中逐步释放。
Luma Agents被定位为广告公司、营销团队、设计工作室及大型企业的新型生产力工具。该系统不仅能自主规划并生成多模态内容,还可与包括Luma自家的Ray 3.14、谷歌的Veo 3、Nano Banana Pro、字节跳动的Seedream以及ElevenLabs语音模型在内的多种外部AI系统协同工作。贾恩强调:“我们的客户购买的不是某个工具,而是在重新定义业务的运作方式。”
目前,Luma已在其现有客户中启动新平台的部署,合作方包括全球广告集团阳狮集团(Publicis Groupe)与Serviceplan,以及阿迪达斯、马自达和沙特AI公司Humain等品牌。贾恩指出,Luma Agents的关键突破在于其能维持跨资产、跨协作者及多轮创意迭代中的持久上下文,并通过“自我批判—优化”的闭环机制持续提升输出质量。这种“检查—修正”能力,正是此前在编程智能体中已被验证有效的核心逻辑。
贾恩批评当前创意行业使用AI工具的流程仍停留在“提供上百个模型,让用户学习如何写提示词”的初级阶段,缺乏真正的效率跃升。相比之下,Luma Agents无需用户反复调整提示词,而是通过对话式交互引导系统自动生成大量变体,由用户动态调整方向。他以建筑师绘图为例解释:人在绘制建筑线条时,脑中同步构建的是结构、光影、空间关系与体验感的综合表征——这正是“统一智能”所模拟的认知机制。
在实际应用演示中,系统仅凭一段200字的简报和一支口红产品的图片,便自动生成了适用于广告campaign的多个场景、模特及配色方案。更引人注目的是,Luma Agents曾将某品牌耗资1500万美元、周期一年的全球广告项目,在40小时内转化为适配多国市场的本地化版本,总成本不足2万美元,且全部通过该品牌的内部质量与准确性审核。
尽管Luma Agents现已通过API公开开放,但公司计划采取渐进式 rollout 策略,以确保用户获得稳定可靠的服务,避免因高并发导致的工作流中断。此举也反映出Luma在商业化落地过程中对用户体验与系统鲁棒性的高度重视。