Memories.ai携手英伟达打造AI视觉记忆基础设施，剑指可穿戴设备与机器人市场

【科技24时区】Memories.ai创始人沈俊潇（Shawn Shen）认为，人工智能若要在物理世界中真正发挥作用，必须具备“记住所见”的能力。为此，其公司正借助英伟达的AI工具，构建面向可穿戴设备与机器人领域的视觉记忆基础设施。

在3月17日举行的英伟达GTC大会上，Memories.ai宣布与这家半导体巨头达成合作。根据协议，该公司将利用英伟达的Cosmos-Reason 2推理型视觉语言模型，以及用于视频搜索与摘要的Metropolis应用平台，持续优化其视觉记忆技术。沈俊潇向TechCrunch表示，他与联合创始人兼首席技术官周恩民（Ben Zhou）最初是在开发Meta旗下Ray-Ban智能眼镜的AI系统时，意识到这一技术缺口的存在。

当时他们发现，如果用户无法回溯和调用所录制的视频数据，这类设备在真实生活中的实用性将大打折扣。二人随即调研市场，却未找到任何专注于为AI构建视觉记忆能力的解决方案。于是，他们于2024年从Meta离职，创立Memories.ai，致力于填补这一空白。“AI在数字世界已经表现优异，但在物理世界呢？”沈俊潇强调，“可穿戴设备和机器人同样需要记忆……最终，AI必须拥有视觉记忆。我们坚信这样的未来。”

值得注意的是，尽管AI“记忆”能力近年来才逐渐兴起——OpenAI于2024年为ChatGPT引入聊天记忆功能并于2025年优化，xAI和Google Gemini也相继推出各自的记忆工具——但这些进展主要聚焦于文本记忆。沈俊潇指出，文本结构化程度高、易于索引，却难以满足以视觉为主要交互方式的物理AI应用需求。

Memories.ai自2024年成立以来，已累计融资1600万美元，包括2025年7月完成的800万美元种子轮融资及其后续800万美元扩展轮。本轮融资由Susa Ventures领投，Seedcamp、Fusion Fund和Crane Venture Partners等机构参投。

沈俊潇表示，构建有效的视觉记忆层需攻克两大核心：一是建立能将视频嵌入并索引为可存储、可召回数据格式的基础设施；二是采集足够高质量的训练数据。为此，公司内部开发了名为LUCI的硬件设备，由专职“数据采集员”佩戴，用于录制训练模型所需的视频素材。他强调，公司无意成为硬件厂商，亦不计划对外销售LUCI，仅因市售录像设备过度追求高清画质与高功耗格式，无法满足其对效率与实用性的要求。

2025年7月，Memories.ai发布其大型视觉记忆模型（LVMM）。沈俊潇称，该模型可类比为本月早些时候发布的Gemini Embedding 2的轻量版本，后者是一种多模态索引与检索模型。今年初，公司进一步推出LVMM 2.0，并已与高通达成合作，将于2026年下半年起在高通处理器上原生运行。

目前，Memories.ai已与多家头部可穿戴设备厂商展开合作，但出于商业保密考虑暂未披露具体名单。沈俊潇坦言，尽管当前已有初步市场需求，但他更看好未来在可穿戴设备与机器人领域的爆发潜力。“在商业化方面，我们现阶段更聚焦于模型与基础设施本身，因为我们相信可穿戴与机器人市场终将到来，只是时机尚未成熟。”