
【科技24时区】Memories.ai创始人沈俊潇(Shawn Shen)认为,人工智能若要在物理世界中真正发挥作用,必须具备“记住所见”的能力。为此,其公司正借助英伟达的AI工具,构建面向可穿戴设备与机器人领域的视觉记忆基础设施。
在3月17日举行的英伟达GTC大会上,Memories.ai宣布与这家半导体巨头达成合作。根据协议,该公司将利用英伟达的Cosmos-Reason 2推理型视觉语言模型,以及用于视频搜索与摘要的Metropolis应用平台,持续优化其视觉记忆技术。沈俊潇向TechCrunch表示,他与联合创始人兼首席技术官周恩民(Ben Zhou)最初是在开发Meta旗下Ray-Ban智能眼镜的AI系统时,意识到这一技术缺口的存在。
当时他们发现,如果用户无法回溯和调用所录制的视频数据,这类设备在真实生活中的实用性将大打折扣。二人随即调研市场,却未找到任何专注于为AI构建视觉记忆能力的解决方案。于是,他们于2024年从Meta离职,创立Memories.ai,致力于填补这一空白。“AI在数字世界已经表现优异,但在物理世界呢?”沈俊潇强调,“可穿戴设备和机器人同样需要记忆……最终,AI必须拥有视觉记忆。我们坚信这样的未来。”
值得注意的是,尽管AI“记忆”能力近年来才逐渐兴起——OpenAI于2024年为ChatGPT引入聊天记忆功能并于2025年优化,xAI和Google Gemini也相继推出各自的记忆工具——但这些进展主要聚焦于文本记忆。沈俊潇指出,文本结构化程度高、易于索引,却难以满足以视觉为主要交互方式的物理AI应用需求。
Memories.ai自2024年成立以来,已累计融资1600万美元,包括2025年7月完成的800万美元种子轮融资及其后续800万美元扩展轮。本轮融资由Susa Ventures领投,Seedcamp、Fusion Fund和Crane Venture Partners等机构参投。
沈俊潇表示,构建有效的视觉记忆层需攻克两大核心:一是建立能将视频嵌入并索引为可存储、可召回数据格式的基础设施;二是采集足够高质量的训练数据。为此,公司内部开发了名为LUCI的硬件设备,由专职“数据采集员”佩戴,用于录制训练模型所需的视频素材。他强调,公司无意成为硬件厂商,亦不计划对外销售LUCI,仅因市售录像设备过度追求高清画质与高功耗格式,无法满足其对效率与实用性的要求。
2025年7月,Memories.ai发布其大型视觉记忆模型(LVMM)。沈俊潇称,该模型可类比为本月早些时候发布的Gemini Embedding 2的轻量版本,后者是一种多模态索引与检索模型。今年初,公司进一步推出LVMM 2.0,并已与高通达成合作,将于2026年下半年起在高通处理器上原生运行。
目前,Memories.ai已与多家头部可穿戴设备厂商展开合作,但出于商业保密考虑暂未披露具体名单。沈俊潇坦言,尽管当前已有初步市场需求,但他更看好未来在可穿戴设备与机器人领域的爆发潜力。“在商业化方面,我们现阶段更聚焦于模型与基础设施本身,因为我们相信可穿戴与机器人市场终将到来,只是时机尚未成熟。”