字节Seed:AI终于有长期记忆了

学姐带你玩AI 2025-10-06 18:12
字节Seed:AI终于有长期记忆了图1

题目:Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory

论文地址:https://arxiv.org/pdf/2508.09736

主页:https://m3-agent.github.io

字节Seed:AI终于有长期记忆了图2

创新点

  • 与传统智能体不同,M3-Agent 能够实时处理视觉和听觉输入,构建和更新其长期记忆。这种长期记忆不仅包括事件记忆(episodic memory),还发展出语义记忆(semantic memory),使其能够随着时间积累世界知识。

  • 现有的长视频问答基准主要关注视觉理解,而 M3-Bench 弥补了这一空白,设计了能够评估更高层次认知能力的问题,这些能力对于现实世界中的智能体至关重要,例如理解人类、提取一般知识以及进行跨模态推理等。

方法

本文提出了一种具备长期记忆的多模态智能体框架 M3-Agent。该框架通过持续处理实时的视觉和听觉输入来构建和更新长期记忆,记忆分为事件记忆和语义记忆,并以实体为中心的多模态图结构进行组织,以支持更深入和一致的环境理解。同时,M3-Agent 在接收指令后,能够通过迭代推理和检索长期记忆中的相关信息来执行任务,其控制流程利用强化学习进行优化。此外,为了评估 M3-Agent 的长期记忆和推理能力,本文还开发了 M3-Bench 基准测试,包含从机器人视角和网络来源的长视频及相应的问题答案对,用于测试智能体在人类理解、知识提取和跨模态推理等方面的能力。

M3-Agent 架构图

字节Seed:AI终于有长期记忆了图3

本图清晰地展示了 M3-Agent 如何通过记忆和控制两个过程协同工作,实现对复杂多模态环境的感知、理解和推理。记忆过程为智能体提供了丰富的背景知识和经验,而控制过程则利用这些知识来完成具体的任务指令,两者相辅相成,共同推动了多模态智能体的发展。

M3-Bench 示例

字节Seed:AI终于有长期记忆了图4

本图通过具体的示例展示了 M3-Bench 数据集中的视频内容以及相应的问题和答案。这些示例对于理解 M3-Bench 如何评估多模态智能体的长期记忆和推理能力至关重要。M3-Bench-robot 示例。这部分展示了从机器人视角拍摄的真实世界视频。这些视频模拟了机器人在实际环境中可能接收到的感知输入,例如在家庭、办公室或健身房等场景中的交互。示例中的问题和答案设计得非常巧妙,旨在测试智能体对人类行为、偏好以及环境变化的理解能力。M3-Bench-web 示例。与 M3-Bench-robot 不同,这部分的视频是从网络上收集的,涵盖了更广泛的内容和场景。这些视频可能包括各种类型的节目,如纪录片、访谈、日常生活记录等。相应的问题也更加多样化,不仅涉及人类理解,还包括一般知识提取和跨模态推理等方面。

M3-Bench 统计概览

字节Seed:AI终于有长期记忆了图5

本图提供了 M3-Bench 数据集的详细统计信息,这些信息对于了解数据集的构成和特点非常关键。M3-Bench-robot 拍摄地点分布。这部分展示了 M3-Bench-robot 中视频的拍摄地点分布情况。从图中可以看出,视频主要来自家庭、办公室、健身房等实际场景。这种分布反映了机器人在现实世界中可能遇到的典型环境,使得 M3-Bench-robot 能够有效地评估智能体在这些实际场景中的性能。M3-Bench-web 视频类别分布。图中还展示了 M3-Bench-web 中视频的类别分布。这些类别涵盖了日常生活、教育、娱乐、新闻等多个方面。这种广泛的类别分布意味着 M3-Bench-web 能够测试智能体在处理不同类型内容时的能力。通过详细的统计信息展示了 M3-Bench 数据集的构成和特点。这些信息不仅有助于我们了解数据集的多样性和丰富性,还为研究者提供了一个全面评估多模态智能体性能的基准。

实验

字节Seed:AI终于有长期记忆了图6

本表展示了 M3-Agent 与多种基线方法在 M3-Bench-robot、M3-Bench-web 和 VideoMME-long 三个基准测试上的性能对比。在 M3-Bench-robot 上,M3-Agent 的准确率为 30.7%,比最强基线 MA-LMM(25.6%)高出 5.1 个百分点;在 M3-Bench-web 上,M3-Agent 的准确率为 48.9%,比最强基线 Gemini-GPT4o-Hybrid(35.9%)高出 13.0 个百分点;在 VideoMME-long 上,M3-Agent 的准确率为 61.8%,比 Gemini-GPT4o-Hybrid(37.6%)高出 24.2 个百分点。这表明 M3-Agent 在长期记忆构建和推理方面优于其他方法。在不同问题类型中,M3-Agent 在人类理解和跨模态推理等关键能力上表现突出。例如,在 M3-Bench-robot 的人类理解问题上,M3-Agent 比 MA-LMM 高出 4.2 个百分点;在 M3-Bench-web 的跨模态推理问题上,比 Gemini-GPT4o-Hybrid 高出 6.7 个百分点。这些结果证明了 M3-Agent 在处理复杂多模态任务时的优越性。

-- END --


最后对agent创新感兴趣的可公众号后台私信‘加群’或者扫描下方👇二维码进入agent交流群!
字节Seed:AI终于有长期记忆了图7

关注“学姐带你玩AI”公众号,回复“agent25

领取117篇agent论文代码合集+321个实战项目

往期推荐:











ACCEPT
据说点赞的都Accept了!
字节Seed:AI终于有长期记忆了图8

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
AI「学不会」竟成相变探针!UCSD华人联手谷歌等,曝光量子纠缠秘密
辍学潮来了?19、20 岁年轻人“逃离”教室去 AI 创业,20 多年创业大佬断言:他们的机会比大厂大
特斯拉“擎天柱”最新视频:大秀中国功夫,与真人对打,能逐招反击!马斯克:AI驱动,非遥控操作
【AI】Sora2全网疯狂实测:以假乱真、脑洞大开、虚实难分|附首个APP教程和邀请码
不用植入大脑,AI神经接口实现“心灵感应”
突发!OpenAI 拟入股AMD,暴涨 6512 亿!
突发!OpenAI入股AMD,签百亿订单,AMD股价飙升25%
AI+消费,国家写进顶层规划,当AI开始“卷”消费:一场从厨房到养老的万亿级革命
曝顶级AI大牛加入阿里通义;LeCun 承认可能从 Meta 辞职;马斯克成全球首位身价破5000亿富豪|AI周报
毛利仅4%!高通硬抢 AI PC 芯片市场,为什么?
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号