题目：Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory

论文地址：https://arxiv.org/pdf/2508.09736

主页：https://m3-agent.github.io

创新点

与传统智能体不同，M3-Agent 能够实时处理视觉和听觉输入，构建和更新其长期记忆。这种长期记忆不仅包括事件记忆（episodic memory），还发展出语义记忆（semantic memory），使其能够随着时间积累世界知识。
现有的长视频问答基准主要关注视觉理解，而 M3-Bench 弥补了这一空白，设计了能够评估更高层次认知能力的问题，这些能力对于现实世界中的智能体至关重要，例如理解人类、提取一般知识以及进行跨模态推理等。

方法

本文提出了一种具备长期记忆的多模态智能体框架 M3-Agent。该框架通过持续处理实时的视觉和听觉输入来构建和更新长期记忆，记忆分为事件记忆和语义记忆，并以实体为中心的多模态图结构进行组织，以支持更深入和一致的环境理解。同时，M3-Agent 在接收指令后，能够通过迭代推理和检索长期记忆中的相关信息来执行任务，其控制流程利用强化学习进行优化。此外，为了评估 M3-Agent 的长期记忆和推理能力，本文还开发了 M3-Bench 基准测试，包含从机器人视角和网络来源的长视频及相应的问题答案对，用于测试智能体在人类理解、知识提取和跨模态推理等方面的能力。

M3-Agent 架构图

本图清晰地展示了 M3-Agent 如何通过记忆和控制两个过程协同工作，实现对复杂多模态环境的感知、理解和推理。记忆过程为智能体提供了丰富的背景知识和经验，而控制过程则利用这些知识来完成具体的任务指令，两者相辅相成，共同推动了多模态智能体的发展。

M3-Bench 示例

本图通过具体的示例展示了 M3-Bench 数据集中的视频内容以及相应的问题和答案。这些示例对于理解 M3-Bench 如何评估多模态智能体的长期记忆和推理能力至关重要。M3-Bench-robot 示例。这部分展示了从机器人视角拍摄的真实世界视频。这些视频模拟了机器人在实际环境中可能接收到的感知输入，例如在家庭、办公室或健身房等场景中的交互。示例中的问题和答案设计得非常巧妙，旨在测试智能体对人类行为、偏好以及环境变化的理解能力。M3-Bench-web 示例。与 M3-Bench-robot 不同，这部分的视频是从网络上收集的，涵盖了更广泛的内容和场景。这些视频可能包括各种类型的节目，如纪录片、访谈、日常生活记录等。相应的问题也更加多样化，不仅涉及人类理解，还包括一般知识提取和跨模态推理等方面。

M3-Bench 统计概览

本图提供了 M3-Bench 数据集的详细统计信息，这些信息对于了解数据集的构成和特点非常关键。M3-Bench-robot 拍摄地点分布。这部分展示了 M3-Bench-robot 中视频的拍摄地点分布情况。从图中可以看出，视频主要来自家庭、办公室、健身房等实际场景。这种分布反映了机器人在现实世界中可能遇到的典型环境，使得 M3-Bench-robot 能够有效地评估智能体在这些实际场景中的性能。M3-Bench-web 视频类别分布。图中还展示了 M3-Bench-web 中视频的类别分布。这些类别涵盖了日常生活、教育、娱乐、新闻等多个方面。这种广泛的类别分布意味着 M3-Bench-web 能够测试智能体在处理不同类型内容时的能力。通过详细的统计信息展示了 M3-Bench 数据集的构成和特点。这些信息不仅有助于我们了解数据集的多样性和丰富性，还为研究者提供了一个全面评估多模态智能体性能的基准。

实验

本表展示了 M3-Agent 与多种基线方法在 M3-Bench-robot、M3-Bench-web 和 VideoMME-long 三个基准测试上的性能对比。在 M3-Bench-robot 上，M3-Agent 的准确率为 30.7%，比最强基线 MA-LMM（25.6%）高出 5.1 个百分点；在 M3-Bench-web 上，M3-Agent 的准确率为 48.9%，比最强基线 Gemini-GPT4o-Hybrid（35.9%）高出 13.0 个百分点；在 VideoMME-long 上，M3-Agent 的准确率为 61.8%，比 Gemini-GPT4o-Hybrid（37.6%）高出 24.2 个百分点。这表明 M3-Agent 在长期记忆构建和推理方面优于其他方法。在不同问题类型中，M3-Agent 在人类理解和跨模态推理等关键能力上表现突出。例如，在 M3-Bench-robot 的人类理解问题上，M3-Agent 比 MA-LMM 高出 4.2 个百分点；在 M3-Bench-web 的跨模态推理问题上，比 Gemini-GPT4o-Hybrid 高出 6.7 个百分点。这些结果证明了 M3-Agent 在处理复杂多模态任务时的优越性。

-- END --

最后对agent创新感兴趣的可公众号后台私信‘加群’或者扫描下方👇二维码进入agent交流群！