告别千篇一律：分层记忆智能体如何打造真正懂你的PPT

告别千篇一律：分层记忆智能体如何打造真正懂你的PPT图1

在学术会议、商业路演或内部汇报中，一份优秀的PPT是成功沟通的关键。然而，从零开始制作一份既专业又符合个人风格的PPT，往往需要耗费大量时间和精力。尽管现有的AI工具已经能够根据文本生成幻灯片，但它们通常缺乏“记忆”——每次生成都像是初次见面，用户需要反复说明自己的偏好：喜欢简洁还是详尽？偏好哪种配色和布局？如何组织内容的逻辑？

这种重复的沟通不仅低效，更阻碍了AI成为真正得力的创作伙伴。用户渴望的是一个能够理解并记住自己工作习惯、审美倾向的智能助手，能够在多轮修改中精准执行局部编辑，而非动辄推倒重来。这正是当前自动化PPT生成领域面临的核心挑战。

近期，来自北京邮电大学、清华大学和上海交通大学的研究团队提出了一种名为 MemSlides 的新型框架，旨在通过引入分层记忆系统，让PPT生成智能体真正“记住”用户，实现高度个性化的PPT创作与精准的局部修订。

论文标题：MemSlides: A Hierarchical Memory Driven Agent Framework for Personalized Slide Generation with Multi-turn Local Revision
论文链接：https://arxiv.org/pdf/2606.17162
在线体验：https://memslides.com
项目主页：https://memslides.github.io/
开源链接：https://github.com/huohua325/Memslides

研究背景：从“一次生成”到“持续对话”

自动PPT生成技术近年来取得了显著进展。早期的系统主要关注如何将文档内容压缩并结构化到幻灯片中。随着大语言模型和多模态技术的发展，新一代系统如DeepPresenter、SlideTailor等，不仅能生成完整的幻灯片套牌，还能在生成后进行基于环境的反思和优化，甚至能根据参考幻灯片或模板进行一定程度的个性化适配。

然而，这些系统仍存在明显局限。它们大多将个性化视为单次提示的副产品，而非通过长期记忆来持续积累和响应用户偏好。当用户需要进行多轮修订时，系统通常的处理方式是重新生成整个幻灯片或大范围重新组织内容。这不仅效率低下，容易导致已对齐的内容发生“漂移”，也无法在多次创作任务中积累和复用用户的稳定偏好。

例如，一位教授在制作教学课件和研究方法汇报时，其内容组织逻辑、视觉呈现密度和风格可能截然不同。一个理想的智能助手应该能区分这两种“意图”，并分别记忆与之对应的偏好，在未来的同类任务中自动应用，而不是每次都从头开始询问。

图1：MemSlides框架概览。该框架包含长期记忆和工作记忆。长期记忆存储用户画像记忆和工具记忆，用于持久性个性化和可复用的执行经验；工作记忆则承载当前会话状态，用于个性化生成和局部化修订。在回合t中，s_t是当前会话状态，f_t是用户反馈，s_{t+1}是经过“修改执行”后的更新状态。

MemSlides正是为了弥合这一鸿沟而设计的。它将幻灯片创作重新定义为一个有状态的、多回合的对话过程，而不仅仅是一次性的文本到幻灯片的转换。其核心创新在于引入了局部化修订策略和分层记忆架构。

核心创新：分层记忆与精准的局部化编辑

MemSlides的创新性主要体现在两个方面：一是其“手术刀式”的局部化修改执行机制，二是清晰分离、各司其职的分层记忆系统。

精准的局部化修改：Plan-Act-Guard 流程

传统的修订方式如同用粗笔刷作画，稍作修改就可能影响全局。MemSlides则采用了精细的“Plan-Act-Guard”（计划-执行-守卫）流程，确保修改只作用于最小的受影响区域。

首先，计划阶段会将用户的修订请求转化为一个明确的“执行契约”。这个契约明确了修改的范围、目标幻灯片路径、生效的规则标识符等。例如，用户要求“将第五页底部的‘4组’改为‘8头’”，系统会精确锁定到第五页的特定文本框，而不是盲目扫描整个文档。

接着，执行阶段根据契约和幻灯片结构选择合适的编辑工具。如果修改涉及多个具有相同选择器的幻灯片，它会优先使用批量的CSS样式更新；如果只是修改单个幻灯片的内容或局部结构，则读取一个“布局优先”的修复表面，并只对快照目标或暴露的规则应用非空补丁操作。

最后，守卫阶段将完成视为一个需要检查的状态，而非模型自行决定停止。每一次补丁调用都与快照内容的哈希值绑定；过时的快照会触发重新绑定提示而非直接全量重写。系统会确保所有目标幻灯片都被修改或明确确认为合规后，才最终完成修订。

图2：MemSlides中的局部化修改执行。工作记忆向Plan-Act-Guard流程提供活跃的临时偏好、遗留指令、当前编辑状态以及缓冲的工具记忆信号。计划构建执行契约，执行应用最小有效编辑，守卫在最终确定局部更新前验证覆盖范围。

三层记忆架构：各司其职的“大脑”

MemSlides的分层记忆系统是其实现持久个性化的基石，它模仿了人类的记忆方式，将记忆分为长期记忆和工作记忆，并进一步细分长期记忆。

用户画像记忆：这是长期记忆的一部分，存储着与用户及特定意图绑定的稳定偏好。例如，对于“软件开发者”这一人物角色，在“架构走查”这一意图下，其偏好可能包括：使用架构图作为概述页、偏好流程图展示数据流、在内容组织上遵循“概述-模块结构-数据流-设计权衡-实验证据”的逻辑。这些偏好跨越不同的创作任务持续存在。
工具记忆：同样是长期记忆的组成部分，但它不关心“幻灯片应该什么样”，而是关注“如何可靠地执行编辑”。它存储可复用的执行经验，例如，之前成功修改图表类型的工具调用序列、处理特定样式冲突的有效方法等。这能帮助智能体减少重复错误和无效尝试，提升编辑效率。
工作记忆：这是短期记忆，负责维护当前创作会话的状态。它记录本轮对话中用户提出的临时要求、从上轮遗留下来的有效指令、当前的编辑目标状态等。例如，用户在本轮中说“所有新加的幻灯片标题用蓝色”，这个临时偏好会存入工作记忆，并在后续针对本套幻灯片的编辑中生效。

图3：MemSlides中用户画像记忆的生命周期。长期记忆存储跨任务积累的意图条件化用户画像。在任务开始时，通过比对当前用户请求，将用户画像记忆项路由到活跃临时记忆中：兼容的偏好共存，显式冲突的被取代，只有活跃子集指导生成。在任务结束时，稳定的交互信号被整合回用户画像记忆。

这三层记忆协同工作。在开始一个新任务时，系统从用户画像记忆中检索与当前意图匹配的偏好，并与用户本次的明确请求进行协调，将兼容的项加载到工作记忆中。在修订过程中，工作记忆不断更新。任务结束后，系统会对工作记忆中的信号进行“整合”，将那些稳定、可迁移的偏好（例如用户多次表现出对某种布局的喜爱）写回到长期的用户画像记忆中，而临时性的要求则被过滤掉，避免污染长期偏好。

图4：MemSlides中的工具记忆流。回合范围的任务经验在任务开始时可用，在修改回合中进入工作记忆，并在记忆整合前通过智能体经验教训、工具错误总结和自动提取的模式进行更新。操作范围的工具链经验将原始推理-工具-观察链记录为紧凑片段，在类似的未来工具调用前被检索和注入。

实验验证：记忆带来的切实提升

为了验证MemSlides的有效性，研究团队进行了一系列对照实验，主要从个性化对齐、局部修订可靠性以及通用质量三个维度进行评估。

个性化对齐：更懂“人设”

研究团队构建了一个包含10种职业人物角色（如高校教师、软件开发者、市场营销经理等）、每种角色对应3种不同意图的多人物多意图用户画像库，共计30个画像条目。

在首轮生成实验中，他们比较了MemSlides与两个基线系统（DeepPresenter和SlideTailor）在生成内容与目标人物角色“人设”的对齐程度。评估由大语言模型担任“法官”，在盲审条件下从内容、结构、视觉、特异性四个维度进行0-10分的打分。

结果显示，MemSlides在绝大多数情况下都取得了最佳的人物对齐分数。特别是在使用GLM-5和Gemini 3.1 Pro模型时，MemSlides在四个维度上全面领先于基线系统。这表明，从长期记忆中提取的用户画像，有效地帮助系统在生成之初就做出了更符合人物角色特质的决策，包括内容选择、页面顺序、布局适配和视觉风格。

局部修订：更可靠、更高效

在诊断性的匹配对修订实验中，研究团队固定了源幻灯片、模型、人物角色和修改请求，只对比“注入工具记忆”和“不注入工具记忆”两种条件下的表现。

实验数据显示，注入工具记忆后，系统的闭环完成率（成功完成局部编辑、验证并定稿）和严格验证率（编辑后及时进行局部验证）均有显著提升。同时，完成首次正确编辑所需的平均时间大幅减少，核心工具使用时间比率也降至原来的三分之一左右。这意味着工具记忆帮助智能体更少地“走弯路”，以更直接、可靠的方式执行局部编辑。

图5：局部化修改执行的定性对比。给定相同的局部编辑请求，DeepPresenter在满足目标修改的同时，可能改变了幻灯片的非目标区域。而MemSlides则对请求的元素应用了有针对性的补丁，保留了已经对齐的幻灯片内容。

通用质量：个性化不减分

一个合理的担忧是，追求个性化是否会牺牲幻灯片本身的通用质量？研究团队使用DeepPresenter风格的通用质量评估指标对同一批生成的幻灯片进行了检查。

结果表明，MemSlides在提升个性化对齐的同时，在通用质量指标上依然保持竞争力，甚至在部分指标上领先。这证明其个性化增益并非以牺牲基本的PPT质量为代价。

未来展望与责任考量

MemSlides为个性化、可长期学习的创作智能体提供了一个有前景的框架原型。其分层记忆的设计思想可以扩展到文本生成、图像编辑、代码编写等多个需要持续个性化交互的领域。

当然，这项研究也存在局限。目前的实验基于受控的人物画像库和诊断性的编辑请求，而非真实的用户部署研究。记忆的引入也带来了新的责任挑战：如何确保用户隐私，让用户能够查看、编辑和删除自己的偏好记忆？如何防止记忆固化不良偏好或被滥用？如何设计记忆的同意和审计机制？

图6：跨任务画像整合的定性案例。在六个重复任务中，局部反馈线索变成了可复用的画像偏好，并在此后作为默认的幻灯片组织模式重新出现，包括证据边界护栏、负责人/时间线闭合表格、模块输入-输出责任模式和实施检查清单。该图是诊断性案例证据，而非独立的量化指标。

未来的工作需要在更广泛的人类研究、随机化的编辑集测试以及更强的记忆安全护栏方面进行探索。MemSlides迈出了重要的一步，它展示了一个能够记住用户、理解上下文、并进行精准修改的智能创作伙伴的潜力。随着技术的成熟和伦理框架的完善，这样的系统有望真正改变我们准备和呈现信息的方式，让每个人都能更轻松地创造出既专业又独具个人风格的视觉故事。

> 本文由 Intern-S2 等 AI 生成，机智流编辑部校对

-- 完 --

加入机智流 Pro，1 天一块钱，AI 能力指数级增长时代，不掉队。机智流 AI 团队将燃烧远超人类的智能的 AI Tokens 驱动 AI Agents 军团带来「与你有关」「对你有用」的高质量资讯/研报。

机智流推荐阅读：

1. ‍

关注机智流并加入 AI 技术交流群，不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流，同时还有与、、、、等。

在「机智流」公众号后台回复下方标红内容即可加入对应群聊：

cc | 大模型技术交流群
hf | HuggingFace 高赞论文分享群
lc｜LangChain 技术交流群
code | AI Coding 交流群
具身 | 具身智能交流群
硬件 | AI 硬件交流群
推理 | AI 推理框架交流群
Agent | Agent 技术交流群