“AI版LeCun”自己讲解论文，自我进化智能体框架生成精美演讲视频

AI自己讲明白论文，还能生成更美观的幻灯片。

加州大学圣塔芭芭拉（UCSB）与圣克鲁兹（UCSC）的研究者提出EvoPresent，一个能够自我进化的学术演讲智能体框架，让AI不仅能“讲清楚论文”，还能“讲得好看”。

从逻辑到审美：科研演讲自动化的瓶颈

尽管已有很多系统能将论文自动转化为幻灯片或海报，但它们仍存在三大局限：

叙事单一、设计僵化、缺乏反馈。

AI往往沿用论文结构机械提炼内容，讲述缺乏起伏；模板化设计又难适配不同风格，常出现色彩冲突、排版拥挤等问题；生成过程一旦结束，系统便无法判断“哪里不美”，更谈不上自我修正。这些不足让AI演讲显得冷漠机械，难以兼顾逻辑与美感。

EvoPresent正是在此提出新的路径，让AI像人类讲者一样，在生成中反思，在反思中进化。

EvoPresent由四个智能体组成：Storyline Agent构建叙事逻辑，

Scholar Agent丰富内容与可视化，Design Agent负责排版与渲染，Checker Agent基于美学模型评估并反馈。它们在“草稿—反馈—修正”的循环中协同工作，使AI具备自我改进能力，从而生成兼具逻辑与美感的学术演讲。

EvoPresent的核心是美学模型PresAesth，这是一个基于多任务强化学习（Multi-task RL）的模型，用来模拟人类的审美判断。

它同时执行三项任务：

研究者采用了Group Relative Policy Optimization (GRPO)算法，通过人类偏好数据训练模型，使其能在反馈中逐步形成可解释的审美推理。与传统监督学习不同，这种方式让模型不仅会“打分”，还能说明原因，如“标题层级不清晰”“文字与图像间距不足”。

为了让AI“学会好看”，团队构建了首个系统化评测体系——EvoPresent Benchmark。
它由两个部分组成：

第一部分Presentation Generation Quality，收录650篇来自NeurIPS、ICLR、CVPR等顶会的论文，覆盖幻灯片、讲稿、视频等多模态形式，从叙事流畅性、布局平衡、美学分数等多个维度评估自动生成质量。

第二部分Aesthetic Awareness Dataset，包含2000对人工标注的幻灯片样本，通过不同程度的视觉扰动（如调整留白、色彩或版式）生成对比样本，用于训练与验证美学评估能力。

这一框架使AI的视觉表达有了可量化的标准，也让演讲生成的“美学进化”可以被系统性衡量。

在实验中，研究者将EvoPresent与多种主流方法进行了对比，包括GPT-4o、Claude 4、DeepSeek-R1等端到端模型，以及PresentAgent、Paper2Poster等多智能体系统。结果表明，EvoPresent在内容连贯性与视觉设计两方面均取得显著提升。

更重要的发现是，模型的自我提升能力与规模无关，而与反馈质量高度相关。

即使使用轻量模型（如GPT-4o），只要有高质量审美反馈，系统也能在三轮迭代内将视觉评分从3.2提升至8.0。这意味着AI的“反思机制”比单纯的算力扩张更关键。

EvoPresent展示了一种全新的科研传播范式，让AI成为“自我改进的讲述者”。

它将论文解读、叙事构建、视觉设计与美学评价融为一体，使自动化生成不再止步于信息复述，而能在形式与内容间寻求新的平衡。

这种理念的意义不仅在于节省时间，更在于重塑科研表达的美学标准。未来，上传论文或许意味着自动生成一场完整的“AI讲演”：幻灯片、配音、视频皆由系统完成，并根据会议风格与受众特征自动调整设计风格。正如论文标题所言，“Presenting a Paper is an Art.”

EvoPresent让AI真正开始学习这门艺术，不仅理解逻辑，更理解“美”。

Project Page: https://evopresent.github.io
arXiv: arXiv:2510.05571