HF每日论文: Pref-GRPO、MCP-Bench 等

机智流 2025-08-30 07:19


本文收录8月28日Hugging Face Daily Paper,解读由 Intern-S1、Qwen3 等 AI 生成可能有误。

(1) Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable   Text-to-Image Reinforcement Learning

资讯配图

论文简介:

由复旦大学、上海人工智能实验室、腾讯混元等机构提出了Pref-GRPO,该工作揭示了现有文本到图像生成强化学习方法中"奖励黑客"现象的本质原因是"虚假优势"问题,并提出首个基于成对偏好奖励的GRPO优化方法,通过将奖励最大化目标转化为偏好拟合来实现更稳定的生成训练。同时构建了包含600个提示词、覆盖5大主题20个子主题的UniGenBench基准,支持10个主维度27个子维度的细粒度评估,利用多模态大模型实现自动化评估流程。实验表明Pref-GRPO在语义一致性指标上较基线提升5.84%,文本和逻辑推理维度分别提升12.69%和12.04%,有效缓解了奖励分数虚高但质量下降的矛盾。UniGenBench的细粒度评估显示:闭源模型在逻辑推理(48.18%)和文本渲染(89.08%)表现突出,开源模型在动作(69.77%)和布局(77.61%)维度接近闭源水平,但在语法和复杂逻辑任务上仍有显著差距。该研究为文本到图像生成的优化范式和评估体系提供了新的技术路径与标准框架。

论文来源:hf

Hugging Face 投票数:59

论文链接:

https://hf.co/papers/2508.20751

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.20751


(2) rStar2-Agent: Agentic Reasoning Technical Report

资讯配图

论文简介:

由Microsoft Research等机构提出了rStar2-Agent,该工作通过代理强化学习训练出140亿参数的数学推理模型,实现前沿性能突破。核心创新包括:(1)高效RL基础设施支持每秒4.5万次并发代码执行,采用动态负载均衡调度策略提升GPU利用率;(2)GRPO-RoC算法通过"正确时重采样"策略解决代码环境噪声问题,在保持结果奖励机制的同时过滤低质量轨迹;(3)三阶段训练策略从非推理微调起步,逐步扩展响应长度至12K tokens,最终在64张MI300X GPU上仅用510步训练即达到SOTA。实验显示,rStar2-Agent-14B在AIME24和AIME25基准上分别取得80.6%和69.8%的pass@1准确率,超越DeepSeek-R1(671B)的同时生成更短响应(平均9339 tokens vs 14246)。该模型展现出跨领域泛化能力,在科学推理(GPQA-Diamond 60.9%)、工具使用(BFCL v3 60.8%)等任务中表现优异。研究还揭示代理强化学习能激发模型对代码执行结果的反射性tokens,驱动自主探索和纠错。相关代码和训练方案已开源。

论文来源:hf

Hugging Face 投票数:46

论文链接:

https://hf.co/papers/2508.20722

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.20722


(3) USO: Unified Style and Subject-Driven Generation via Disentangled and   Reward Learning

资讯配图

论文简介:

由字节跳动UXO团队等机构提出了USO(Unified Style-Subject Optimized),该工作通过解耦内容与风格特征并引入奖励学习机制,首次实现了风格驱动与主体驱动生成任务的统一框架。现有方法通常将风格相似性与主体一致性视为对立目标,而USO通过构建包含20万组三元组数据(风格参考图、去风格化主体图、风格化结果图)的训练集,提出跨任务协同解耦范式:利用主体生成模型生成高质量风格化数据,再通过风格奖励引导的解耦训练优化主体模型。技术上采用SigLIP多尺度特征投影实现风格对齐训练,并通过内容-风格解耦编码器分离条件特征,最终结合风格奖励学习(SRL)进一步提升解耦效果。研究团队还发布了首个支持风格/主体/联合任务评估的基准USO-Bench,包含50组内容图与50组风格图的组合测试集。实验显示USO在Subject-Driven任务中取得0.623 CLIP-I和0.793 DINO的SOTA成绩,在Style-Driven任务中以0.557 CSD和0.282 CLIP-T超越现有方法,在联合任务中更以0.495 CSD和0.283 CLIP-T显著领先基线模型。消融实验证实风格奖励学习使CSD提升8.2%,解耦编码器使CLIP-I提升2.9%,验证了跨任务协同解耦的有效性。该方法支持任意主体与风格的自由组合生成,在保持高文本对齐度的同时,解决了传统方法中风格迁移时主体失真和主体生成时风格干扰的核心矛盾。

论文来源:hf

Hugging Face 投票数:32

论文链接:

https://hf.co/papers/2508.18966

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.18966


(4) MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World   Tasks via MCP Servers

资讯配图

论文简介:

由 Accenture 等机构提出的 MCP-Bench 是一个面向复杂真实世界任务的工具使用型大语言模型(LLM)评估基准。该工作基于 Model Context Protocol(MCP)构建了包含 28 个生产级服务器、250 个结构化工具的生态系统,支持跨域多工具协调与长时程任务规划。通过 LLM 驱动的任务合成管道生成模糊指令任务,结合规则验证与 LLM 评判的双层评估框架,MCP-Bench 能全面测试模型在工具检索、参数控制、多跳规划和跨域协作等维度的能力。实验评估了 20 个主流模型,发现尽管头部模型(如 gpt-5、o3)在执行精度上趋近饱和(schema compliance >99%),但在依赖链合规性(dependency awareness 0.76 vs 0.22)、多目标并行效率(parallelism 0.34 vs 0.14)等高阶能力上仍存在显著差距。该基准揭示了当前 LLM 在真实复杂场景中长期规划能力的不足,为推动具身智能体发展提供了标准化评估平台。代码与数据已开源,支持研究者持续优化模型的现实世界任务解决能力。

论文来源:hf

Hugging Face 投票数:29

论文链接:

https://hf.co/papers/2508.20453

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.20453


(5) AWorld: Orchestrating the Training Recipe for Agentic AI

资讯配图

论文简介:

由Inclusion AI、上海人工智能实验室和西湖大学等机构提出了AWORLD框架,该工作针对“从实践中学习”的智能体训练范式,通过分布式架构突破经验生成瓶颈,实现14.6倍加速的并行环境交互能力。研究者基于此框架对Qwen3-32B模型进行强化学习训练,使其在GAIA基准测试中整体准确率从21.59%提升至32.23%,并在最高难度级别以16.33%的pass@1成绩超越GPT-4o等闭源模型。实验表明,复杂任务中智能体性能与经验生成规模呈显著正相关,而AWORLD的集群调度机制有效解决了传统单节点串行执行的效率缺陷,将完整的训练周期从7839秒压缩至669秒。该框架支持灵活的工具集成、多智能体通信协议及与主流RL系统的解耦式训练 orchestration,为构建具备持续学习能力的智能体提供了完整技术方案。通过在GAIA和xbench-DeepSearch基准上的验证,该系统不仅证明了分布式经验收集对性能提升的关键作用,更展示了开源模型通过强化学习实现多步推理能力突破的可能性。

论文来源:hf

Hugging Face 投票数:25

论文链接:

https://hf.co/papers/2508.20404

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.20404


(6) TCIA: A Task-Centric Instruction Augmentation Method for Instruction   Finetuning

论文来源:hf

Hugging Face 投票数:16

论文链接:

https://hf.co/papers/2508.20374

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.20374


(7) Mixture of Contexts for Long Video Generation

论文来源:hf

Hugging Face 投票数:14

论文链接:

https://hf.co/papers/2508.21058

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.21058


(8) Turning the Spell Around: Lightweight Alignment Amplification via   Rank-One Safety Injection

资讯配图

论文简介:

由沙特阿拉伯阿卜杜拉国王科技大学(KAUST)等机构提出了Rank-One Safety Injection(ROSI),该工作提出了一种无需微调的轻量级方法,通过在残差流权重矩阵中注入秩一安全方向来增强大语言模型的安全对齐能力。ROSI利用有害与无害指令对激活差异计算安全方向,并通过简单的向量投影永久强化模型拒绝有害请求的能力。实验表明,ROSI在保持模型通用性能的前提下,显著提升了LLaMA、Qwen等主流模型对有害请求的拒绝率(最高提升18.2%),同时将对抗攻击成功率降低34-54个百分点。更关键的是,ROSI可作为"最后一公里"安全工具,成功重构被刻意去安全化的Dolphin系列模型,使其安全响应率从50%提升至86%-100%,且基准测试性能波动不超过0.5%。该方法验证了通过解释性研究定位的概念方向进行权重操控的有效性,为低成本安全增强提供了新范式。

论文来源:hf

Hugging Face 投票数:9

论文链接:

https://hf.co/papers/2508.20766

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.20766


(9) Multi-View 3D Point Tracking

论文来源:hf

Hugging Face 投票数:6

论文链接:

https://hf.co/papers/2508.21060

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.21060


(10) CogVLA: Cognition-Aligned Vision-Language-Action Model via   Instruction-Driven Routing & Sparsification

论文来源:hf

Hugging Face 投票数:6

论文链接:

https://hf.co/papers/2508.21046

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.21046


(11) OneReward: Unified Mask-Guided Image Generation via Multi-Task Human   Preference Learning

论文来源:hf

Hugging Face 投票数:5

论文链接:

https://hf.co/papers/2508.21066

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.21066


(12) Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability   in Knowledge and Safety with DuET-PD

论文来源:hf

Hugging Face 投票数:5

论文链接:

https://hf.co/papers/2508.17450

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.17450


(13) FakeParts: a New Family of AI-Generated DeepFakes

论文来源:hf

Hugging Face 投票数:3

论文链接:

https://hf.co/papers/2508.21052

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.21052


(14) Dress&Dance: Dress up and Dance as You Like It - Technical Preview

论文来源:hf

Hugging Face 投票数:3

论文链接:

https://hf.co/papers/2508.21070

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.21070


(15) OnGoal: Tracking and Visualizing Conversational Goals in Multi-Turn   Dialogue with Large Language Models

论文来源:hf

Hugging Face 投票数:2

论文链接:

https://hf.co/papers/2508.21061

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.21061


(16) Provable Benefits of In-Tool Learning for Large Language Models

资讯配图

论文简介:

由ETH Zürich、Inria和FAIR等机构提出了Provable Benefits of In-Tool Learning for Large Language Models,该工作通过理论证明和实验验证揭示了工具增强型语言模型在事实回忆任务中的显著优势。研究证明仅依赖模型参数存储知识存在容量瓶颈,参数数量与可记忆事实数量呈线性关系,而引入外部工具(如数据库检索)可突破该限制,通过8层Transformer即可实现任意规模的事实检索。实验表明工具模型在参数效率上远超纯记忆模型,当事实数量超过千级时参数需求趋于平稳,而纯记忆模型需指数级参数增长。研究还发现工具使用能有效避免知识覆盖导致的原有能力退化,大模型微调新知识时工具模型的HellaSwag基准测试准确率保持稳定,而纯记忆模型出现显著下降。这项工作为语言模型架构设计提供了新方向:未来应聚焦开发模块化系统,通过工具交互实现知识可扩展性,而非单纯增加模型参数规模。代码已开源供研究者进一步探索大语言模型的记忆负载问题。

论文来源:hf

Hugging Face 投票数:2

论文链接:

https://hf.co/papers/2508.20755

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.20755


(17) ROSE: Remove Objects with Side Effects in Videos

资讯配图

论文简介:

由浙江大学、KunByte AI、北京大学和香港大学等机构提出了ROSE(Remove Objects with Side Effects),该工作针对视频中物体及其副作用(如阴影、反射、光照变化等)的去除问题,通过构建3D渲染驱动的自动化数据生成流程,解决了真实场景配对数据稀缺的难题。研究者系统性地将物体副作用归纳为五类典型场景(阴影、反射、光照、半透明、镜面),并基于扩散Transformer设计了参考式擦除模型,通过引入差异掩码预测机制显式监督副作用区域的识别。实验表明,ROSE在自建的ROSE-Bench基准(含合成与真实数据)上显著优于现有方法,尤其在复杂环境交互场景中展现出更强的泛化能力,为视频编辑中物理一致性修复提供了新范式。

论文来源:hf

Hugging Face 投票数:2

论文链接:

https://hf.co/papers/2508.18633

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.18633


(18) Collaborative Multi-Modal Coding for High-Quality 3D Generation

论文来源:hf

Hugging Face 投票数:2

论文链接:

https://hf.co/papers/2508.15228

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.15228


(19) Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and   Voice

资讯配图

论文简介:

由比利时蒙斯大学和美国南加州大学等机构提出了Social-MAE,该工作基于CAV-MAE架构改进并应用于社交场景,通过在大规模社交数据集VoxCeleb2上进行自监督预训练,实现了多模态情感识别和社交行为分析的突破性进展。研究团队针对原始CAV-MAE模型进行三方面创新:将视觉输入从单帧扩展为多帧序列以提升时序建模能力;采用对比学习与掩码重建联合训练策略增强跨模态关联;通过25轮epoch的自监督预训练优化模型参数。在CREMA-D情感识别数据集上,Social-MAE取得0.837的多模态F1分数,超越现有UAVM、AuxFormer等方法;在笑声检测任务中达到0.776的F1值,较监督学习基线提升显著;在人格特质预测任务中平均准确率达90.3%,验证了领域自适应预训练的有效性。实验结果表明,该模型在动态面部表情重建中能准确还原关键区域特征,尤其在眼睛和唇部细节处理上表现突出。研究证明了基于大规模社交数据的自监督预训练能够显著提升多模态模型对人类社交行为的理解能力,为情感计算和人机交互领域提供了新的技术范式。相关代码和模型参数已开源,为后续研究提供了重要基础。

论文来源:hf

Hugging Face 投票数:1

论文链接:

https://hf.co/papers/2508.17502

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.17502

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号