评论:本周 Hugging Face 总共 88 篇文章,强化学习RL方向强相关就有 23 篇,果然是现在最火的方向。
🔥 P 站(https://paperscope.ai)现已支持「Agent」、「Bench」、「Image-Generation」、「Multimodal」、「RL」、「Robot」、「Video-Generation」标签的论文筛选,论文标签由 Intern-S1 生成,更多 AI-Infra 等更多方向标签支持中。

论文选本周 Hugging Face Daily Papers,「论文解读」、「论文分类标签」由🔥Intern-S1等AI生成可能有误。
(1) The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

论文简介:
由牛津大学、上海人工智能实验室、新加坡国立大学等机构提出了《The Landscape of Agentic Reinforcement Learning for LLMs: A Survey》,该工作系统性地定义了大语言模型的智能体增强范式(Agentic RL),通过将传统单步马尔可夫决策过程(MDP)扩展为部分可观测的多步POMDP框架,推动LLM从静态文本生成器进化为具备规划、工具使用、记忆、推理等动态决策能力的自主智能体。研究团队构建了双维度分类体系:从能力视角解析了Agentic RL在规划(包括蒙特卡洛树搜索引导与策略梯度优化)、工具调用(从ReAct式提示到多轮工具集成推理)、记忆管理(检索增强到结构化图记忆)、自我改进(基于DPO的反射机制与自演化课程)等核心模块的优化路径;从应用视角覆盖了代码生成(DeepSWE等自动化软件工程框架)、数学推理(非形式化与形式化证明)、GUI导航(WebDancer等多模态交互)、多智能体协作等场景,并系统梳理了500余项最新研究。论文特别强调RL在解决长时程信用分配(如多轮工具调用的稀疏奖励问题)、构建动态记忆管理系统(如层级化图结构记忆)及实现跨模态主动认知(视觉-语言模型的接地推理)中的关键作用。研究还整合了LLM智能体开发所需的开源环境(WebEnv、ToolEmu等)、RL框架(GRPO、ASPO等算法变体)及评估基准(SWE-Bench、GAIA等),并指出可信赖性、训练规模化与环境复杂度提升是未来核心挑战。
论文来源:hf
Hugging Face 投票数:146
论文链接:
https://hf.co/papers/2509.02547
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.02547
(2) R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning

论文简介:
由腾讯混元团队和中科院自动化所提出了R-4B,该工作通过双模退火和强化学习实现多模态大语言模型的自适应思考能力,使模型能够根据问题复杂度动态切换思考与直接回答模式,在保持推理性能的同时显著降低计算成本。研究针对现有模型在简单问题上冗余思考导致的效率问题,创新性地设计了双模退火训练策略,通过构建包含549万条推理数据和1087万条直接回答数据的混合数据集,使模型同时掌握两种响应模式。在此基础上提出的双模策略优化(BPO)算法,采用数学领域规则奖励信号驱动强化学习,在无需复杂奖励工程的情况下,通过强制生成思考与非思考双路径响应,有效解决了模型偏好非思考模式的"思考萎缩"问题。实验表明,R-4B-RL在MMMU-val等25项基准测试中超越Qwen2.5-VL-7B,并在数学推理和图表理解任务中达到与16B参数模型Kimi-VL-A3B-Thinking相当的水平,同时推理效率提升40%。该模型在保持70亿参数规模下,通过动态调整思考模式,在OCR等简单任务中输出token量仅66个(非思考模式57个),而在MathVista等复杂任务中自动扩展至996个token,实现了推理性能与计算成本的最优平衡。研究提出的双模训练框架和策略优化方法为构建高效智能的多模态模型提供了新范式。
论文来源:hf
Hugging Face 投票数:103
论文链接:
https://hf.co/papers/2508.21113
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.21113
(3) UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

论文简介:
由字节跳动等机构提出了UI-TARS-2,该工作通过系统性训练方法解决了GUI智能体开发中的数据扩展性、多轮强化学习、GUI操作限制和环境稳定性四大挑战。核心贡献包括:1)数据飞轮机制实现模型与训练数据的迭代优化,通过持续预训练、监督微调和多轮RL形成自强化循环;2)构建支持文件系统/终端交互的混合GUI环境,突破纯界面操作限制;3)开发异步状态化环境和流式更新的多轮RL框架,提升长序列训练稳定性;4)建立统一沙盒平台实现跨浏览器/虚拟机/模拟器的百万级rollout。实验显示UI-TARS-2在GUI基准测试中取得显著提升:Online-Mind2Web(88.2)、OSWorld(47.5)、WindowsAgentArena(50.6)、AndroidWorld(73.3),超越Claude和OpenAI代理;游戏环境均分59.8(60%人类水平),在LMGame-Bench与前沿闭源模型相当。特别在长时程信息检索任务(BrowseComp)和软件工程基准(Terminal Bench)中展现跨领域泛化能力。训练动态分析揭示了多轮RL中熵值上升、思考长度周期性变化等独特现象,为大规模智能体训练提供方法论参考。
论文来源:hf
Hugging Face 投票数:102
论文链接:
https://hf.co/papers/2509.02544
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.02544
(4) SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning
论文来源:hf
Hugging Face 投票数:76
论文链接:
https://hf.co/papers/2509.02479
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.02479
(5) LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model

论文简介:
由马里兰大学、俄亥俄州立大学和新加坡国立大学等机构提出了LLaVA-Critic-R1,该工作通过重构带偏好标签的批评数据为可验证的强化学习任务,直接在基础生成模型上进行RL训练,使模型同时具备卓越的批评判断能力和策略生成能力。研究发现,仅用40k偏好标注数据训练的LLaVA-Critic-R1在26个视觉推理基准上平均超越基础模型5.7%,在MMMU等任务中达到71.9的SOTA性能。进一步将该方法应用于ThinkLite-VL-7B等强推理模型,得到的LLaVA-Critic-R1+在保持批评能力的同时,策略性能提升至71.9(MMMU),在数学推理、图表理解等任务中表现尤为突出。该方法的核心创新在于:1)通过剥离GPT生成的评估标准,迫使模型自主构建判断逻辑;2)采用Group Relative Policy Optimization(GRPO)进行训练,通过偏好奖励和格式奖励的平衡提升模型能力;3)提出测试时自我批评机制,通过Best-of-128策略在5个基准上平均提升13.8%。实验表明,批评能力提升与策略性能增强存在强正相关,模型在视觉感知和结构化推理两方面均显著优化。该研究揭示了批评数据蕴含的生成能力提升潜力,为构建兼具评估与生成能力的统一模型提供了新范式,其测试时自我改进机制也为开发自进化多模态系统指明了方向。
论文来源:hf
Hugging Face 投票数:74
论文链接:
https://hf.co/papers/2509.00676
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.00676
(6) VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use
论文来源:hf
Hugging Face 投票数:59
论文链接:
https://hf.co/papers/2509.01055
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.01055
(7) Towards a Unified View of Large Language Model Post-Training

论文简介:
由清华大学、上海人工智能实验室和微信AI等机构提出了Unified Policy Gradient Estimator和Hybrid Post-Training(HPT)算法,该工作通过理论推导揭示了监督微调(SFT)与强化学习(RL)在大语言模型后训练中的统一性,提出将两者梯度计算纳入统一框架的策略梯度估计器,并基于此设计了动态切换训练信号的HPT算法。研究发现SFT与RL的梯度可视为同一目标函数在不同数据分布下的特例,其差异源于稳定性掩码、参考策略分母、优势估计和似然梯度四个组件的偏差-方差权衡。HPT通过实时评估模型在单个问题上的多轨迹验证准确率,动态调整SFT与RL损失的权重比例:当模型表现弱时采用SFT进行知识注入,表现强时切换到RL促进探索。在数学推理任务上的实验表明,HPT在Qwen2.5-Math-7B上相比SFT→GRPO和LUFFY基线平均提升7.2和6.2分,在AIME 2024数据集上取得33.0的Pass@1成绩,较最强基线提升6.9分。消融实验显示动态混合策略显著优于固定比例混合,且模型响应长度在切换到RL后保持稳定增长,证明HPT能有效平衡探索与利用,提升模型推理能力。
论文来源:hf
Hugging Face 投票数:52
论文链接:
https://hf.co/papers/2509.04419
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.04419
(8) Baichuan-M2: Scaling Medical Capability with Large Verifier System

论文简介:
由 Baichuan-M2 Team 等研究团队提出了 Baichuan-M2,该工作通过构建动态验证系统和多阶段强化学习框架,显著提升了医疗大语言模型在真实临床场景中的推理能力。研究团队开发了包含患者模拟器和临床评分生成器的高保真交互验证系统,通过模拟真实医疗环境和动态生成多维评估标准,解决了传统静态测试无法捕捉临床复杂性的缺陷。患者模拟器通过整合去标识化医疗记录和人格特征模型,生成具有社会属性与心理状态的虚拟患者,而临床评分生成器则基于专家标注的评分标准,为模型提供实时反馈。在此基础上,团队采用改进的 Group Relative Policy Optimization(GRPO)算法,通过多阶段强化学习策略优化模型,包括规则强化、评分强化和多轮对话强化三个阶段,使模型在保持通用能力的同时深度对齐临床专家思维。Baichuan-M2 在 HealthBench 基准测试中表现突出,以320亿参数规模超越所有开源模型及多数闭源模型,在 HealthBench Hard 子集得分突破32分(仅次于 GPT-5),并展现出更强的临床决策完整性与安全性。该工作验证了动态验证系统对医疗AI实用化的重要性,同时通过量化部署优化和推测解码技术降低应用门槛,为资源受限场景下的医疗AI落地提供了新范式。
################# 分割行,以下为论文原始材料 ############# ...(原文内容省略)...
论文来源:hf
Hugging Face 投票数:33
论文链接:
https://hf.co/papers/2509.02208
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.02208
(9) Reasoning Vectors: Transferring Chain-of-Thought Capabilities via Task Arithmetic

论文简介:
由KAUST和AUB等机构提出的Reasoning Vectors,该工作通过任务向量差值提取并转移强化学习获得的推理能力,首次证明复杂推理能力可作为模块化向量在兼容模型间复用。研究者利用相同初始化的QWEN2.5模型,通过监督微调(SFT)与群体相对策略优化(GRPO)的参数差值,成功分离出与数据无关的通用推理增强向量。实验表明,将该向量直接叠加至兼容指令微调模型后,在GSM8K数学推理(+4.9%)、HumanEval代码生成(+4.3%)、SciQ科学问答(+1.7%)及BigBenchHard逻辑推理(+12.3%)等基准测试中均取得显著提升,且在对抗性测试中保持鲁棒性。消融实验显示移除推理向量会导致GSM8K性能骤降11.8%,验证了向量对推理能力的核心贡献。研究还发现跨领域迁移的可行性,数学训练的推理向量可使代码生成任务提升1.8%,反之亦然。该方法仅需两次张量运算即可完成推理能力增强,为复用开源模型算力提供了新范式,使复杂推理能力的获取从计算密集型训练转向轻量级模型编辑,显著降低高性能推理模型的构建门槛。
论文来源:hf
Hugging Face 投票数:31
论文链接:
https://hf.co/papers/2509.01363
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.01363
(10) PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning

论文简介:
由阿里巴巴云计算团队提出了PVPO(Pre-Estimated Value-Based Policy Optimization),该工作针对传统强化学习方法在复杂任务中依赖多次采样和组内比较导致的局部最优及高计算成本问题,提出了一种基于预估价值的策略优化框架。PVPO通过引入参考模型作为优势参考锚点,并结合数据预采样策略,有效解决了组策略方法中累积偏差和样本效率低下的核心痛点。
核心创新包括:1)静态V值估计机制,通过预训练参考模型生成任务奖励锚点,替代传统动态组内平均值,显著降低策略更新方差;2)组采样策略,利用参考模型离线评估样本难度,过滤低价值数据并生成零准确率样本的高质量轨迹,提升训练效率。实验在多跳问答(Musique、HotpotQA等)和数学推理(AIME、MATH500等)9个数据集上验证,PVPO在7B参数模型下实现平均精度提升8个百分点,训练速度提升1.7-2.5倍,同时在低采样预算下保持97%性能的同时减少60%计算成本。该方法不仅在多领域任务中取得SOTA表现,还展现出跨模型规模的稳定扩展能力,为大语言模型的高效强化学习提供了新范式。
论文来源:hf
Hugging Face 投票数:28
论文链接:
https://hf.co/papers/2508.21104
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.21104
(11) Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR

论文简介:
由深圳先进院、国科大和RITzz-AI等机构提出了PACS(imPlicit Actor Critic coupling via a Supervised learning framework),该工作通过将强化学习与可验证奖励(RLVR)问题转化为监督学习任务,实现了Actor-Critic的隐式耦合。传统RLVR方法面临奖励稀疏和策略梯度更新不稳定的问题,PACS创新性地将结果奖励视为监督学习标签,通过交叉熵损失优化由策略模型参数化的评分函数,使得梯度更新同时包含策略梯度和奖励预测两个分量,从而在单个网络中隐式耦合策略改进(Actor)和奖励估计(Critic)角色。理论分析表明该方法本质恢复了经典策略梯度更新,同时消除时序错位问题。在数学推理任务上,PACS在AIME 2025的pass@256指标达到59.78%,较PPO和GRPO分别提升13.32和14.36个百分点,同时展现出更好的探索-利用平衡和训练效率。该方法通过统一策略学习与奖励估计的监督框架,为大语言模型的后训练优化提供了新范式,相关代码和数据已开源。
论文来源:hf
Hugging Face 投票数:22
论文链接:
https://hf.co/papers/2509.02522
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.02522
(12) Jointly Reinforcing Diversity and Quality in Language Model Generations

论文简介:
由Tianjian Li等来自Meta FAIR、Carnegie Mellon University和Johns Hopkins University的研究者提出了Diversity-Aware Reinforcement Learning(Darling),该工作通过引入语义级多样性度量和质量奖励的联合优化框架,解决了语言模型后训练阶段多样性退化的问题。传统强化学习方法在提升响应质量时往往导致输出分布过度集中,而Darling通过训练语义分类器对生成内容进行语义等价性划分,并将归一化的多样性得分与质量奖励相乘,形成双重优化目标。在非验证任务(指令遵循、创意写作)和验证任务(数学竞赛)的多模型实验中,Darling均表现出显著优势:在AlpacaEval 2.0等基准测试中,Llama-3.3-70B-Instruct模型经Darling优化后,质量指标(如长度控制胜率)提升17.1%,多样性指标(Distinct)提升44.8%;在数学竞赛任务中,Qwen3-14B-Base模型的pass@1和pass@128分别提升10.3%和10.16%。该方法的核心创新在于:1)提出基于语义分类器的可扩展多样性信号,突破表面词汇差异的局限;2)通过乘性奖励融合机制实现质量与多样性的协同优化;3)实验证明显式多样性优化能促进强化学习中的策略探索,反而提升复杂任务的质量表现。代码和模型已在GitHub开源,为解决语言模型生成多样性退化提供了新的技术路径。
论文来源:hf
Hugging Face 投票数:22
论文链接:
https://hf.co/papers/2509.02534
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.02534
(13) Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models

论文简介:
由腾讯等机构提出了Think-In Games(TiG)框架,该工作通过将强化学习(RL)与大语言模型(LLM)结合,使LLM能够通过游戏环境交互发展程序性理解,同时保持其推理和解释能力。研究指出,LLM虽擅长复杂推理但缺乏动态决策能力,而传统RL方法依赖大量数据且决策过程不透明。TiG通过将RL决策转化为语言建模任务,让LLM生成语言指导的策略,并通过在线强化学习根据环境反馈优化策略。实验表明,TiG在《王者荣耀》等MOBA游戏中实现了declarative knowledge(知道什么)与procedural knowledge(知道如何做)的融合,在显著降低数据和计算需求的同时,达到甚至超越传统RL方法的性能。此外,TiG通过自然语言解释决策过程,提升了复杂交互任务的透明性和可解释性。该框架为开发兼具行动能力与推理能力的AI系统提供了新方向。
论文来源:hf
Hugging Face 投票数:22
论文链接:
https://hf.co/papers/2508.21365
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.21365
(14) DCPO: Dynamic Clipping Policy Optimization

论文简介:
由Baichuan.inc等机构提出的Dynamic Clipping Policy Optimization(DCPO)通过动态调整剪辑边界和优势标准化技术,有效解决了强化学习中零梯度问题。该方法引入动态剪辑策略,根据token先验概率自适应调整剪辑边界,增强低概率token的探索空间;同时采用平滑优势标准化技术,通过累积训练步骤的奖励分布优化响应级利用效率。实验显示,DCPO在四个数学推理基准测试中均取得最优表现,在Qwen2.5-Math-7B模型上AIME24基准的Avg@32指标达到38.8,显著优于GRPO(32.1)和DAPO(31.6)。在Qwen2.5-14B模型上AIME25基准的Avg@32达到19.0,较GRPO(10.5)和DAPO(15.3)有大幅提升。DCPO将非零优势比例平均提升28%,训练效率较DAPO提高一倍,token剪辑比例降低一个数量级。该方法通过动态适应token概率分布特性,在保持高置信度token更新稳定性的同时,显著增强低概率token的探索能力,同时通过累积优势标准化有效缓解高熵采样导致的训练波动问题,为大语言模型的强化学习提供了更高效的数据利用和更稳定的优化路径。
论文来源:hf
Hugging Face 投票数:19
论文链接:
https://hf.co/papers/2509.02333
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.02333
(15) Beyond Correctness: Harmonizing Process and Outcome Rewards through RL Training

论文简介:
由亚马逊和伊利诺伊大学厄巴纳-香槟分校提出了PROF(Process Consistency Filter)框架,该工作通过一致性驱动的样本选择策略,有效整合了细粒度但存在噪声的过程奖励模型(PRM)与准确但粗粒度的结果奖励模型(ORM),解决了强化学习中推理任务的奖励信号矛盾问题。PROF通过评估PRM与ORM的一致性,过滤掉结果正确但推理错误或结果错误但推理合理的样本,在保持正负样本平衡的同时消除冲突梯度。实验表明,PROF与GRPO结合的PROF-GRPO方法相比传统奖励混合方案,在数学推理基准测试中平均准确率提升超4%,且显著改善了中间推理步骤的质量。通过蒙特卡洛估计和LLM评判验证,PROF-GRPO生成的推理链更符合逻辑、步骤更完整。该方法通过分离正确/错误样本分组过滤、动态平衡样本比例等设计,在Qwen和LLaMA模型上均展现出鲁棒性,同时避免了奖励劫持问题,为构建可解释的推理系统提供了新思路。
论文来源:hf
Hugging Face 投票数:18
论文链接:
https://hf.co/papers/2509.03403
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.03403
(16) Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding

论文简介:
由香港科技大学(广州)、广东工业大学和StepFun AI等机构提出了Video-MTR,该工作针对长视频理解任务提出了一种强化多轮推理框架,通过迭代选择关键视频片段和问题理解机制,显著提升了模型在复杂长视频场景下的推理能力。现有方法多采用静态推理或依赖外部视觉语言模型,存在信息丢失和端到端训练困难的问题。Video-MTR创新性地构建了多轮交互式推理范式,使模型能够基于当前理解状态动态选择关键帧片段,并通过双层奖励机制优化推理过程:轨迹级奖励基于最终答案正确性提供全局监督,回合级奖励则通过帧-问题相关性评估实现局部反馈。为解决训练数据不足问题,研究团队融合NExT-GQA和QVHighlights数据集构建了8K高质量标注样本,并设计动态探索引导策略促进多轮检索行为。在VideoMME、MLVU和EgoSchema三大基准测试中,Video-MTR在32帧输入条件下超越多个使用300+帧的SOTA模型,尤其在MLVU测试集达到48.4%的准确率(仅次于GPT-4o的54.9%),同时展现出对视频时长的强适应性——在VideoMME长视频子集上相比基线模型提升6.3%。实验表明,该框架通过高质量监督信号和强化学习的结合,在仅使用传统方法1/100数据量的情况下实现性能超越,为长视频理解提供了高效且可扩展的解决方案。
论文来源:hf
Hugging Face 投票数:16
论文链接:
https://hf.co/papers/2508.20478
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.20478
(17) Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers

论文简介:
由CAMEL-AI等机构提出了Loong项目,该工作构建了一个开源框架,通过可验证的合成数据生成提升大语言模型在多领域推理任务中的表现。核心贡献包括:1)LOONGBENCH数据集,包含8,729个跨12个推理密集型领域(如高等数学、化学、逻辑学等)的人工审核样本,每个样本均附带可执行代码和验证答案;2)LOONGENV环境,支持多种提示策略生成可验证的问答对,并通过代码执行与自然语言推理双重验证机制确保数据质量;3)对12个领域基准测试的全面分析,揭示了当前模型在逻辑、数学编程等领域的性能瓶颈;4)对合成数据质量的深度评估,验证了不同生成策略在正确性、难度控制和多样性方面的表现。实验表明,Few-Shot提示在生成稳定性上表现最佳(92.6%通过率),而Evol-Instruct策略虽通过率较低(29.8%),但能生成更具挑战性的推理任务。该框架通过代码执行与自然语言推理的双重验证机制,构建了从数据生成到强化学习的闭环系统,为多领域推理能力的持续提升提供了基础设施支持。
论文来源:hf
Hugging Face 投票数:14
论文链接:
https://hf.co/papers/2509.03059
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.03059
(18) Planning with Reasoning using Vision Language World Model

论文简介:
由Meta FAIR等机构提出的Vision Language World Model(VLWM)是一种基于自然视频训练的视觉语言世界模型,通过语言表征实现高效高阶任务规划。该模型通过压缩视频为Tree of Captions并结合LLM自迭代精炼,提取包含目标描述、动作序列和世界状态变化的结构化轨迹作为预测目标。VLWM同时学习动作策略和动态模型,支持系统1的快速文本生成式计划解码,以及系统2的基于成本最小化的反思规划——通过自监督训练的批评模型评估候选动作序列与目标状态的语义距离,实现内部试错推理。模型在180k视频(800天时长)上训练,包含21M节点的Tree of Captions和2.2M目标-计划对。在Visual Planning for Assistance基准测试中,VLWM在COIN和CrossTask数据集上以8B参数量超越70B参数的VidAssist,在T=3/4设置下平均提升3.2%成功率、3.9%平均准确率和2.9%平均IoU。PlannerArena人类评估显示系统2模式获得1261 Elo分数,较系统1提升27%,且优于400B参数的Llama-4-Maverick。在RoboVQA基准中以74.2 BLEU-1得分位列第二,零样本WorldPrediction-PP任务中以45.4%准确率刷新SOTA。该模型通过语言空间的抽象表征突破了传统像素级生成式世界模型的计算效率瓶颈,在保持可解释性的同时实现了从感知到规划的端到端优化。
论文来源:hf
Hugging Face 投票数:14
论文链接:
https://hf.co/papers/2509.02722
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.02722
(19) UItron: Foundational GUI Agent with Advanced Perception and Planning

论文简介:
由Meituan等机构提出了UItron,该工作通过系统性数据工程和交互基础设施构建,开发了具备先进感知、定位和规划能力的GUI代理基础模型,在中文场景优化和真实设备交互方面取得显著进展
UItron针对GUI代理开发中的轨迹数据稀缺、交互环境缺失和基础模型能力不足三大挑战,构建了包含数据工程与交互基础设施的系统性解决方案。在数据工程方面,通过多源数据统一、轨迹蒸馏和百万级中文场景人工标注,构建了覆盖感知、规划和多模态任务的训练数据集,并创新性采用观察-思考-行动的多层级推理格式。交互基础设施方面,开发了连接PC和移动设备的云真机环境,支持轨迹自动记录和在线强化学习。训练策略上,采用三阶段范式:首先通过GUI感知任务(定位/字幕/问答/OCR)强化基础理解能力,继而通过前向规划与回溯任务提升动作预测能力,最终基于课程强化学习框架结合离线密集奖励与在线任务奖励优化复杂推理能力。特别针对中文场景,构建了覆盖TOP100应用的百万级标注轨迹和云真机评估环境,实验显示UItron-72B在中文离线场景的任务成功率较UI-TARS提升14.6%,在线场景提升15.2%,在ScreenSpot等基准测试中超越现有方法,实现了GUI代理在真实应用部署的关键突破。
论文来源:hf
Hugging Face 投票数:12
论文链接:
https://hf.co/papers/2508.21767
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.21767
(20) Model-Task Alignment Drives Distinct RL Outcomes

论文简介:
由浙江大学、新加坡国立大学和香港科技大学的研究人员提出了《Model-Task Alignment Drives Distinct RL Outcomes》,该工作发现模型与任务对齐程度是决定强化学习效果的关键因素。研究表明,当大语言模型在目标任务上已具备较强能力(通过pass@k指标衡量)时,单样本训练、无需准确奖励信号甚至仅用负样本训练等反直觉现象均能有效提升性能;而在模型与任务对齐度较低的场景中,这些方法失效,传统强化学习仍具优势。实验覆盖Qwen和Llama系列模型在数学推理(AIME24、MATH500等)和逻辑推理(SynLogic、BBH等)任务上的表现,验证了对齐度对奖励信号鲁棒性、训练数据需求及负样本有效性的核心影响。研究还指出,测试时强化学习(TTRL)和样本选择策略的效果同样依赖对齐度,且负样本训练虽能维持探索空间但未必提升准确率。该成果为优化大语言模型的强化学习策略提供了理论依据,强调需结合模型预训练能力与任务特性设计训练方案。
论文来源:hf
Hugging Face 投票数:8
论文链接:
https://hf.co/papers/2508.21188
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.21188
(21) Mimicking the Physicist's Eye:A VLM-centric Approach for Physics Formula Discovery

论文简介:
由 UNC、上海人工智能实验室、复旦大学等机构提出了 VIPER-R1,该工作提出了一种多模态视觉语言模型(VLM)框架,通过整合视觉感知、轨迹数据和符号推理,模拟物理学家从观测数据中发现物理公式的科学推理过程。VIPER-R1 核心创新包括:1)Motion Structure Induction(MSI)训练阶段,通过监督微调结合因果链式推理(C-CoT)引导模型学习从相空间图谱和时序轨迹中推导符号假设;2)Reward-Guided Symbolic Calibration(RGSC)阶段,利用强化学习优化符号表达式的拓扑结构正确性;3)Symbolic Residual Realignment(SR²)推理阶段,模型作为智能体主动调用外部符号回归工具对理论假设进行残差校准,实现理论模型与实证数据的动态对齐。研究还构建了包含5000个实例的多模态物理公式发现基准数据集 PhysSymbol,实验表明 VIPER-R1 在结构得分(0.812)和准确率(0.487)上显著超越现有 VLM 模型(Claude-4-Sonnet 结构得分0.518),最终残差校准后的均方误差(0.032)较最优基线降低近3倍,验证了视觉感知驱动的符号发现范式在物理定律挖掘任务中的有效性。
论文来源:hf
Hugging Face 投票数:5
论文链接:
https://hf.co/papers/2508.17380
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.17380
(22) HERMES: Human-to-Robot Embodied Learning from Multi-Source Motion Data for Mobile Dexterous Manipulation

论文简介:
由上海人工智能实验室等机构提出了HERMES,该工作提出了一种面向移动式双手机械手灵巧操作的人机动作迁移框架。HERMES通过三个核心创新实现关键技术突破:首先构建了统一的强化学习方法,能够将遥操作仿真数据、动作捕捉数据和原始视频中提取的人类手部动作转化为机器人可行行为,其通用奖励函数设计避免了复杂任务特定奖励工程;其次开发了端到端视觉sim2real迁移方案,采用DAgger蒸馏算法将状态空间策略转换为视觉策略,并提出基于深度图像增强与混合控制的跨模态对齐方法,有效弥合了仿真与现实差异;最后通过集成ViNT导航模型与闭环PnP定位机制,实现了从长距离导航到精准操作的全流程自主控制,在室内室外多种非结构化场景中成功完成复杂操作任务。实验表明该方法在7项模拟任务中实现90%以上成功率,真实场景任务成功率较基线提升54.5%,导航定位误差控制在2-3厘米级,为移动操作机器人提供了从感知到执行的完整解决方案。
论文来源:hf
Hugging Face 投票数:1
论文链接:
https://hf.co/papers/2508.20085
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.20085
(23) SATQuest: A Verifier for Logical Reasoning Evaluation and Reinforcement Fine-Tuning of LLMs

论文简介:
由中国科学院成都计算机应用研究所、中国科学院大学、理想汽车等机构提出了SATQuest,该工作构建了一个系统化验证器,通过生成基于CNF实例的多维逻辑推理问题,实现对大语言模型(LLM)推理能力的细粒度评估与强化微调。SATQuest从实例规模、问题类型(SAT决策/搜索、最大可满足性、最小修正/矛盾子集)和问题格式(数学符号、DIMACS机器格式、故事化叙事)三个正交维度控制变量,利用SAT求解器进行客观答案验证,并支持通过强化学习优化模型推理链长度。研究发现当前LLM在跨格式泛化(如数学符号与自然语言叙事)和复杂问题类型(如最小矛盾子集)上存在显著缺陷,强化微调虽能提升特定任务性能,但格式适应性瓶颈仍未突破。该工具为逻辑推理能力的可控分析提供了基准框架,同时揭示了现有模型在形式转换与全局优化推理上的根本性局限。
论文来源:hf
Hugging Face 投票数:1
论文链接:
https://hf.co/papers/2509.00930
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.00930