本文选自 Hugging Face Daily Paper 九月论文,论文解读由 Intern-S1 等 AI 生成。
(1) Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing

论文简介:
由Gensyn AI Team等机构提出了SAPO(Swarm sAmpling Policy Optimization),该工作提出了一种去中心化异步强化学习后训练算法,通过异构计算节点网络实现语言模型(LM)的高效后训练。SAPO允许各节点独立管理策略模型,同时共享解码后的rollouts(如纯文本形式),从而避免传统分布式RL的通信瓶颈和硬件依赖。在控制实验中,SAPO通过平衡本地与共享rollouts(4:4比例)使累计奖励提升94%,并展现出更强的样本效率和任务性能。其核心机制是通过经验共享传播"Aha时刻",加速学习过程,同时无需同步权重或硬件一致性要求。在开源演示中,数千个社区贡献的异构节点(运行小语言模型SLM)验证了SAPO的可扩展性,结果显示中等容量模型(如0.5B参数Qwen2.5)在群体训练中显著优于孤立训练,而更强模型(如0.6B参数Qwen3)的性能差异则趋于平缓。研究还揭示过度依赖外部rollouts可能导致学习震荡,未来需探索动态采样策略和混合方法以提升稳定性。SAPO为低成本、去中心化增强模型推理能力提供了新范式,其跨模态特性也为多智能体协作学习开辟了新方向。
Hugging Face 投票数:551
论文链接:
https://hf.co/papers/2509.08721
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.08721
(2) A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code

论文简介:
由北京大学、清华大学等机构提出了A.S.E仓库级代码安全评估基准,该工作针对现有代码安全评估基准存在的片段化测试、评估不稳定、上下文关联不足等问题,构建了首个基于真实CVE漏洞的仓库级安全评估基准。A.S.E通过从GitHub筛选40个含CVE记录的高质量开源项目,经语义保持变换生成120个测试案例,覆盖SQL注入、路径穿越等四大常见漏洞类型及Java/Python/Go等五种编程语言。其核心创新在于:采用Docker容器化环境实现可复现评估,结合CodeQL等工业级分析工具定制CWE漏洞检测规则,构建了包含安全修复、构建质量、生成稳定性三个维度的评估体系。通过评估26个主流大模型发现:Claude-3.7-Sonnet以63.01分位列综合榜首,但其安全得分仅46.72分,凸显当前模型安全能力不足;开源模型Qwen3-235B-A22B-Instruct以48.06分反超Claude获得安全单项冠军,显示开源模型在安全领域的竞争力;实验特别揭示"快思考"解码策略(直接生成)在安全修复上显著优于"慢思考"(多步推理),表明复杂推理未必提升安全性能。该研究为代码大模型的安全性评估提供了新范式,其基准数据和评估框架已开源,为后续研究提供了重要基础设施。
Hugging Face 投票数:199
论文链接:
https://hf.co/papers/2508.18106
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.18106
(3) Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth

论文简介:
由曼彻斯特大学、杜伦大学和谢菲尔德大学等机构提出了Drivel-ology,该工作首次系统研究了大语言模型(LLMs)在理解"无意义但有深度"语言现象时的认知局限。研究团队构建了包含1200个跨语言样本的DRIVELHUB数据集,涵盖英、中、西、法、日、韩六种语言,通过严格的专家标注流程确保每个样本都具有隐含意义、道德推理或情感解读需求。论文设计了四大评估任务:Drivelology检测(二分类)、标注(多标签分类)、隐含叙事生成和叙事选择(含简单/困难模式),全面检验模型对非线性语义的理解能力。实验发现当前主流LLMs(如GPT-4、Claude-3、Qwen3等)普遍存在显著缺陷:在困难版叙事选择任务中最高准确率仅47.89%(14B参数Qwen3),生成任务的GPT-4评分普遍低于3.5分(满分5分),且模型规模与推理能力呈强相关性。研究揭示了统计流畅性与认知理解间的本质差距,特别在处理文化嵌入型双关(如Switchbait)和多层悖论时,模型常陷入字面逻辑陷阱或生成无意义解释。论文通过Prompt语言对比实验发现中文指令在直接理解任务中更具优势,而英文指令更利于复杂逻辑推理。该工作为提升AI系统对创造性语言的深度理解提供了关键基准,并开源数据与代码以推动社会语义建模研究。
Hugging Face 投票数:198
论文链接:
https://hf.co/papers/2509.03867
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.03867
(4) VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model

论文简介:
由西湖大学、北京邮电大学等机构提出了VLA-Adapter,该工作通过系统分析视觉-语言到动作空间的桥接范式,提出了一种轻量级的视觉-语言-动作模型架构。研究发现中间层视觉特征与深度层查询特征的协同作用能有效提升动作生成质量,进而设计了包含桥接注意力机制的策略网络,通过可学习参数动态调节多模态信息注入强度。实验表明,该方法在仅使用0.5B参数规模的Qwen2.5骨干网络时,无需机器人数据预训练即可在LIBERO、CALVIN等基准测试中达到甚至超越7B参数模型的性能表现。其推理速度达到219.2Hz,较OpenVLA提升3倍以上,且在单卡消费级GPU上8小时即可完成训练。该工作通过优化多模态信息融合路径,在显著降低模型规模和训练成本的同时,实现了动作生成性能与推理效率的突破,为轻量化具身智能模型的落地应用提供了新的技术路径。
Hugging Face 投票数:189
论文链接:
https://hf.co/papers/2509.09372
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.09372
(5) The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

论文简介:
由牛津大学、上海人工智能实验室、新加坡国立大学等机构提出了《The Landscape of Agentic Reinforcement Learning for LLMs: A Survey》,该工作系统性地定义了大语言模型的智能体增强范式(Agentic RL),通过将传统单步马尔可夫决策过程(MDP)扩展为部分可观测的多步POMDP框架,推动LLM从静态文本生成器进化为具备规划、工具使用、记忆、推理等动态决策能力的自主智能体。研究团队构建了双维度分类体系:从能力视角解析了Agentic RL在规划(包括蒙特卡洛树搜索引导与策略梯度优化)、工具调用(从ReAct式提示到多轮工具集成推理)、记忆管理(检索增强到结构化图记忆)、自我改进(基于DPO的反射机制与自演化课程)等核心模块的优化路径;从应用视角覆盖了代码生成(DeepSWE等自动化软件工程框架)、数学推理(非形式化与形式化证明)、GUI导航(WebDancer等多模态交互)、多智能体协作等场景,并系统梳理了500余项最新研究。论文特别强调RL在解决长时程信用分配(如多轮工具调用的稀疏奖励问题)、构建动态记忆管理系统(如层级化图结构记忆)及实现跨模态主动认知(视觉-语言模型的接地推理)中的关键作用。研究还整合了LLM智能体开发所需的开源环境(WebEnv、ToolEmu等)、RL框架(GRPO、ASPO等算法变体)及评估基准(SWE-Bench、GAIA等),并指出可信赖性、训练规模化与环境复杂度提升是未来核心挑战。
Hugging Face 投票数:177
论文链接:
https://hf.co/papers/2509.02547
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.02547
(6) Why Language Models Hallucinate

论文简介:
由OpenAI、Georgia Tech等机构提出的这项研究揭示了语言模型产生幻觉(hallucination)的统计根源,指出当前训练和评估体系存在根本性缺陷。论文通过建立生成错误与二分类问题的数学关联,证明即使训练数据无错误,语言模型仍会因交叉熵优化目标产生幻觉。研究发现,预训练阶段的幻觉源于统计学习中的固有矛盾:模型校准要求必然导致错误生成,而这种错误率与二分类任务中的误分类率存在2倍以上的数学关系。特别在处理无规律事实(如生日日期)时,模型幻觉率下限由训练数据中单次出现的提示比例决定,这解释了为何现有模型难以避免此类错误。
研究进一步指出,后训练阶段的评估机制加剧了幻觉问题。当前主流基准测试(如MMLU-Pro、GPQA等)普遍采用二元评分体系,对不确定回答(如"I don't know")施加惩罚,导致模型被迫进行猜测。这种评分方式使得最优策略永远是输出自信的猜测而非诚实表达不确定性,形成了"考试文化"驱动的恶性循环。论文建议在评估中引入显式置信度阈值(如要求>t置信度才作答),通过调整现有基准的评分规则来改变激励机制。这种修改无需新增评估体系,而是对现有主流测试进行渐进式改革,有望在保持模型能力的同时显著降低幻觉率。研究强调,解决幻觉问题需要技术改进与评估体系变革的协同,单纯依赖后训练优化难以突破当前瓶颈。
Hugging Face 投票数:163
论文链接:
https://hf.co/papers/2509.04664
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.04664
(7) LongLive: Real-time Interactive Long Video Generation

论文简介:
由NVIDIA、MIT等机构提出的LongLive,通过帧级自回归框架实现了实时交互式长视频生成。该工作针对长视频生成的效率与质量平衡难题,创新性引入KV-recache机制,在提示词切换时动态刷新缓存状态,确保视觉一致性与语义连贯性;采用流式长视频调优策略,通过分段生成与教师模型监督,实现训练与推理的一致性,有效缓解长序列生成的退化问题;结合短窗口注意力与帧级注意力下沉技术,在保证长程一致性的同时将推理速度提升28%。实验表明,该方法仅需32个GPU天即可将13亿参数模型Fine-tune至分钟级视频生成能力,在单张H100上实现20.7FPS的实时推理,支持最长240秒视频生成,并通过INT8量化将模型体积压缩至1.4GB。在VBench基准测试中,其短视频质量得分达84.87,长视频语义一致性指标领先现有方法,为交互式长视频生成提供了高效可靠的解决方案。
Hugging Face 投票数:159
论文链接:
https://hf.co/papers/2509.22622
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.22622
(8) A Survey of Reinforcement Learning for Large Reasoning Models

论文简介:
由清华大学、上海人工智能实验室等机构提出了《A Survey of Reinforcement Learning for Large Reasoning Models》,该工作系统性回顾了强化学习(RL)在大型语言模型(LLMs)推理能力中的应用进展,重点探讨了RL作为提升模型逻辑任务处理能力的核心方法论,从基础组件、核心问题、训练资源到下游应用的完整框架,并提出了面向人工超智能(ASI)的规模化发展路径。
研究指出,RL通过可验证奖励(如数学答案正确性、代码测试通过率)驱动模型实现长链推理、反思和自我修正,成为当前大型推理模型(LRMs)的核心训练范式。论文详细分析了RL在奖励设计(包括规则奖励、生成奖励、密集奖励和无监督奖励)、策略优化(策略梯度、批评家算法、免批评家算法及离策略优化)和采样策略(动态采样、结构化采样及超参数调节)三大基础组件的技术演进。特别强调了"验证者定律"(Verifier's Law)对任务可训练性的指导意义,即任务的客观可验证性直接影响RL的优化效率。
研究同时揭示了RL在LRMs应用中的核心争议:RL是强化已有能力还是发现新能力?与监督微调(SFT)相比,RL更擅长泛化而非记忆;模型先验知识的强弱如何影响训练效果;奖励类型应聚焦过程监督还是结果反馈。这些基础问题的探讨为后续算法改进提供了理论依据。
在训练资源层面,论文对比了静态语料库、动态环境和基础设施的适配性,指出当前资源复用性不足的局限。应用方面,RL已成功拓展至代码生成、智能体任务、多模态推理、多智能体协作、机器人控制及医疗诊断等领域,其中OpenAI o1和DeepSeek-R1等前沿模型验证了RL在复杂任务中的显著优势。未来方向聚焦于持续学习、基于记忆的RL、模型辅助RL、推理教学机制、预训练阶段集成RL等创新路径,旨在突破计算资源与算法设计的双重瓶颈,推动LRMs向通用智能演进。
Hugging Face 投票数:155
论文链接:
https://hf.co/papers/2509.08827
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.08827
(9) Reverse-Engineered Reasoning for Open-Ended Generation

论文简介:
由 ByteDance Seed、香港科技大学、北京大学等机构提出了 Reverse-Engineered Reasoning (REER) 范式,该工作通过逆向工程从高质量输出中生成推理轨迹,解决了开放性生成任务中缺乏明确奖励信号的挑战。研究团队创新性地将推理过程建模为梯度无关的搜索问题,利用困惑度作为质量代理,通过迭代局部搜索算法从已知优质结果反向推导出逻辑连贯的思维链。基于此方法构建的 DeepWriting-20K 数据集包含 20,000 条深度推理轨迹,覆盖文学创作、学术写作等 25 个领域。训练出的 DeepWriter-8B 模型在 LongBench、HelloBench 等基准测试中表现突出,在创意写作任务上与 GPT-4o 和 Claude 3.5 持平,在专业写作领域更超越 Claude 3.5,同时在超长文本生成任务中以 91.28 分显著优于 GPT-4o 的 83.1 分。该研究通过逆向工程思维链的创新范式,为小规模模型培养深度推理能力提供了新路径,其开源数据集和训练方法为开放性生成任务的研究提供了重要基础。
Hugging Face 投票数:142
论文链接:
https://hf.co/papers/2509.06160
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.06160
(10) A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers

论文简介:
由上海人工智能实验室等机构提出了《A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers》,该工作系统性地梳理了科学大语言模型(Sci-LLMs)的发展脉络与核心挑战,从数据基础到智能代理前沿,构建了科学数据与模型协同演进的完整框架。论文核心贡献包括:
提出科学数据统一分类与知识层次模型:首次建立涵盖文本、视觉、符号、结构化及时间序列数据的科学数据分类体系,并构建五层科学知识架构(事实层、理论层、方法技术层、建模层、洞察层),揭示科学数据多模态、跨尺度及领域特异性的本质特征。 全景式分析科学数据与模型生态:系统调研270+预训练与微调数据集,覆盖物理、化学、生命科学等六大领域,揭示科学数据在异构性、不确定性及动态演化方面的独特挑战;同时综述190+评估基准,指出评估范式正从静态测试转向过程导向的科学发现能力衡量。 揭示数据开发瓶颈与未来路径:指出当前科学数据面临实验数据稀缺、文本模态依赖、动态过程表征不足等系统性问题,提出构建闭环数据生态系统,强调自动化标注、专家验证与AI就绪性标准的重要性。 展望科学智能新范式:提出以自主科学代理为核心,通过多代理协作、工具调用与自我演化机制,实现假设生成、实验验证与知识更新的闭环系统,推动Sci-LLMs从工具演变为科学发现的主动参与者。
该工作为构建可信、持续演进的科学智能系统提供了 roadmap,强调数据基础与模型能力的共生关系,为加速数据驱动的科学发现奠定理论与实践基础。
Hugging Face 投票数:134
论文链接:
https://hf.co/papers/2508.21148
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.21148
(11) Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR

论文简介:
由MISRAJA等机构提出了Baseer,该工作针对阿拉伯语文档OCR的特殊挑战开发了专用视觉语言模型。阿拉伯语因其连笔书写、多变字体、发音符号和右到左书写方向,传统OCR系统难以有效处理。Baseer基于Qwen2.5-VL-3B-Instruct模型,采用解码器微调策略,在包含50万对合成与真实文档的混合数据集上训练,保留预训练视觉特征的同时优化语言适配能力。研究团队同时推出Misraj-DocOCR基准,包含400张专家验证的多样化阿拉伯语文档图像,解决了现有数据集标注错误和多样性不足的问题。实验显示Baseer在Misraj-DocOCR基准上实现0.25的词错误率(WER),显著优于GPT-4、Azure AI等商业系统及开源方案,在文本识别和结构解析指标(TEDS/MARS)均取得最优成绩。该工作证明了领域专用微调策略对多模态大模型的重要性,为形态复杂语言的OCR研究提供了新范式,其开源数据与模型将推动阿拉伯语文档数字化技术发展。
Hugging Face 投票数:121
论文链接:
https://hf.co/papers/2509.18174
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.18174
(12) EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning

论文简介:
由 Rutgers University 和 Adobe 等机构提出的 EPO(Entropy-regularized Policy Optimization)框架,针对多轮对话场景中大语言模型(LLM)代理的强化学习训练挑战,提出了一种创新的熵控制机制。该工作揭示了稀疏奖励环境下特有的“探索-利用级联失败”现象:早期阶段因奖励稀疏导致策略过早收敛到低熵的无效行为模式,后期阶段则因传统熵正则化失效引发策略熵剧烈震荡,形成“早阶段过度探索-晚阶段不确定性传播”的恶性循环。EPO 通过三重机制破解这一难题:1)轨迹感知的熵正则化,将策略熵计算扩展到整个多轮轨迹并按轨迹批次平均,捕捉长程决策的时序依赖;2)熵平滑正则化,通过维护历史熵均值窗口,对偏离历史范围的策略熵施加惩罚,抑制训练过程中的剧烈震荡;3)动态相位加权机制,采用指数衰减调度策略,在训练初期抑制过度探索,中期平衡探索与利用,后期强化收敛稳定性。理论分析表明 EPO 能保证熵方差单调递减并维持最优探索-利用平衡。实验在 ScienceWorld 和 ALFWorld 两个基准上验证,EPO 与 PPO 结合后在 ScienceWorld 中实现 152% 的成功率提升,与 GRPO 结合在 ALFWorld 取得 19.8% 的性能增益,显著优于 ReAct、SFT、AgentGym 等基线方法。消融实验表明熵平滑正则化对稳定训练至关重要,动态加权机制则加速了训练收敛。该研究证明多轮稀疏奖励场景需要区别于传统 RL 的熵控制范式,为 LLM 代理训练提供了新的理论框架和实践工具。
Hugging Face 投票数:120
论文链接:
https://hf.co/papers/2509.22576
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.22576
(13) Qwen3-Omni Technical Report

论文简介:
由Qwen团队提出了Qwen3-Omni,该工作通过Thinker-Talker MoE架构实现了文本、图像、音频、视频的统一多模态处理,在保持各模态性能无损的前提下显著提升跨模态推理能力。模型采用全新设计的Audio Transformer(AuT)编码器,基于2000万小时监督音频数据训练,配合多码本流式语音生成方案,在36个音频/音视频基准测试中取得32项开源SOTA和22项整体SOTA,性能超越Gemini-2.5-Pro等闭源模型。其核心创新包括:1)混合单模态与跨模态数据的预训练策略,实现模态间协同增强;2)多码本预测架构支持每帧即时语音合成,结合轻量级ConvNet将端到端首包延迟降至234ms;3)支持119种文本语言、19种语音识别语言和10种语音合成语言,可处理长达40分钟的音频输入;4)引入显式跨模态推理的Thinking模型和音频描述生成模块Qwen3-Omni-Captioner。实验表明该模型在保持文本/视觉性能与同规模单模态模型相当的同时,在音频理解、多语言交互、实时对话等场景展现显著优势,为多模态大模型的实用化部署提供了重要范式。
Hugging Face 投票数:120
论文链接:
https://hf.co/papers/2509.17765
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.17765
(14) HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning

论文简介:
由清华大学和字节跳动等机构提出了HuMo,该工作提出了一种基于协作多模态条件的人类中心视频生成框架。针对现有方法在文本、图像、音频多模态输入协调上的不足,HuMo通过构建高质量三模态数据集和两阶段渐进训练范式,有效解决了训练数据稀缺和多任务协作困难两大挑战。在数据层面,通过视频-图像检索匹配和语音-唇动对齐技术,构建了包含百万级文本-图像对和5万级音频同步样本的高质量数据集;在方法层面,采用最小侵入式图像注入策略保持基础模型文本生成能力,通过渐进式任务加权策略实现主体保留与音频-视觉同步的协同学习,并提出预测式注意力机制引导模型关联音频与面部区域;在推理阶段,设计了时间自适应分类器无关引导策略,动态调整不同去噪阶段的模态权重。实验表明,HuMo在文本-图像、文本-音频、文本-图像-音频三种输入组合下均超越现有方法,在主体一致性、音频同步性和文本可控性等指标上达到最优,验证了其作为统一多模态视频生成框架的有效性。该工作为多模态内容创作提供了新的技术范式,相关数据和代码已开源。
Hugging Face 投票数:117
论文链接:
https://hf.co/papers/2509.08519
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.08519
(15) RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation

论文简介:
由微软、清华大学和加州大学圣地亚哥分校的研究人员提出了Repository Planning Graph(RPG),该工作引入了一种结构化表示方法,通过统一提案级和实现级规划解决自然语言在代码库生成中的模糊性和结构缺陷。RPG将功能目标、文件结构、数据流和函数设计编码为图结构,节点表示层级功能模块(从抽象能力到具体文件/类/函数),边刻画模块间数据流和文件依赖关系,为长期规划提供紧凑且可解释的蓝图。基于此,研究团队开发了ZeroRepo框架,分三阶段实现代码库生成:首先通过探索-利用策略从大规模特征树中构建功能图,接着扩展为包含文件结构、数据流和接口设计的完整RPG,最后按拓扑顺序执行图引导的测试驱动开发。为评估规划能力,团队构建了包含六个真实项目(如scikit-learn、django)的RepoCraft基准,涵盖1052个任务,从功能覆盖率、新颖性、准确性及代码规模四个维度对比。实验表明,ZeroRepo在功能覆盖率达81.5%(超Claude Code 27.3个百分点),通过率69.7%(超Claude Code 35.8个百分点),生成代码库规模达36K LOC(是Claude Code的3.9倍,其他基线的64倍)。分析显示RPG支持功能规模近线性增长,代码规模同步扩展,且图引导的定位效率提升30-50%。该研究证明图结构表示在复杂代码库生成中具有显著优势,为大规模软件工程任务提供了新范式。
Hugging Face 投票数:117
论文链接:
https://hf.co/papers/2509.16198
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.16198
(16) VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models

论文简介:
由阿里巴巴团队提出的VCRL(Variance-based Curriculum Reinforcement Learning)针对大语言模型(LLM)在数学推理任务中的强化学习训练问题,提出了一种基于组奖励方差的动态课程学习框架。该方法通过分析现有基于rollout的强化学习方法(如GRPO、DAPO、GSPO)未考虑样本难度与模型能力匹配的问题,发现组奖励方差能够有效反映样本对当前模型的难度水平:样本过易或过难时方差较低,而中等难度样本(模型处于关键学习阶段)的方差最高。VCRL通过方差动态采样筛选高价值样本,并结合记忆库回放机制提升训练效率和稳定性。实验在AIME-2024/2025、MATH500等五个数学基准上验证了VCRL的优势,结果显示其在Qwen3-4B和Qwen3-8B模型上分别将平均性能从基线的26.68和32.96提升至49.43和57.76,显著优于现有方法。理论分析表明VCRL的梯度更新更稳定,训练动态曲线也显示其在早期收敛速度和最终性能上的双重优势。该方法通过动态控制训练难度,为LLM的高效强化学习提供了新思路。
Hugging Face 投票数:114
论文链接:
https://hf.co/papers/2509.19803
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.19803
(17) UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

论文简介:
由字节跳动等机构提出了UI-TARS-2,该工作通过系统性训练方法解决了GUI智能体开发中的数据扩展性、多轮强化学习、GUI操作限制和环境稳定性四大挑战。核心贡献包括:1)数据飞轮机制实现模型与训练数据的迭代优化,通过持续预训练、监督微调和多轮RL形成自强化循环;2)构建支持文件系统/终端交互的混合GUI环境,突破纯界面操作限制;3)开发异步状态化环境和流式更新的多轮RL框架,提升长序列训练稳定性;4)建立统一沙盒平台实现跨浏览器/虚拟机/模拟器的百万级rollout。实验显示UI-TARS-2在GUI基准测试中取得显著提升:Online-Mind2Web(88.2)、OSWorld(47.5)、WindowsAgentArena(50.6)、AndroidWorld(73.3),超越Claude和OpenAI代理;游戏环境均分59.8(60%人类水平),在LMGame-Bench与前沿闭源模型相当。特别在长时程信息检索任务(BrowseComp)和软件工程基准(Terminal Bench)中展现跨领域泛化能力。训练动态分析揭示了多轮RL中熵值上升、思考长度周期性变化等独特现象,为大规模智能体训练提供方法论参考。
Hugging Face 投票数:112
论文链接:
https://hf.co/papers/2509.02544
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.02544
(18) Quantile Advantage Estimation for Entropy-Safe Reasoning

论文简介:
由中科大等机构提出了Quantile Advantage Estimation(QAE),该工作针对强化学习中策略熵调控难题,通过分位数基线替代传统均值基线,实现了熵安全的推理增强。研究发现,现有方法在训练过程中常面临熵崩溃(过早收敛)与熵爆炸(无效探索)的双重风险,其根源在于均值基线对奖励异常值的敏感性导致负优势样本被不当惩罚。QAE通过引入K分位数基线,构建响应级别的双模态门控机制:当问题难度高于阈值(p≤1-K)时强化稀有成功案例,当问题难度较低时则聚焦剩余失败案例的修正。理论证明表明,在一阶softmax更新下,该方法能提供双侧熵安全保证,通过控制单步熵变上下界有效抑制熵爆炸与崩溃。实验显示,在Qwen3-8B/14B模型上,QAE通过简单的基线替换即可稳定熵值波动,使80%响应获得零优势赋值,显著提升credit assignment效率。在AIME'24/'25和AMC'23基准测试中,QAE在保持pass@16指标稳定的同时,使pass@1指标获得6.7%-21.5%的显著提升,且与Clip-Cov/KL-Cov等现有方法形成良好协同。该工作揭示了基线设计在熵调控中的核心作用,为强化学习中的探索-利用平衡提供了新的理论框架与实践工具。
Hugging Face 投票数:111
论文链接:
https://hf.co/papers/2509.22611
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.22611
(19) SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention

论文简介:
由清华大学和UC伯克利等机构提出了Sparse-Linear Attention (SLA),该工作提出了一种可训练的混合稀疏-线性注意力机制,通过动态分类注意力权重为关键、边缘和可忽略三类,分别采用完整注意力、线性注意力和计算跳过策略,在扩散模型中实现了计算复杂度的显著降低。研究发现扩散模型的注意力权重可分解为高秩的稀疏重要部分和低秩的密集次要部分,传统方法单独使用稀疏或线性注意力难以兼顾效率与质量。SLA创新性地将块级稀疏注意力与低秩线性注意力融合,在关键区域保留完整计算,边缘区域采用线性复杂度近似,可忽略区域直接跳过,通过统一GPU内核实现前向和反向传播。实验表明,SLA在Wan2.1-1.3B视频生成模型上仅需2000步微调即实现95%注意力计算量压缩,保持生成质量的同时获得13.7倍注意力内核加速和2.2倍端到端加速,显著优于VSA、VMoBa等基线方法。该方法在ImageNet图像生成任务中也展现出87.5%的计算压缩率,且FID指标优于完整注意力模型,验证了其跨模态的有效性。
Hugging Face 投票数:105
论文链接:
https://hf.co/papers/2509.24006
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.24006
(20) R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning

论文简介:
由腾讯混元团队和中科院自动化所提出了R-4B,该工作通过双模退火和强化学习实现多模态大语言模型的自适应思考能力,使模型能够根据问题复杂度动态切换思考与直接回答模式,在保持推理性能的同时显著降低计算成本。研究针对现有模型在简单问题上冗余思考导致的效率问题,创新性地设计了双模退火训练策略,通过构建包含549万条推理数据和1087万条直接回答数据的混合数据集,使模型同时掌握两种响应模式。在此基础上提出的双模策略优化(BPO)算法,采用数学领域规则奖励信号驱动强化学习,在无需复杂奖励工程的情况下,通过强制生成思考与非思考双路径响应,有效解决了模型偏好非思考模式的"思考萎缩"问题。实验表明,R-4B-RL在MMMU-val等25项基准测试中超越Qwen2.5-VL-7B,并在数学推理和图表理解任务中达到与16B参数模型Kimi-VL-A3B-Thinking相当的水平,同时推理效率提升40%。该模型在保持70亿参数规模下,通过动态调整思考模式,在OCR等简单任务中输出token量仅66个(非思考模式57个),而在MathVista等复杂任务中自动扩展至996个token,实现了推理性能与计算成本的最优平衡。研究提出的双模训练框架和策略优化方法为构建高效智能的多模态模型提供了新范式。
Hugging Face 投票数:105
论文链接:
https://hf.co/papers/2508.21113
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.21113