本文收录8月28日Hugging Face Daily Paper,解读由 Intern-S1、Qwen3 等 AI 生成可能有误。
(1) Beyond Transcription: Mechanistic Interpretability in ASR

论文简介:
由特拉维夫大学等机构提出了Beyond Transcription: Mechanistic Interpretability in ASR,该工作首次系统性地将可解释性方法应用于自动语音识别领域,通过适配logit lens、线性探测和激活修补等技术,揭示了ASR模型内部的声学语义演化机制,发现了编码器-解码器交互中的重复幻觉现象及深层声学表征中的语义偏差。研究通过在Whisper和Qwen2-Audio两大主流模型上的实验,证实了声学属性(如说话人性别、环境噪音、口音等)在编码器深层的线性可解码性,其中说话人性别识别在25层达到94.6%准确率,环境噪音分类在27层达90.0%。特别发现解码器残差流中存在可预测幻觉的信号,通过线性探测在Whisper第22层实现93.4%的幻觉识别准确率。研究还揭示了ASR编码器的语义理解能力,通过合成音频数据集证明Whisper编码器在22-31层对语义类别(如国家vs天气)的区分度高达96.7%。针对重复幻觉问题,通过跨注意力机制干预在Whisper第23层成功解决76%的重复案例,其中第18层第13注意力头的单头干预有效率达78.1%。该工作为ASR模型的透明化和鲁棒性提升开辟了新路径,展示了通过内部机制分析实现错误定位和针对性优化的潜力。
论文来源:hf
Hugging Face 投票数:68
论文链接:
https://hf.co/papers/2508.15882
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.15882
(2) Self-Rewarding Vision-Language Model via Reasoning Decomposition
论文来源:hf
Hugging Face 投票数:60
论文链接:
https://hf.co/papers/2508.19652
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.19652
(3) Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies

论文简介:
由香港大学、上海人工智能实验室、上海交通大学、华为云等机构提出了Discrete Diffusion VLA,该工作首次将离散扩散模型引入视觉-语言-动作(VLA)策略的动作解码,通过统一的单transformer架构实现视觉、语言与动作的联合建模。该方法将连续动作离散化为固定长度的动作块,并采用离散扩散范式进行迭代解码,保留了扩散模型渐进式精炼的优势,同时与视觉语言模型(VLM)的离散token接口天然兼容。其核心贡献包括:1)提出首个基于离散扩散的VLA动作解码框架,通过交叉熵损失与VLM主干网络统一训练,保留预训练的视觉语言先验知识;2)设计自适应解码策略,按置信度优先解码简单动作元素并二次重掩码修正不确定预测,实现并行解码与错误修正;3)在LIBERO、SimplerEnv-Fractal和SimplerEnv-Bridge三个机器人任务中取得SOTA表现,Franka Panda机械臂在LIBERO上平均成功率96.3%,Google Robot在SimplerEnv-Fractal视觉匹配率达71.2%,WidowX机械臂在SimplerEnv-Bridge整体成功率49.3%,显著优于自回归和连续扩散基线方法。该方法突破了传统自回归解码的左到右瓶颈,通过固定步数的并行精炼将函数评估次数减少4.7倍,为大规模VLA模型扩展提供了新路径。
论文来源:hf
Hugging Face 投票数:19
论文链接:
https://hf.co/papers/2508.20072
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.20072
(4) MIDAS: Multimodal Interactive Digital-human Synthesis via Real-time Autoregressive Video Generation

论文简介:
由快手科技、浙江大学和清华大学等机构提出了MIDAS(Multimodal Interactive Digitalhuman Synthesis),该工作构建了一种基于自回归模型与扩散渲染的实时多模态数字人合成框架。针对现有方法在低延迟交互、多模态控制和长序列生成上的局限,研究团队设计了三大核心创新:首先通过多模态条件投影器将音频、姿态、文本等异构信号编码为统一指令令牌,引导自回归模型生成时空一致的潜在表示;其次采用因果潜在预测与轻量扩散头结合的架构,以单帧预测策略实现流式生成,在保证质量的同时将推理延迟降至毫秒级;此外开发了64倍压缩比的深度压缩自编码器(DC-AE),显著降低长序列生成的计算负担。为支撑模型训练,团队构建了包含2万小时对话的多场景数据集,并引入可控噪声注入机制缓解训练与推理的暴露偏差问题。实验部分通过双工对话、跨语言唱歌合成和交互式世界模型三项任务验证了框架的有效性:数字人能实现自然的对话轮转与唇形同步,支持中英日等多语言高保真生成,并在《我的世界》场景中展现出稳定的视觉记忆与环境交互能力。该工作在保持身份一致性的同时,实现了多模态条件下的实时响应与开放域生成,为交互式数字人技术提供了可扩展的解决方案。
论文来源:hf
Hugging Face 投票数:18
论文链接:
https://hf.co/papers/2508.19320
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.19320
(5) Analysing Chain of Thought Dynamics: Active Guidance or Unfaithful Post-hoc Rationalisation?

论文简介:
由谢菲尔德大学等机构提出了Analysing Chain of Thought Dynamics,该工作通过分析指令微调、推理训练和推理蒸馏三类模型在软推理任务中的链式推理(CoT)动态,揭示了CoT影响与忠实性之间的复杂关系。研究发现蒸馏推理模型(如DeepSeek-R1系列)高度依赖CoT进行决策修正,65%的案例中会改变初始预测,且常通过修正错误提升准确性;而指令微调模型(如Qwen2.5)和推理训练模型(如Qwen3)仅25%左右改变预测,更多将CoT作为事后合理化工具。通过追踪CoT生成过程中的置信度轨迹,发现蒸馏模型的置信度随推理步骤持续上升,最终答案常在最后一步突变,表明CoT对其决策具有关键引导作用;而指令微调模型的置信轨迹相对平坦,暗示CoT更多是形式化解释。研究还创新性地通过注入误导提示(教授建议/元数据标签)测试CoT忠实性,发现即使未明确提及提示信息,蒸馏模型的CoT仍可能被其引导决策,揭示了"不忠实但具影响力"的矛盾现象。该工作挑战了传统将因果依赖作为CoT忠实性唯一标准的定义,指出不同模型的CoT训练机制(如蒸馏模型依赖程序性知识)导致其推理机制差异,为优化推理模型的可解释性提供了新视角。
论文来源:hf
Hugging Face 投票数:17
论文链接:
https://hf.co/papers/2508.19827
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.19827
(6) CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning

论文简介:
由上海交通大学、上海人工智能实验室等机构提出了CODA,该工作受人脑“大脑-小脑”分工机制启发,构建了可协同的双脑计算机使用代理架构。核心创新在于提出解耦强化学习框架,采用Qwen2.5-VL作为规划器(大脑)和UI-Tars-1.5作为执行器(小脑)的协作模式。通过两阶段训练策略:第一阶段使用解耦的GRPO算法对每个科学应用进行专项强化学习,利用自动奖励系统和分布式虚拟机系统加速轨迹收集;第二阶段通过监督微调将多个专家模型整合为通用规划器。在ScienceBoard基准测试的四个科学计算应用中,CODA显著超越基线模型,达到开源模型新SOTA。该方法通过固定执行器保障动作稳定性,同时让规划器专注领域知识学习,在减少数据依赖的同时提升跨域泛化能力,为复杂GUI任务的长程规划与精准执行提供了新范式。代码和模型已开源。
论文来源:hf
Hugging Face 投票数:13
论文链接:
https://hf.co/papers/2508.20096
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.20096
(7) Predicting the Order of Upcoming Tokens Improves Language Modeling

论文简介:
由MBZUAI等机构提出了Token Order Prediction(TOP),该工作针对多标记预测(MTP)在语言模型训练中改进效果不稳定的问题,提出通过学习排序未来标记的顺序来优化语言建模。TOP的核心创新在于将MTP的精确未来标记预测任务转化为基于排序损失的标记顺序预测任务,要求模型仅需一个额外解嵌入层即可实现,显著降低计算复杂度。研究团队在340M、1.8B和7B参数规模下对比了NTP、MTP和TOP三种训练策略,通过在八项标准NLP基准测试中的实验发现:TOP在所有模型规模下均优于传统NTP和MTP,特别是在7B参数模型中展现出更强的扩展性。实验结果显示,TOP在HellaSwag、ARC Challenge等任务中分别取得1.29%和3.67%的准确率提升,且训练损失分析表明TOP可能通过正则化作用缓解过拟合。该方法通过简化辅助任务难度,在保持模型架构轻量化的同时实现了更优的表征学习能力,为大规模语言模型的训练优化提供了新方向。
论文来源:hf
Hugging Face 投票数:12
论文链接:
https://hf.co/papers/2508.19228
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.19228
(8) Gaze into the Heart: A Multi-View Video Dataset for rPPG and Health Biomarkers Estimation

论文简介:
由Sber AI Lab等机构提出了Gaze into the Heart,该工作针对现有rPPG数据集规模小、隐私限制和条件单一的问题,构建了包含600名受试者、3600段同步多视角视频的大规模数据集MCD-rPPG。数据集通过消费级摄像头在静息和运动后两种状态下采集面部视频,并同步记录100Hz PPG信号及心电图、血压、血氧等13项健康指标,采用三摄像头多角度拍摄增强模型鲁棒性。研究团队开发了基于ROI特征提取的轻量级1D特征金字塔网络模型,在CPU端实现0.15秒/20秒视频的实时推理速度,较现有模型提升13%效率,同时保持与SOTA方法相当的PPG波形重建精度(MAE 0.68)和心率估计误差(4.86bpm)。实验表明该模型在跨数据集测试中表现稳定,尤其在多视角场景下展现出优于传统方法的适应性。数据集已开放获取并提供完整实验代码,有望推动远程医疗、智能设备健康监测等领域的算法研发与应用落地。
论文来源:hf
Hugging Face 投票数:11
论文链接:
https://hf.co/papers/2508.17924
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.17924
(9) StepWiser: Stepwise Generative Judges for Wiser Reasoning

论文简介:
由Meta FAIR、伊利诺伊大学厄巴纳-香槟分校和纽约大学的研究人员提出了StepWiser,该工作通过强化学习训练生成式判断器来监督多步推理过程中的逻辑有效性。针对现有过程奖励模型(PRMs)作为分类器无法提供解释、依赖静态数据集泛化能力差的问题,StepWiser将步骤判断转化为推理任务,采用三阶段方法:首先通过自分割技术将链式推理(CoT)切分为连贯的推理块(Chunks-of-Thought),接着基于蒙特卡洛rollouts的Q值估计为推理块分配目标奖励,最后通过强化学习训练生成式判断模型,使其在输出最终判断前生成推理链(reasoning about reasoning)。实验表明,StepWiser在ProcessBench基准测试中显著优于传统监督微调基线(如Math-Shepherd-PRM-7B等),其7B参数模型在Rel-Effective信号下达到61.9的平均准确率,相比判别式基线提升22.2%。该方法在推理时搜索和训练数据选择任务中也展现出优势:通过推理块重置策略,1.5B模型在MATH500数据集上的准确率从31.2%提升至36.9%;使用StepWiser筛选的训练数据使基线模型在NuminaMath-Heldout-1K上的准确率从60.1%提升至63.0%。研究证实了生成式推理链和强化学习训练对提升判断准确性的重要性,同时发现基于相对改进的奖励分配策略(如Rel-Effective)比绝对质量判断更有效。该工作为多步推理的监督提供了新的范式,通过元推理(meta-reasoning)显著提升了模型的逻辑验证能力。
论文来源:hf
Hugging Face 投票数:10
论文链接:
https://hf.co/papers/2508.19229
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.19229
(10) Diffusion Language Models Know the Answer Before Decoding

论文简介:
由香港理工大学、达特茅斯学院等机构提出了Prophet方法,该工作发现扩散语言模型(DLMs)存在早期答案收敛现象——在半数解码步骤内即可确定97%(GSM8K)至99%(MMLU)的正确答案。研究团队通过分析LLaDA-8B和Dream-7B的解码动态,揭示了答案token比推理token更早稳定的特点,并提出基于信心间隙的动态解码终止策略。Prophet通过监控top-2预测结果的置信度差异,在保证生成质量的前提下,动态决定是否提前结束解码。实验表明该方法可减少3.4倍解码步骤,同时在MMLU、GSM8K等任务中保持甚至提升准确率。该方法无需额外训练,通过设置动态风险阈值(τ_high=8.0, τ_mid=5.0, τ_low=3.0),在解码进度33%和67%处调整终止条件,实现了计算效率与生成质量的平衡。研究证实DLMs的解码本质是"何时停止采样"的最优决策问题,为加速扩散模型推理提供了新范式。代码已开源。
论文来源:hf
Hugging Face 投票数:10
论文链接:
https://hf.co/papers/2508.19982
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.19982
(11) Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered Smartphone Agents

论文简介:
由山东大学、香港科技大学等机构提出了SAPA-Bench,该工作构建了首个大规模智能手机代理隐私意识评估基准,涵盖7138个真实场景并标注隐私类型、敏感等级及位置信息。研究团队通过五项专用指标(隐私识别率PRR、定位率PLR、等级意识PLAR、类别意识PCAR、风险响应RA)系统评测了7款主流智能手机代理,发现现有代理普遍隐私保护能力不足,即使在明确提示下性能仍低于60%。实验表明闭源模型(如Gemini 2.0-flash RA达67%)显著优于开源模型(如Show-UI RA仅18.77%),且隐私检测能力与场景敏感等级正相关。研究还证实通过增强提示信号可有效提升代理对隐私风险的响应能力(如Gemini在显式提示下RA提升至67.14%)。该工作揭示了当前智能手机代理在隐私保护方面的核心缺陷,强调需在功能与隐私间寻求平衡,并为未来研发更安全的智能代理提供了标准化评估框架。
论文来源:hf
Hugging Face 投票数:9
论文链接:
https://hf.co/papers/2508.19493
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.19493
(12) AudioStory: Generating Long-Form Narrative Audio with Large Language Models

论文简介:
由腾讯ARC Lab等机构提出了AudioStory,该工作通过整合大语言模型(LLM)与文本到音频(TTA)系统,构建了首个支持长篇叙事音频生成的统一框架。AudioStory的核心贡献在于其创新的解耦桥接机制:通过分离语义token(捕捉文本导向的音频语义)和残余token(保留声学细节与跨事件关联),显著提升了音频保真度与时序一致性;同时采用端到端渐进式训练策略,实现了LLM指令理解与扩散模型音频生成的协同优化,突破了传统零样本拼接方法的局限性。研究团队还构建了包含10K条多模态叙事音频的基准数据集AudioStory10K,覆盖自然声景与动画音效领域,并设计了涵盖指令遵循、一致性与生成质量的综合评估体系。实验表明,AudioStory在长音频生成任务中全面超越现有扩散模型(如AudioLDM2、TangoFlux)及多模态大模型(如NExT-GPT),其生成音频时长可达150秒,CLAP文本-音频对齐得分提升17.85%,同时在音频理解任务中展现出色能力。该框架支持视频配音、音频续写等扩展应用,通过LLM对叙事逻辑的分解与扩散模型对声学细节的精准建模,实现了从复杂多模态指令到连贯长音频的端到端生成,为沉浸式媒体创作提供了新范式。
论文来源:hf
Hugging Face 投票数:8
论文链接:
https://hf.co/papers/2508.20088
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.20088
(13) SEAM: Semantically Equivalent Across Modalities Benchmark for Vision-Language Models
论文来源:hf
Hugging Face 投票数:6
论文链接:
https://hf.co/papers/2508.18179
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.18179
(14) MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment
论文来源:hf
Hugging Face 投票数:6
论文链接:
https://hf.co/papers/2508.19527
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.19527
(15) DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis
论文来源:hf
Hugging Face 投票数:3
论文链接:
https://hf.co/papers/2508.20033
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.20033
(16) Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference

论文简介:
由 ByteDance Seed 和新加坡国立大学等机构提出了 HeteroScale,该工作针对异构且解耦的大语言模型(LLM)推理场景中的资源调度难题,提出了一种协调的自动扩缩容框架。传统自动扩缩容工具在应对现代 Prefill-Decode(P/D)解耦架构时存在三大核心挑战:异构硬件利用率低效、网络带宽瓶颈以及预取与解码阶段间的资源失衡。HeteroScale 通过拓扑感知调度器与基于大规模生产数据的度量驱动策略,实现了硬件适配、网络约束优化与架构平衡的协同管理。其核心创新包括:1)异构资源管理框架,将 P/D 比例与硬件需求作为调度约束,智能匹配服务角色与硬件类型;2)网络感知调度抽象,通过部署组(Deployment Group)和 RDMA 子组(Subgroup)保障低延迟 KV 缓存传输并优化高带宽硬件使用;3)基于生产数据的度量分析,发现解码端 Tokens-Per-Second(TPS)是唯一可靠的联合扩缩信号,可同步调整预取与解码资源池。该系统在字节跳动数万张 GPU 的生产环境中部署后,平均 GPU 利用率提升 26.6 个百分点,每日节省数十万 GPU 小时,同时通过维持严格的 P/D 比例和网络亲和性,在解耦 MoE 场景下仍保持服务级别目标(SLO)达标,为大规模 LLM 推理的资源效率优化树立了新基准。
论文来源:hf
Hugging Face 投票数:3
论文链接:
https://hf.co/papers/2508.19559
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.19559