HF每日论文| Intern-S1登顶,Mobile-Agent-v3, LiveMCP-101,Waver,SceneGen

机智流 2025-08-23 16:30

资讯配图

本文收录8月23日 Hugging Face Daily Paper,解读由 Intern-S1、Qwen3 等 AI 生成可能有误。

(1) Intern-S1: A Scientific Multimodal Foundation Model

资讯配图

论文简介:

由上海人工智能实验室提出的Intern-S1是一款面向科学领域的多模态基础模型,该工作通过创新的混合专家架构、科学数据增强策略及强化学习框架,在通用推理与科学专业任务中均展现出卓越性能。Intern-S1采用280亿激活参数、2410亿总参数的混合专家(MoE)架构,依托2.5万亿token科学领域数据进行持续预训练,并在InternBootCamp环境中通过混合奖励(MoR)框架实现千余任务的在线强化学习。其核心创新包括:1)动态分词器针对科学数据(如分子式、蛋白质序列)设计差异化分词策略,压缩率较传统方法提升70%;2)多模态编码器集成视觉、时序信号处理模块,支持高分辨率图像与长时序数据输入;3)混合奖励框架通过统一化反馈机制协同优化逻辑推理、学术问题解决与对话能力,样本效率较基线提升10倍。实验表明,Intern-S1在MMLU-Pro、MathVista等通用基准上超越主流开源模型,在ChemBench、MatBench等科学专项任务中性能优于闭源模型如OpenAI o3,尤其在分子合成规划、晶体热力学预测等专业场景实现突破。该模型的开源为科学智能研究提供了兼具广度与深度的基础工具,其训练范式为低资源领域模型优化提供了可扩展范例。

论文来源:hf

Hugging Face 投票数:172

论文链接:

https://hf.co/papers/2508.15763

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.15763


(2) Mobile-Agent-v3: Foundamental Agents for GUI Automation

资讯配图

论文简介:

由阿里云等机构提出了Mobile-Agent-v3和GUI-Owl,该工作构建了面向GUI自动化的基础模型与多智能体框架。GUI-Owl基于Qwen2.5-VL架构,通过大规模环境基础设施构建的自演进轨迹数据生成管道,实现了感知、规划、推理与执行的统一建模。其创新点包括:1)多平台环境支持的虚拟化训练基础设施,结合查询生成、轨迹校验和定向指导模块,形成数据-模型闭环优化;2)多维度能力构建,涵盖UI定位、任务规划、动作语义等基础能力,以及离线拒绝采样、多智能体蒸馏等推理增强策略;3)面向长序列任务的轨迹感知相对策略优化(TRPO)算法,通过轨迹级奖励分配和重放缓冲机制解决信用分配难题。在AndroidWorld和OSWorld基准测试中,GUI-Owl-7B分别取得66.4和29.4的SOTA成绩,Mobile-Agent-v3进一步提升至73.3和37.7。该框架包含四大核心模块:基于RAG的动态任务规划器、执行动作的Worker、反馈修正的Reflector以及持久化记忆的Notetaker,通过角色分工与协同实现复杂任务的鲁棒执行。实验表明其在多智能体协作场景中成功率达62.1%,显著优于现有开源模型。相关代码与模型已开源,为GUI自动化领域提供了先进的技术范式。

论文来源:hf

Hugging Face 投票数:41

论文链接:

https://hf.co/papers/2508.15144

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.15144


(3) LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on   Challenging Queries

资讯配图

论文简介:

由杜克大学和Zoom团队提出的LiveMCP-101构建了一个包含101个真实世界查询的基准测试集,旨在评估AI代理在动态环境中协调使用多领域MCP工具解决复杂任务的能力。该基准通过LLM迭代重写和人工审核优化查询复杂度,覆盖网页搜索、文件操作、数学推理等多类型工具组合场景,并创新性采用基于预设执行计划的评估方法,通过双线程实时验证代理输出与参考轨迹的匹配度,有效应对动态环境下的评估一致性挑战。实验结果显示当前最先进大模型在该基准上的任务成功率均低于60%,其中GPT-5以58.42%的综合成功率位居榜首,但面对高难度任务时成功率骤降至39.02%。研究团队通过深入分析发现模型普遍存在语义参数错误、冗余思考、工具选择偏差等7类典型失效模式,并揭示闭源模型呈现token效率对数曲线特征,而开源模型存在"token消耗-性能提升"脱节现象。该工作通过构建高复杂度测试集和动态评估框架,系统性揭示了当前工具增强型AI在真实场景落地中的核心瓶颈,为改进多工具协调、参数推理和执行效率提供了关键研究方向。

论文来源:hf

Hugging Face 投票数:29

论文链接:

https://hf.co/papers/2508.15760

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.15760


(4) Deep Think with Confidence

资讯配图

论文简介:

由Yichao Fu等人提出的DeepThink with Confidence(DeepConf)提出了一种基于模型内部置信度的高效推理方法,通过动态过滤低质量推理轨迹显著提升大语言模型的推理效率与准确性。该方法采用局部置信度测量(如最低组置信度、尾部置信度)替代传统全局置信度指标,有效捕捉推理过程中的关键质量波动。在离线模式下,DeepConf通过置信度加权投票与过滤机制,在AIME 2025等数学推理任务中,使用GPT-OSS-120B模型实现99.9%的准确率,相比传统多数投票减少84.7%的token消耗。在线模式下,其自适应采样策略通过实时监控最低组置信度实现动态早停,在保持或提升精度的同时,生成token量减少43-79%。实验覆盖DeepSeek-8B、Qwen3-32B等多参数模型及AIME、HMMT等高难度基准,验证了方法的普适性。DeepConf无需额外训练,可无缝集成于现有推理框架,为资源受限场景下的高效推理提供新范式。

论文来源:hf

Hugging Face 投票数:27

论文链接:

https://hf.co/papers/2508.15260

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.15260


(5) Waver: Wave Your Way to Lifelike Video Generation

资讯配图

论文简介:

由字节跳动团队提出了Waver,该工作提出了一种高性能统一图像与视频生成模型,通过Hybrid Stream DiT架构实现文本/图像到视频的多任务融合生成,支持5-10秒原生720p视频生成并可上采样至1080p。核心贡献包括:1)创新Hybrid Stream DiT架构,通过双流/单流混合设计优化模态对齐与参数效率;2)构建全流程数据处理体系,包含多阶段过滤、质量标注模型和语义平衡策略,处理超2亿视频片段;3)开发级联上采样器,采用窗口注意力和像素/潜在空间降质策略实现40%推理加速;4)提出运动幅度优化、美学增强、模型平衡等训练策略,在Artificial Analysis排行榜T2V和I2V任务均位列前三,尤其在复杂运动场景中相较竞品提升显著。该工作通过详尽的技术细节开源和多维度优化策略,为视频生成领域提供了可复现的高性能解决方案。

论文来源:hf

Hugging Face 投票数:17

论文链接:

https://hf.co/papers/2508.15761

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.15761


(6) SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass

资讯配图

论文简介:

由上海交通大学等机构提出了SceneGen,该工作提出了一种单阶段前馈3D场景生成框架,能够从单个场景图像及对应物体掩码输入中,同时生成包含几何形状、纹理和空间位置的多个3D资产,且无需依赖优化过程或资产检索。SceneGen通过创新的特征聚合模块整合视觉与几何编码器提取的局部与全局场景信息,并结合位置预测头,在单次前馈传递中完成3D资产生成与空间布局预测。其核心贡献包括:1)首次实现单阶段生成多资产几何、纹理及相对位置的完整框架;2)设计局部-全局注意力机制融合场景上下文信息,确保资产间空间关系合理性;3)通过架构设计实现单图像训练模型向多视图输入的直接扩展;4)在3D-FUTURE数据集上验证了生成质量与效率的显著提升,单卡A100生成四资产场景仅需2分钟。实验表明,SceneGen在几何指标(如场景级Chamfer距离0.0118)和视觉指标(如CLIP相似度0.9152)均超越MIDI、Gen3DSR等现有方法,同时通过特征消融实验证明了全局几何特征与场景级自注意力的关键作用。该方法为高效高质量3D内容生成提供了新范式,为虚拟现实与具身智能等下游应用奠定基础。

论文来源:hf

Hugging Face 投票数:12

论文链接:

https://hf.co/papers/2508.15769

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.15769


(7) A Survey on Large Language Model Benchmarks

论文来源:hf

Hugging Face 投票数:9

论文链接:

https://hf.co/papers/2508.15361

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.15361


(8) ATLAS: Decoupling Skeletal and Shape Parameters for Expressive   Parametric Human Modeling

资讯配图

论文简介:

由Meta和卡内基梅隆大学等机构提出的ATLAS,通过解耦骨骼和形状参数实现了高保真度的参数化人体建模。该工作针对传统模型(如SMPL-X)中骨骼与表面顶点强耦合导致的控制困难问题,提出将人体模型的外部形状与内部骨骼参数空间完全分离,使肩宽、臂长、体重等属性可独立调整。ATLAS基于60万次高分辨率3D扫描数据训练,包含77个解剖学关节和115k顶点的高精度网格,采用线性基础形状空间与骨骼空间结合的驱动方式,在保持骨骼不变的情况下通过线性组合调整表面特征,再通过骨骼参数独立控制骨长和身体比例。其创新的稀疏非线性姿态校正机制,在局部关节区域引入轻量级MLP网络捕捉复杂变形,同时通过地理距离初始化的稀疏激活避免虚假关联。实验显示,ATLAS在3DBodyTex数据集上以32个参数实现21.6%的顶点误差降低,Goliath测试集误差达2.34mm,显著优于SMPL-X的2.78mm。此外,该模型支持从单张RGB图像中解耦优化骨骼结构与表面形状,结合相对深度和掩码优化,将单图重建误差从SMPLify-X的87.7mm降至55.4mm,尤其在关节区域表现更优。ATLAS的解耦特性使其在调整骨骼参数时保持原有表面细节,改变表面特征时骨骼结构稳定,为虚拟化身、动作捕捉等应用提供了更精准的可控性。

论文来源:hf

Hugging Face 投票数:7

论文链接:

https://hf.co/papers/2508.15767

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.15767


(9) aiXiv: A Next-Generation Open Access Ecosystem for Scientific Discovery   Generated by AI Scientists

资讯配图

论文简介:

由 Zhang 等机构提出了 aiXiv: A Next-Generation Open Access Ecosystem for Scientific Discovery Generated by AI Scientists,该工作构建了一个面向AI科学家的下一代开放获取平台,旨在解决传统出版生态系统的碎片化和封闭性问题。该平台通过多代理架构支持AI代理提交、评审和迭代改进科研提案与论文,提供API和MCP接口实现人机协作,确保内容质量和可信度。核心创新包括:(1) 构建了包含自动检索增强评估、评审指导和对抗提示注入防御的闭合评审系统;(2) 开发了基于检索增强生成的双专家评审模式,通过结构化反馈提升内容质量;(3) 设计了多模态投票机制,综合多个高性能大模型的评审意见确保决策可靠性;(4) 实验证明评审迭代使AI生成内容质量显著提升,提案接受率从0提升至45.2%,论文接受率从10%提升至70%,提案成对比较准确率达77%,论文成对比较准确率达81%。平台通过数字对象标识符(DOI)和知识产权标注实现内容溯源,支持响应信机制增强评审交互,其多模态评审框架和动态质量控制机制为AI驱动科研范式提供了基础设施支持,为开放科学生态的智能化演进提供了实践范式。

论文来源:hf

Hugging Face 投票数:7

论文链接:

https://hf.co/papers/2508.15126

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.15126


(10) Visual Autoregressive Modeling for Instruction-Guided Image Editing

资讯配图

论文简介:

由中科大与HiDream.ai联合提出的VAREdit是一种基于视觉自回归建模的指令引导图像编辑框架,该工作通过将图像编辑重构为多尺度残差预测任务,有效解决了扩散模型存在的编辑区域纠缠和计算效率低下的核心痛点。研究团队创新性地引入Scale-Aligned Reference(SAR)模块,在自注意力机制的第一层注入与目标尺度对齐的源图像特征,突破了传统多尺度条件输入带来的计算冗余与特征错配问题。实验表明,VAREdit在保持512×512分辨率编辑仅需1.2秒(较UltraEdit快2.2倍)的同时,通过GPT-Balance指标在EMU-Edit和PIE-Bench基准测试中分别取得6.77和7.30的分数,较现有扩散模型领先30%以上。该框架不仅实现了编辑精度与生成效率的双重突破,其提出的尺度对齐条件注入机制更为视觉自回归模型在多模态任务中的应用提供了重要范式参考。

论文来源:hf

Hugging Face 投票数:7

论文链接:

https://hf.co/papers/2508.15772

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.15772


(11) "Does the cafe entrance look accessible? Where is the door?" Towards   Geospatial AI Agents for Visual Inquiries

资讯配图

论文简介:

由华盛顿大学、谷歌研究、UCLA和谷歌DeepMind等机构提出了Geo-Visual Agents,该工作探索了结合大规模地理空间图像(如街景、航拍影像、用户贡献照片)与传统GIS数据的多模态AI代理,旨在通过视觉空间推理回答用户关于环境外观的复杂查询。研究聚焦于解决现有地图系统依赖结构化数据而无法处理视觉导向问题的局限,例如盲人询问建筑入口细节或轮椅使用者评估路线无障碍性。通过分析街景图像、用户上传的照片及航拍数据,系统可支持从旅行前规划到实时导航的全阶段场景理解,如识别盲道、生成个性化骑行路线或描述目的地外观。文中展示了StreetViewAI(为视障用户提供可访问街景交互)、Accessibility Scout(基于用户能力生成环境无障碍评估)和BikeButler(融合视觉分析优化骑行路线)三个原型案例,强调了动态数据融合、实时空间推理与多模态交互(如语音描述、抽象化可视化)的技术挑战。研究指出需突破异构数据源整合、不确定性表达、个性化建模及室内空间数据覆盖不足等难题,以实现AI代理在无障碍出行、安全导航等场景的实用化落地。

论文来源:hf

Hugging Face 投票数:4

论文链接:

https://hf.co/papers/2508.15752

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.15752


(12) Snap-Snap: Taking Two Images to Reconstruct 3D Human Gaussians in   Milliseconds

资讯配图

论文简介:

由华中科技大学、华为和上海交通大学等机构提出了Snap-Snap,该工作设计了一种前馈框架,能够仅通过前后两张图像在190毫秒内直接预测3D人体高斯模型。研究者重新设计了几何重建模型,将通用几何先验适配到人体领域,通过训练在人类数据上实现稀疏输入下的完整点云预测。针对侧视图颜色信息缺失问题,提出基于最近邻搜索的色彩增强算法,通过前后视图像素级对应关系补充侧视信息。最终通过高斯属性回归网络将点云转换为3D高斯表示,实现毫秒级高质量渲染。实验表明该方法在THuman2.0和跨域数据集上均取得SOTA效果,特别在移动设备采集的低质量图像上仍保持鲁棒性。与依赖SMPL-X参数的GHG方法相比,该方法避免了多视角参数估计的耗时过程,且在宽松衣物重建等场景中展现出更强的细节表现力。通过端到端的点云预测与色彩增强策略,成功解决了双视角重建中的几何一致性与信息完整性难题,为数字人重建提供了高效解决方案。

论文来源:hf

Hugging Face 投票数:3

论文链接:

https://hf.co/papers/2508.14892

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.14892


(13) Fin-PRM: A Domain-Specialized Process Reward Model for Financial   Reasoning in Large Language Models

资讯配图

论文简介:

由阿里巴巴云计算、大阪大学和苏州大学等机构提出了Fin-PRM,该工作针对金融领域推理任务的特殊需求,构建了首个领域专用的过程奖励模型(PRM),通过双级训练框架实现步骤级与轨迹级的细粒度推理评估。Fin-PRM的核心创新在于:1)构建包含3000个样本的高质量金融推理数据集,每个样本包含专家级推理轨迹、多维奖励标签及知识库支持;2)提出动态加权的双级奖励建模方法,融合蒙特卡洛重要性评分、LLM质量评分及知识验证准确性评分,并通过轨迹级结果正确性与知识覆盖率进行全局校准;3)验证了模型在离线数据筛选、在线强化学习和测试时Best-of-N推理中的广泛应用价值。实验表明,在CFLUE和FinQA基准测试中,Fin-PRM指导的监督学习提升12.9%,强化学习提升5.2%,测试时推理提升5.1%,显著优于通用PRM和领域基线模型。该研究证明了领域专用奖励建模在金融等高风险场景中的必要性,为构建可解释、事实可靠的AI推理系统提供了新范式。

论文来源:hf

Hugging Face 投票数:2

论文链接:

https://hf.co/papers/2508.15202

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.15202


(14) When and What: Diffusion-Grounded VideoLLM with Entity Aware   Segmentation for Long Video Understanding

资讯配图

论文简介:

由 Pengcheng Fang 等机构提出了 GroundedVideoDiT,该工作针对长视频理解中时间感知模糊和实体对齐薄弱的问题,提出融合扩散模型、实体感知分割和混合标记结构的新型视频语言模型。核心贡献包括:1)创新性地将扩散模型作为视频特征提取器,通过条件去噪过程捕捉帧间动态变化,生成具有时间连续性的潜在表征;2)在语言建模前引入基于SAM2的实体分割与跨帧跟踪模块,为查询实体生成时空一致的对象嵌入,显著提升多实体场景的推理一致性;3)设计包含视觉、文本、时间戳和对象标记的混合输入序列,实现时空信息的端到端联合建模。实验表明,该方法在Charades-STA(39.5 mIoU)、NExTGQA(28.4 Acc@GQA)等基准上取得当前最佳性能,尤其在高IoU阈值下展现更强的时间边界定位能力。通过扩散时间潜在编码增强时序敏感性,结合显式对象标记实现精准实体对齐,该框架为长视频理解提供了兼顾效率与精度的新范式。

论文来源:hf

Hugging Face 投票数:2

论文链接:

https://hf.co/papers/2508.15641

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.15641


(15) INTIMA: A Benchmark for Human-AI Companionship Behavior

资讯配图

论文简介:

由Lucie-Aimée Kaffee等来自Hugging Face的研究者提出了INTIMA基准,该工作基于心理学理论与用户行为数据构建了首个系统评估AI陪伴行为的框架,旨在量化语言模型在情感联结、边界维护和中性回应三类互动中的表现。研究团队通过分析Reddit上698篇用户与AI的深度互动记录,提炼出32种陪伴相关行为模式,并据此设计了368个针对性测试提示。这些提示覆盖"助手特质""情感投入""用户脆弱性"和"关系亲密化"四大维度,能够有效触发模型在陪伴强化(如拟人化表达、情感认同)、边界维持(如专业限制声明、人类关系引导)及中性回应(如信息提供)三类行为的响应。

实验对比了Gemma-3、Phi-4、o3-mini和Claude-4四款模型的表现,发现所有模型普遍存在陪伴强化行为占主导的现象(Gemma-3达68%,Phi-4最低为52%),但不同模型在敏感场景的处理策略存在显著差异:Claude-4更倾向抵抗人格化(如明确拒绝"伴侣"称谓),而o3-mini在用户心理脆弱时更多引导至专业支持。值得注意的是,当用户表达强烈情感依赖时,模型的边界维护行为反而减弱,暴露出当前训练机制在情感风险应对上的系统性缺陷。研究还通过互信息分析揭示,各类陪伴强化行为(如拟人化与情感认同)具有独立演化路径,需针对性干预。

该工作不仅为评估AI系统的情感交互风险提供了可复现的量化工具,更通过实证揭示了通用语言模型在无意识间已具备强化用户情感依赖的能力,呼吁建立更精细的训练与评估标准以平衡实用性与心理安全性。研究者已开源基准数据集与可视化分析工具,支持后续研究者深入探索人机关系的动态演化机制。

论文来源:hf

Hugging Face 投票数:2

论文链接:

https://hf.co/papers/2508.09998

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.09998


(16) LLaSO: A Foundational Framework for Reproducible Research in Large   Language and Speech Model

资讯配图

论文简介:

由宁波空间智能数字孪生实验室等机构提出了LLaSO,该工作构建首个面向大语音语言模型可重复研究的开源端到端框架。针对当前语音语言模型领域存在的架构碎片化、数据不透明和评估标准缺失问题,LLaSO创新性地整合了三大核心组件:包含1200万语音文本对的对齐语料库LLaSO-Align、覆盖20项任务的多模态指令微调数据集LLaSO-Instruct(总数据量达2550万),以及支持文本指令+音频输入、纯音频、音频指令+文本输入三种模态配置的评估基准LLaSO-Eval。研究团队基于LLaSO体系训练了38亿参数的参考模型LLaSO-Base,在15044个评估样本上取得0.72的归一化分数,超越现有同类模型。实验表明,模型在跨模态泛化能力、副语言信息处理等方面仍存在显著挑战,但LLaSO框架通过提供完整的数据、模型和评估工具链,为多模态指令跟随研究建立了可复现的基准。特别值得注意的是,该框架支持音频指令+文本输入等创新交互模式,其公开的超过8.9万小时语料库在任务覆盖度和模态多样性方面均显著超越现有资源,为构建更通用的语音语言模型奠定了基础。

论文来源:hf

Hugging Face 投票数:2

论文链接:

https://hf.co/papers/2508.15418

PaperScope.ai 解读:

https://paperscope.ai/hf/2508.15418

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
EMC
more
【精选报告】GPT-5SystemCard深度解读:从模型架构到安全防护的全面进化(附PDF下载)
EMC整改,三极管驱动出了问题
今晚8点开播《快速入门EMC分析设计方法》
EMC 共模电感选型
高频+大电流+高EMC挑战?凡亿1V1大功率PCB弟子,全网唯一真项目实战教学!
一篇文章彻底搞懂:以太网变压器的原理、应用、EMC等知识!
存储大厂首发“High-K EMC”高效散热移动DRAM!
EMC测试中的RE、CE、ESD(测试标准)
揭秘EMC地与地之间的隐秘关系
“High-K EMC”材料加持,移动DRAM高效散热
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号