论文选自 PaperScope HF 数据库,解读由闻星使用 Intern-S1 等 AI 生成可能有误!
今天心血来潮搜索了一下 PaperScope 中标题包含 “Omni” 的论文,按照 HF 的投票数排序分享给大家!
(1) OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models

论文简介:
由ByteDance等机构提出了OmniHuman-1,该工作通过多条件混合训练策略突破了单阶段条件化人体动画模型的扩展瓶颈。研究团队针对现有音频驱动或姿态驱动方法因数据过滤导致训练数据不足的问题,创新性地设计了文本、音频、姿态三重运动相关条件混合的训练框架。通过提出"强条件任务可复用弱条件数据"和"条件强度与训练比例负相关"两大原则,OmniHuman模型成功整合了18.7K小时多模态数据,实现从脸部特写到全身视频的高质量生成。实验显示该方法在CelebV-HQ和RAVDESS数据集上FVD指标分别达到46.393和15.906,手势关键点方差(HKV)较现有方法提升近2倍,显著改善了手势生成和物体交互效果。模型支持音频、视频及组合驱动三种模式,可生成任意长宽比视频,对复杂姿态和跨风格(如动漫角色)具有优异适配能力,为多模态驱动人体动画生成提供了可扩展的新范式。
论文来源:hf
Hugging Face 投票数:221
论文链接:
https://hf.co/papers/2502.01061
PaperScope.ai 解读:
https://paperscope.ai/hf/2502.01061
(2) OmniSVG: A Unified Scalable Vector Graphics Generation Model

论文简介:
由复旦大学等机构提出了OmniSVG,该工作通过参数化SVG命令和坐标为离散token,构建了首个基于预训练视觉语言模型(VLMs)的端到端多模态矢量图形生成框架。OmniSVG创新性地解耦结构逻辑与几何细节,有效解决了传统代码生成中的"坐标幻觉"问题,能够生成从简单图标到复杂动漫角色的高质量可编辑SVG内容。研究团队同步推出了包含200万标注资产的MMSVG-2M数据集及标准化评估协议MMSVG-Bench,覆盖图标、插画和动漫角色三大类数据,并建立了文本转SVG、图像转SVG及角色参考生成三大任务基准。实验表明,OmniSVG在生成质量、多样性及编辑性等指标上全面超越现有方法,在文本生成任务中FID值较最优基线降低14.8%,图像生成任务中DINO特征相似度提升至0.988。模型通过参数化坐标(将坐标对合并为单token)和颜色属性(引入填充指令token),在保持表达能力的同时将token序列长度压缩至传统方法的1/3,成功支持长达30k token的复杂SVG生成。研究还验证了模型规模扩展(从3B到7B参数)对生成质量的持续提升效果,为专业设计流程中的矢量图形生成提供了新范式。
论文来源:hf
Hugging Face 投票数:179
论文链接:
https://hf.co/papers/2504.06263
PaperScope.ai 解读:
https://paperscope.ai/hf/2504.06263
(3) Qwen2.5-Omni Technical Report

论文简介:
由Qwen团队提出了Qwen2.5-Omni,该工作设计了一种端到端的多模态模型,能够同时处理文本、图像、音频和视频输入,并以流式方式生成文本和自然语音响应。为实现多模态流式输入处理,音频和视觉编码器采用分块处理策略,将长序列数据解耦为感知模块和语言模型分别处理,通过共享注意力机制增强模态融合。针对音视频时间戳对齐问题,提出TMRoPE(时间对齐的多模态RoPE)位置嵌入方法,通过交错组织音视频数据并引入绝对时间位置编码。为实现文本与语音的并行生成,设计了Thinker-Talker架构:Thinker作为语言模型生成文本,Talker作为双轨自回归模型直接利用Thinker的隐藏表示生成音频token。通过滑动窗口DiT模型限制音频解码的接收场,降低初始包延迟。实验表明,Qwen2.5-Omni在多模态理解任务上超越同规模单模态模型,在OmniBench等基准测试中达到SOTA水平,语音指令跟随能力与文本输入相当(如MMLU 65.6% vs 文本69.3%),语音生成在SEED测试集上实现1.42% WER,显著优于MaskGCT等模型。该模型支持实时多模态交互,在视频对话、语音生成等场景展现强大能力,标志着向通用人工智能的重要进展。
论文来源:hf
Hugging Face 投票数:166
论文链接:
https://hf.co/papers/2503.20215
PaperScope.ai 解读:
https://paperscope.ai/hf/2503.20215
(4) Qwen3-Omni Technical Report

论文简介:
由Qwen团队提出了Qwen3-Omni,该工作通过Thinker-Talker MoE架构实现了文本、图像、音频、视频的统一多模态处理,在保持各模态性能无损的前提下显著提升跨模态推理能力。模型采用全新设计的Audio Transformer(AuT)编码器,基于2000万小时监督音频数据训练,配合多码本流式语音生成方案,在36个音频/音视频基准测试中取得32项开源SOTA和22项整体SOTA,性能超越Gemini-2.5-Pro等闭源模型。其核心创新包括:1)混合单模态与跨模态数据的预训练策略,实现模态间协同增强;2)多码本预测架构支持每帧即时语音合成,结合轻量级ConvNet将端到端首包延迟降至234ms;3)支持119种文本语言、19种语音识别语言和10种语音合成语言,可处理长达40分钟的音频输入;4)引入显式跨模态推理的Thinking模型和音频描述生成模块Qwen3-Omni-Captioner。实验表明该模型在保持文本/视觉性能与同规模单模态模型相当的同时,在音频理解、多语言交互、实时对话等场景展现显著优势,为多模态大模型的实用化部署提供了重要范式。
论文来源:hf
Hugging Face 投票数:127
论文链接:
https://hf.co/papers/2509.17765
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.17765
(5) OmniGen: Unified Image Generation

论文简介:
由北京人工智能实验室等机构提出了OmniGen,该工作构建了一个统一的图像生成模型,通过简洁的架构设计和多任务训练实现了跨领域的生成能力。OmniGen采用VAE与Transformer的极简结构,支持文本、图像及其混合输入的统一处理,无需额外插件即可完成文本生成图像、图像编辑、主题驱动生成等多类任务。其核心创新在于:1)统一性——首个将文本生成图像、视觉条件生成、计算机视觉任务等整合至单一框架的模型;2)简洁性——通过双向注意力机制和指令驱动流程,省去传统扩散模型的复杂预处理步骤;3)知识迁移——在自建的X2I数据集(含0.1亿图像对)上训练后,可将知识迁移至未见任务,如通过示例学习完成新领域分割任务。实验显示,OmniGen在GenEval基准上以38亿参数达到与SD3相当的文本生成图像效果,同时在图像编辑、主题驱动生成等任务中表现优异。特别值得注意的是,其推理能力可支持多步骤指令执行,如通过链式思维机制模拟人类绘画过程。该工作标志着通用图像生成模型的重要进展,相关代码、模型和数据集已开源,为未来多模态生成模型的研究提供了新范式。
论文来源:hf
Hugging Face 投票数:111
论文链接:
https://hf.co/papers/2409.1134
PaperScope.ai 解读:
https://paperscope.ai/hf/2409.1134
(6) OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling

论文简介:
由上海人工智能实验室、浙江大学等机构提出了OmniWorld,该工作构建了一个大规模多领域多模态数据集,旨在解决4D世界建模中的数据瓶颈问题。OmniWorld包含自建的OmniWorld-Game合成数据集(覆盖18,515K帧、720P分辨率、深度图/相机位姿/文本描述/光流/前景掩码五种模态)和机器人、人类、互联网领域的11个公开数据集,总数据量超3亿帧。其核心优势在于:1)通过游戏引擎获取的高精度动态数据(如《荒野大镖客》场景)解决了真实世界数据标注难题;2)多领域覆盖使数据分布更贴近现实世界复杂性;3)首创的多模态标注体系(如150-250词的稠密文本描述)为时空建模提供全面监督信号。
基于OmniWorld-Game构建的基准测试揭示了当前技术的显著局限:在3D几何预测任务中,尽管VGGT在视频深度估计中达到18.75FPS和0.755的FVD最优指标,但所有模型在长序列动态场景中均出现几何一致性退化;在相机控制视频生成任务中,AC3D等模型生成的动态内容与真实轨迹偏差达6.28米。通过在OmniWorld上微调DUSt3R、CUT3R等模型,其在Sintel数据集的单目深度估计误差从0.488降至0.370,KITTI数据集的视频深度精度提升15.6%,AC3D在RealEstate10K上的相机控制误差从3.44降低至2.86,充分验证了该数据集作为训练资源的有效性。该研究为开发具备物理世界理解能力的通用视觉模型提供了关键基础设施。
论文来源:hf
Hugging Face 投票数:103
论文链接:
https://hf.co/papers/2509.12201
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.12201
(7) InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions

论文简介:
由上海人工智能实验室等机构提出的InternLM-XComposer2.5-OmniLive(IXC2.5-OL)创新性地构建了支持长时流式视频与音频交互的多模态系统,该工作突破了传统多模态大语言模型(MLLMs)在实时感知、记忆与推理协同方面的局限。针对现有模型受限于序列到序列架构导致无法同时处理输入输出的问题,以及长上下文存储历史数据的低效性,研究者借鉴"专业化通才AI"理念,设计了包含流感知模块、多模态长时记忆模块和推理模块的解耦架构:1)流感知模块实时处理视频与音频流,提取关键信息存入记忆并触发推理;2)多模态长时记忆模块通过压缩短期记忆生成高效长期记忆,支持跨模态检索;3)推理模块协调感知与记忆模块,实现动态响应。实验表明,该系统在音频识别(Wenetspeech中文测试集WER 9.0%)、视频理解(MLVU基准66.2%)及实时交互(StreamingBench 73.79%)等任务中均达到开源模型最优水平,并在7B参数规模下超越部分闭源API。值得注意的是,其流式处理能力使系统能像人类般同步感知环境与生成响应,为持续交互场景提供新范式。相关代码与模型已开源,推动多模态流式交互技术的社区发展。
论文来源:hf
Hugging Face 投票数:98
论文链接:
https://hf.co/papers/2412.09596
PaperScope.ai 解读:
https://paperscope.ai/hf/2412.09596
(8) Baichuan-Omni Technical Report

论文简介:
由百川智能、西湖大学和浙江大学等机构提出了Baichuan-omni,该工作开源了首个70亿参数的多模态大语言模型,能够同时处理图像、视频、音频和文本输入,并在多模态任务中展现出色性能。研究团队构建了包含高质量图文、音视频数据的多模态训练集,通过两阶段训练策略实现模态对齐和多任务微调:第一阶段使用图文、音频文本和视频文本数据进行多模态预训练,第二阶段基于60万条跨模态指令微调数据提升模型的多模态交互能力。实验显示,Baichuan-omni在CMMLU(72.2%)、C-Eval(68.9%)等中文基准测试中显著超越VITA等开源模型,在MMBench-CN(71.4%)等视觉任务上优于MiniCPM-Llama3-V 2.5,在ActivityNet-QA(58.6%)等视频任务中超越GPT-4V,在Fleurs中文语音识别任务中实现7.0% WER的业内领先表现。该模型创新性地采用Conv-GMLP架构处理音频特征压缩,在保持信息完整性的同时实现高效计算。研究还通过AnyRes技术提升视觉编码器对高分辨率图像的处理能力,并采用动态帧采样策略优化视频理解。作为首个支持实时音视频流输入的开源多模态模型,Baichuan-omni为多模态交互研究提供了重要基准,其代码、模型权重和评估脚本均已开源,为推动多模态大模型发展提供了关键基础设施。
论文来源:hf
Hugging Face 投票数:87
论文链接:
https://hf.co/papers/2410.08565
PaperScope.ai 解读:
https://paperscope.ai/hf/2410.08565
(9) OmniGen2: Exploration to Advanced Multimodal Generation

论文简介:
由北京人工智能研究院等机构提出了OmniGen2,该工作提出了一种支持文本到图像生成、图像编辑和上下文生成的多模态生成模型。OmniGen2采用独立的文本和图像解码路径,通过解耦的VAE图像分词器和ViT编码器,在保留多模态理解能力的同时避免参数共享冲突。模型采用特殊token触发扩散解码器生成图像,并引入新型多模态旋转位置编码(Omni-RoPE)提升编辑一致性。研究团队构建了基于视频的上下文生成数据管道,通过关键帧提取、对象跟踪和背景重绘生成高质量训练样本,并开发了包含8个子任务的OmniContext基准用于评估上下文生成能力。实验显示OmniGen2在文本到图像生成(GenEval 0.86)、图像编辑(ImgEdit-Bench 3.44)和上下文生成(OmniContext 7.18)等任务中均达到开源模型领先水平,尤其在多对象一致性生成方面表现突出。此外,研究还探索了多轮反射机制在图像生成中的应用,通过迭代生成-评估-修正提升输出质量。模型参数量为3B+4B,训练数据包含1.4亿公开图像及自生成视频数据,相关代码、数据和模型已开源。
论文来源:hf
Hugging Face 投票数:77
论文链接:
https://hf.co/papers/2506.18871
PaperScope.ai 解读:
https://paperscope.ai/hf/2506.18871
(10) OmniFusion Technical Report

论文简介:
由AIRI、Sber AI和Skoltech的研究人员提出的OmniFusion是一种基于预训练大语言模型(LLM)与视觉适配器的新型多模态架构,旨在提升文本与视觉数据的耦合能力。该工作通过对比MLP与Transformer适配器、CLIP ViT系列编码器(SigLIP、InternViT等)及图像编码策略(整图编码与分块编码),优化了多模态特征融合方法。实验表明,采用InternViT-6B-448px-V1-2视觉编码器的OmniFusion在8个视觉语言基准测试(VizWiz、POPE、MM-Vet等)中均表现出色,尤其在VQA任务上超越了LLaVA-like等开源方案。模型通过双编码器特征融合策略(CLIP ViT-L/14与DINO-v2)进一步提升了文本-视觉对齐效果,并在文档分析和数学公式识别等垂直领域展现出细节处理优势。研究还验证了高分辨率图像分块编码对OCR任务的显著提升,结合俄语文档数据微调后,DocVQA指标提升超20%。基于Mistral-7B的开源版本已公开权重与训练脚本,支持社区在多模态对话、医学影像分析及公式识别等场景的快速复现与扩展。该模型在保持计算效率的同时,通过灵活适配不同视觉编码器和任务特定微调,为多模态AI系统开发提供了兼具性能与实用性的解决方案。
论文来源:hf
Hugging Face 投票数:75
论文链接:
https://hf.co/papers/2404.06212
PaperScope.ai 解读:
https://paperscope.ai/hf/2404.06212
(11) OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference

论文简介:
由上海交通大学、上海人工智能实验室等机构提出了OmniAlign-V,该工作针对多模态大语言模型(MLLMs)在人类偏好对齐能力上的不足,构建了一个包含20万高质量样本的训练数据集OmniAlign-V,并开发了专门评估对齐能力的基准MM-AlignBench。研究发现,现有MLLM在视觉指令微调过程中会出现语言对齐能力退化现象,而单纯增加高质量文本数据反而会损害多模态能力。为此,OmniAlign-V通过语义丰富图像筛选、多样化任务设计(知识问答、推理、创意生成等)和多阶段数据增强,生成了涵盖开放性问题、长文本回答和严格指令遵循的多模态样本。实验表明,基于LLaVA-NeXT框架微调的模型在整合OmniAlign-V后,多模态对齐指标MM-AlignBench得分提升超40%,同时保持了MMVet等标准基准的竞争力。研究还发现,将该数据集用于直接偏好优化(DPO)可进一步提升对齐效果,例如LLaVA-OA-32B-DPO模型在MM-AlignBench上超越了Qwen2VL-72B等闭源模型。MM-AlignBench基准通过精选252个语义丰富图像和人工设计问题,有效弥补了WildVision等现有基准的重复性缺陷。该工作揭示了高质量多模态数据对齐训练的重要性,为提升MLLM人机交互体验提供了关键数据基础和评估工具。
论文来源:hf
Hugging Face 投票数:74
论文链接:
https://hf.co/papers/2502.18411
PaperScope.ai 解读:
https://paperscope.ai/hf/2502.18411
(12) Matrix-3D: Omnidirectional Explorable 3D World Generation

论文简介:
天工等提出了Matrix-3D,该工作提出了一种基于全景表示的宽覆盖可探索3D世界生成框架,通过结合条件视频生成与全景3D重建技术,解决了传统方法在场景生成范围和几何一致性上的局限性。核心创新包括:1)设计了轨迹引导的全景视频扩散模型,采用场景网格渲染作为条件输入,有效缓解了点云渲染导致的摩尔纹和错误遮挡问题,显著提升了生成视频的视觉质量和几何一致性;2)开发了两种3D重建方案——基于关键帧优化的高精度重建流水线和基于Transformer的前馈式全景重建模型,前者通过多视角超分与高斯溅射优化实现细节丰富的3D场景生成,后者则通过两阶段训练策略(先深度预测后属性优化)实现了快速重建;3)构建了首个大规模全景视频数据集Matrix-Pano,包含116K条高分辨率静态全景视频序列,每条数据配备精确的相机轨迹、深度图和文本注释,为全景视频生成与3D重建研究提供了关键数据支撑。实验表明,该方法在全景视频生成质量(PSNR达23.9,FVD低至140)和3D重建精度(PSNR达27.62)上均超越现有方案,生成场景的探索范围显著优于同期工作WorldLabs。该研究为构建广域覆盖的沉浸式3D环境提供了完整的技术路径,对自动驾驶仿真、元宇宙内容生成等领域具有重要应用价值。
论文来源:hf
Hugging Face 投票数:74
论文链接:
https://hf.co/papers/2508.08086
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.08086
(13) DreamOmni2: Multimodal Instruction-based Editing and Generation

论文简介:
由香港中文大学、香港科技大学、香港大学及字节跳动等机构提出了DreamOmni2,该工作针对多模态指令引导的图像编辑与生成任务展开研究,通过支持文本与图像双重指令输入,并将编辑与生成范围从具象物体扩展至抽象属性,显著提升了模型的实际应用能力。研究团队构建了包含三个阶段的数据合成管道:首先采用特征混合方法生成具有相同抽象属性或具象物体的图像对,随后训练提取模型生成多模态指令编辑数据,最终利用该模型创建生成任务数据。为解决多参考图像输入问题,团队提出索引编码与位置编码偏移方案,通过区分图像索引并调整位置信息避免像素混淆。同时引入视觉语言模型(VLM)联合训练机制,使模型能够理解复杂用户指令。实验表明,DreamOmni2在抽象属性编辑与生成任务上表现突出,其指标超越现有开源模型并接近商业闭源模型。研究还建立了包含真实图像的DreamOmni2基准测试集,涵盖从1到5张参考图像的多样化测试案例,为评估模型在真实场景中的泛化能力提供标准。该工作通过数据构建、框架优化与任务扩展的系统性创新,推动了统一生成与编辑模型向更智能、更通用的方向发展。
论文来源:hf
Hugging Face 投票数:71
论文链接:
https://hf.co/papers/2510.06679
PaperScope.ai 解读:
https://paperscope.ai/hf/2510.06679
(14) OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data
论文来源:hf
Hugging Face 投票数:64
论文链接:
https://hf.co/papers/2505.18445
PaperScope.ai 解读:
https://paperscope.ai/hf/2505.18445
(15) OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models

论文简介:
由ByteDance等机构提出了OmniInsert,该工作聚焦于无掩码视频插入任务,通过创新的数据管道InsertPipe、统一框架OmniInsert及基准测试InsertBench,解决了数据稀缺、主体-场景平衡和插入和谐三大核心挑战。针对数据稀缺问题,InsertPipe构建了包含RealCapture、SynthGen和SimInteract三条流水线的自动化数据生成系统,通过真实视频处理、大语言模型驱动的合成数据生成及渲染引擎模拟复杂交互场景,实现多样化训练数据的高效构建。OmniInsert框架采用Condition-Specific Feature Injection机制,通过差异化时序对齐策略高效注入视频与主体特征,并结合LoRA模块保持文本对齐能力;创新的Progressive Training策略通过四阶段优化平衡多条件注入,配合Subject-Focused Loss强化主体细节一致性。为提升插入和谐性,研究者提出Insertive Preference Optimization方法模拟人类偏好优化模型,并设计Context-Aware Rephraser模块在推理时动态增强场景语义描述。团队还构建了包含120个视频及配套主体的InsertBench基准,实验表明OmniInsert在主体一致性(CLIP-I* 0.745)、文本对齐(ViCLIP-T 25.945)等指标上全面超越Pika-Pro、Kling等商业方案,用户研究显示其在综合评价中获得68.34%的偏好率。该工作通过数据、模型与基准的完整技术闭环,推动了学术界在视频编辑领域向商业化应用的突破。
论文来源:hf
Hugging Face 投票数:64
论文链接:
https://hf.co/papers/2509.17627
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.17627
(16) Baichuan-Omni-1.5 Technical Report

论文简介:
由Baichuan等机构提出了Baichuan-Omni-1.5,该工作通过构建高质量多模态数据集、设计音频标记器和多阶段训练策略,实现了跨文本、图像、音频和视频的统一理解与生成能力。该模型采用Residual Vector Quantization技术设计的Baichuan-Audio-Tokenizer,以12.5Hz帧率实现语义与声学信息的平衡,支持双语实时语音交互。其多阶段训练策略通过逐步整合图文预训练、图文音联合预训练和多模态微调,有效缓解模态冲突问题。实验显示,模型在MMBench等10个视觉基准测试中平均得分73.3,超越GPT-4o-mini约6分;在OpenMM-Medical医疗影像数据集上以7B参数量达到83.8%准确率,超过Qwen2-VL-72B的80.7%;音频理解任务中AlpacaEval得分为7.79,较GLM-4-Voice提升2.9倍。此外,该模型在ActivityNet-QA视频问答任务中准确率达62.0%,在端到端语音交互场景中展现显著优势。研究还公开了含5000亿token的多模态数据集和OpenAudioBench音频评估基准,为多模态研究提供重要基础设施。
论文来源:hf
Hugging Face 投票数:62
论文链接:
https://hf.co/papers/2501.15368
PaperScope.ai 解读:
https://paperscope.ai/hf/2501.15368
(17) Scaling Language-Centric Omnimodal Representation Learning

论文简介:
由阿里巴巴达摩院等机构提出了语言中心的全模态表示学习框架LCO-EMB,该工作揭示了多模态大语言模型(MLLM)通过生成式预训练建立的隐式跨模态对齐机制,并提出通过轻量级文本对比学习实现多模态表示增强的新范式。研究发现,MLLM的语言解码器在生成文本时已隐式学习了多模态信息的统一表示空间,通过分析各向异性和核相似性结构证实了潜在对齐的存在。基于此,LCO-EMB框架采用LoRA进行参数高效微调,仅用文本数据即可提升全模态表示质量,在MIEB-Lite基准测试中以37万训练样本超越使用800万数据的SOTA模型。进一步提出生成-表示扩展定律(GRSL),揭示MLLM生成能力与对比学习后表示能力的正相关性,理论分析表明生成质量决定了表示性能的上界。在低资源东南亚语言视觉文档检索任务SeaDoc中,通过持续OCR预训练提升生成能力后,文本对比学习的表示性能显著提升。该工作重新定义了对比学习在多模态表示学习中的角色,证明生成式预训练而非跨模态数据扩展是提升表示能力的核心驱动力,并为构建高效多模态系统提供了新的理论依据和实践路径。
论文来源:hf
Hugging Face 投票数:60
论文链接:
https://hf.co/papers/2510.11693
PaperScope.ai 解读:
https://paperscope.ai/hf/2510.11693
(18) Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation

论文简介:
由阿里巴巴等机构提出了Omni-Effects,该工作构建了一个统一的视觉效果生成框架,支持通过文本提示和空间掩码实现单效、多效及空间可控的视觉效果生成。针对传统方法在多效生成中的任务干扰和空间控制不足问题,研究者创新性地引入LoRA-MoE模块,通过专家LoRA组的动态路由机制实现多效协同训练,有效抑制跨任务干扰;同时设计空间感知提示(SAP)机制,将空间掩码信息嵌入文本token,并通过独立信息流(IIF)模块隔离不同控制信号,避免效果混合。为支撑研究,团队构建了包含55类视觉效果的Omni-VFX数据集,并提出包含区域动态度(RDD)、效果触发率(EOR)等指标的评估体系。实验表明,Omni-Effects在多效生成任务中FVD指标优于传统LoRA方法20%以上,在空间控制任务中EOR达到0.97,ECR达0.88,显著优于CogVideoX等基线模型。该框架在电影特效、游戏开发等领域具有广阔应用前景,为可控视觉生成提供了新范式。
论文来源:hf
Hugging Face 投票数:58
论文链接:
https://hf.co/papers/2508.07981
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.07981
(19) OmniPart: Part-Aware 3D Generation with Semantic Decoupling and Structural Cohesion

论文简介:
由香港大学、哈尔滨工业大学和VAST等机构提出的OmniPart,该工作通过两阶段生成框架实现了部件感知的3D生成,在语义解耦与结构凝聚之间取得突破性平衡。研究团队创新性地将复杂任务分解为结构规划与部件合成两个协同阶段:首先通过自回归模型生成可变长度的3D部件包围盒序列,该模块利用灵活的2D部件掩码进行引导,无需严格对应关系或语义标签即可实现用户定义的部件粒度控制;随后基于预训练的TRELLIS模型构建空间条件部件合成模块,通过引入部件位置嵌入和体素有效性判别机制,在有限部件级监督下同步生成高质量纹理部件,确保部件间几何一致性与语义独立性。实验表明,OmniPart在部件级生成指标上超越现有方法15%以上,生成速度较同类工作提升20倍,支持从材质编辑到动画制作的多样化应用。该框架通过解耦结构规划与几何生成,在保持部件独立性的同时实现整体结构完整性,为可编辑3D内容创作提供了全新范式。
论文来源:hf
Hugging Face 投票数:57
论文链接:
https://hf.co/papers/2507.06165
PaperScope.ai 解读:
https://paperscope.ai/hf/2507.06165
(20) OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints

论文简介:
由北京大学与AgiBot团队提出的OmniManip,通过物体中心交互原语作为空间约束,构建了连接视觉语言模型(VLM)高层推理与机器人低层操作精度的桥梁。该工作针对VLM缺乏精确3D空间理解能力的痛点,创新性地将物体标准空间中的功能可供性转化为结构化的交互点与方向描述,使VLM的常识推理能够转化为可执行的3D空间约束。系统采用双闭环架构:在高层规划阶段,通过交互原语重采样、渲染验证和VLM检查形成闭环推理;在低层执行阶段,基于6D位姿跟踪实现闭环控制。实验表明,该方法在12项真实世界操作任务中表现出色,零样本泛化能力显著优于VoxPoser、CoPa等基线方法,在刚性物体操作任务中成功率提升15%以上。其核心优势在于:1)基于物体标准空间的交互原语采样显著提升推理效率与稳定性;2)双闭环机制有效缓解VLM幻觉问题;3)无需VLM微调即可实现开放词汇操作。此外,该方法在自动化生成机器人操作轨迹数据方面展现出潜力,为规模化模仿学习提供了新思路。
论文来源:hf
Hugging Face 投票数:56
论文链接:
https://hf.co/papers/2501.03841
PaperScope.ai 解读:
https://paperscope.ai/hf/2501.03841
(21) LLaMA-Omni: Seamless Speech Interaction with Large Language Models

论文简介:
由中科院计算技术研究所等机构提出了LLaMA-Omni,该工作构建了一种端到端的语音交互模型架构,通过整合预训练语音编码器、语音适配器、LLaMA-3.1-8B-Instruct大语言模型和流式语音解码器,实现了低延迟高质量的语音指令响应能力。模型创新性地采用非自回归流式Transformer解码器,结合CTC对齐机制,可在生成文本响应的同时同步生成语音响应,端到端响应延迟低至236ms。研究团队构建了包含20万条语音指令-响应对的InstructS2S-200K数据集,通过指令重写、响应生成和语音合成三阶段处理,使数据风格更贴近真实语音交互场景。实验显示,LLaMA-Omni在保持3.99分ChatGPT评分的同时,语音响应质量显著优于SpeechGPT等基线模型,ASR-WER降低至10.82%,训练成本仅需4块GPU训练3天,相较同类工作训练效率提升数倍。该模型在流式场景下保持稳定性能,当延迟控制在563ms时各项指标接近离线场景,同时通过人类评估验证了其响应内容的有用性和语音自然度均优于级联式系统。
论文来源:hf
Hugging Face 投票数:56
论文链接:
https://hf.co/papers/2409.06666
PaperScope.ai 解读:
https://paperscope.ai/hf/2409.06666
(22) Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

论文简介:
由Inspirai和清华大学提出了Mini-Omni,该工作介绍了首个支持实时语音交互的开源多模态大模型,通过文本指导的语音生成方法和批并行推理策略,在保持原有语言能力的同时实现流式语音输入输出。Mini-Omni基于Qwen2-0.5B架构,采用SNAC音频编码器和Whisper语音特征提取,创新性地提出文本延迟并行解码和批并行解码技术,通过八层语言模型头同步生成文本与音频令牌,实现每秒数百音频令牌的实时输出。研究团队还开发了"任何模型都能说话"的适配方法,通过三阶段训练(模态对齐、适配训练、多模态微调)在仅添加少量适配器的情况下快速赋予模型语音能力,同时推出专为语音助手优化的40万条VoiceAssistant-400K数据集。实验表明该模型在ASR任务中达到4.5%的词错误率,接近Whisper-small水平,流式对话响应延迟显著低于传统级联方案。该成果为学术界提供了首个可复现的实时语音交互解决方案,相关代码和数据集已开源。################# 分割行,以下为论文原始材料 #############
论文来源:hf
Hugging Face 投票数:53
论文链接:
https://hf.co/papers/2408.16725
PaperScope.ai 解读:
https://paperscope.ai/hf/2408.16725
(23) OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision

论文简介:
由多伦多大学、威斯康星大学麦迪逊分校等机构提出的OmniEdit,该工作通过专家监督构建多任务图像编辑模型,解决了现有方法在编辑能力、数据质量和分辨率适配上的三大瓶颈。研究团队提出四重创新:首先构建七个任务专家模型(如物体替换、属性修改等)生成高质量训练数据,并通过GPT-4o评分筛选出120万高保真样本;其次设计EditNet架构,在扩散模型中引入控制分支与原分支的中间特征交互机制,显著提升任务理解能力;同时采用InternVL2蒸馏GPT-4o实现高效数据质量评估;最终支持任意长宽比和高分辨率图像编辑。实验表明,OmniEdit在包含434个跨分辨率测试样本的OmniEdit-Bench上,语义一致性得分(SC)达0.71,显著超越CosXL-Edit(0.56)等现有模型,且在物体移除、风格迁移等任务上接近专家模型表现。该方法为构建通用图像编辑系统提供了专家监督、质量控制和架构设计的完整解决方案。
论文来源:hf
Hugging Face 投票数:50
论文链接:
https://hf.co/papers/2411.07199
PaperScope.ai 解读:
https://paperscope.ai/hf/2411.07199
(24) Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

论文简介:
由 CUHK、SmartMore 和 HKUST 等机构提出了 Lyra,该工作设计了一种高效且以语音为中心的多模态大语言模型框架,在增强多模态能力的同时显著降低计算资源需求。Lyra 通过三大核心策略实现突破:首先利用现有开源大模型(如 LLaMA3 和 Qwen2-VL)结合多模态 LoRA 模块,在最小化训练数据量的情况下快速扩展语音模态能力;其次提出潜在跨模态正则器和提取器,通过动态时间规整算法对齐语音与文本特征,并基于注意力机制筛选关键模态信息,使训练速度提升50%、显存占用降低50%;最后构建包含1.5百万多模态样本和12k长语音样本的高质量数据集,支持处理时长超2小时的复杂语音输入。实验显示 Lyra 在视觉-语音、语音-文本等跨模态任务上全面超越现有模型,在 TextVQAS 和 LibriSpeech 等基准测试中分别取得81.0%和1.8%的最优结果,同时模型参数量仅为同类模型的1/3。该框架通过流式生成模块实现文本与语音的同步输出,在教育、新闻摘要等长语音场景中展现出显著优势,为多模态大模型的语音交互能力发展提供了新范式。
论文来源:hf
Hugging Face 投票数:48
论文链接:
https://hf.co/papers/2412.09501
PaperScope.ai 解读:
https://paperscope.ai/hf/2412.09501
(25) OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking

论文简介:
由浙江大学、阿里巴巴通义实验室等机构提出了OmniThink,该工作通过模拟人类学习过程中的迭代扩展与反思机制,构建了信息树与概念池两个核心组件,有效突破了传统检索增强生成技术的知识边界限制,显著提升了机器写作生成内容的知识密度与创新性。研究发现,现有方法在信息检索和认知框架构建上存在知识信息边界与认知边界双重限制,导致生成内容出现冗余、浅层化和缺乏新意等问题。OmniThink通过动态扩展信息树实现多维度深度检索,利用概念池进行知识蒸馏与认知迭代,使模型在文章结构构建和内容生成阶段能更高效地组织与利用知识。实验表明,该方法在WildSeek数据集上将知识密度指标提升15.7%,同时在相关性、广度、深度和新颖性等维度全面超越STORM、Co-STORM等基准方法。研究还创新性地提出了知识密度(Knowledge Density)评估指标,为衡量生成内容的信息有效性提供了新标准。通过边界分析实验,证实了信息边界扩展使检索范围扩大3.2倍,认知边界突破使知识利用率提升28%,为解决长文本生成中的知识边界问题提供了可复用的技术框架。
论文来源:hf
Hugging Face 投票数:48
论文链接:
https://hf.co/papers/2501.09751
PaperScope.ai 解读:
https://paperscope.ai/hf/2501.09751
(26) Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding
论文来源:hf
Hugging Face 投票数:48
论文链接:
https://hf.co/papers/2510.06308
PaperScope.ai 解读:
https://paperscope.ai/hf/2510.06308
(27) VITA: Towards Open-Source Interactive Omni Multimodal LLM

论文简介:
由腾讯优图实验室、南京大学、厦门大学及中科院自动化所等机构提出了VITA,该工作首次实现了开源多模态大语言模型对视频、图像、文本和音频的统一处理能力,并在多模态交互体验上取得突破性进展。VITA基于Mixtral 8×7B语言模型,通过扩展中文词汇量并进行双语指令微调,使其具备中英双语理解能力;随后采用两阶段多任务学习框架,利用海量高质量多模态数据完成视觉、音频与文本特征空间的对齐,并通过指令微调强化多模态理解与生成能力。在交互设计上,VITA创新性地引入状态令牌机制,结合环境音过滤技术实现无需唤醒词的自然语音交互,并通过双模型并行部署方案支持实时音频中断响应,显著提升人机交互流畅度。实验表明,VITA在多项多模态基准测试中表现优异,尤其在中文理解、语音识别和多模态推理任务上接近先进闭源模型水平。作为首个开源的四模态交互式模型,VITA为多模态AI研究提供了完整的训练框架、模型代码及部署工具链,其技术突破为开源社区探索自然人机交互范式开辟了新路径,尽管在基础能力上仍与顶尖闭源模型存在差距,但其开创性工作为后续研究奠定了重要基础。
论文来源:hf
Hugging Face 投票数:47
论文链接:
https://hf.co/papers/2408.05211
PaperScope.ai 解读:
https://paperscope.ai/hf/2408.05211
(28) OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain

论文简介:
由中国人民大学等机构提出了OmniEval,该工作针对金融领域构建了一个多维度的检索增强生成(RAG)评估基准,通过任务-话题矩阵实现场景化评估,结合GPT-4自动生成与人工标注构建11.4万测试样本,采用检索生成双阶段评估框架及规则+LLM混合指标体系,实验表明当前RAG系统在金融领域仍有显著提升空间且存在任务话题性能差异。OmniEval通过五类任务(抽取式问答、多跳推理、对比问答、长文本问答、对话问答)与16个金融子领域构建评估矩阵,利用多智能体系统实现数据自动化生成,经人工校验后接受率达87.47%。评估体系包含MAP/MRR等检索指标、Rouge-L等生成指标,以及基于Qwen2.5-7B-Instruct微调的准确性、完整性、幻觉检测等五项LLM评估指标,实验覆盖BGE-M3、Qwen2.5-72B等主流模型,发现RAG系统在对话问答和多跳推理任务中表现较弱,不同金融话题间性能差异显著,为垂直领域RAG优化提供方向。该基准支持自动构建训练/测试集,为领域RAG研究提供标准化评估平台。
论文来源:hf
Hugging Face 投票数:41
论文链接:
https://hf.co/papers/2412.13018
PaperScope.ai 解读:
https://paperscope.ai/hf/2412.13018
(29) OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation

论文简介:
由字节跳动智能创作实验室等机构提出了OmniHuman-1.5,该工作通过认知模拟为虚拟角色注入主动思维,构建了首个同时模拟人类"系统1"(快速反应)和"系统2"(深度推理)的认知框架。核心贡献体现在两个关键技术:1)利用多模态大语言模型生成结构化文本条件,通过链式推理提供语义级动作指导,突破传统方法仅依赖音频节奏的局限;2)创新多模态Diffusion Transformer架构,采用伪最后一帧策略解决身份图像与动态内容的模态冲突,实现音频、文本、视频三模态的深度融合。实验表明该方法在唇同步准确率、视频质量、动作自然度等指标上全面领先,并展现出卓越的语义一致性。特别在复杂多场景测试中,模型成功生成符合逻辑的多角色互动和非人类角色动作,验证了框架的泛化能力。这项研究开创性地将认知科学理论引入虚拟人生成领域,为构建具有真实行为逻辑的数字角色提供了全新范式。
论文来源:hf
Hugging Face 投票数:41
论文链接:
https://hf.co/papers/2508.19209
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.19209
(30) OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation

论文简介:
由上海交通大学和商汤科技提出的OneIG-Bench,构建了一个面向文本到图像生成模型的多维细粒度评估框架。该工作针对现有基准在推理能力、文本渲染和风格化评估等方面的不足,设计了包含通用物体、人像、动漫与风格化、文本渲染、知识与推理以及多语言性六大评估维度的基准体系,每个维度包含约200个精心设计的提示词,覆盖真实用户需求场景。通过开发语义对齐、文本渲染精度、推理生成内容、风格化程度和多样性的定量评估指标,该框架支持对模型进行模块化评估,用户可针对特定维度生成图像并完成对应评估。基准测试了Stable Diffusion系列、Imagen、GPT-4o等10余种主流模型,发现闭源模型在整体性能上占据优势,其中GPT-4o在推理和风格化维度表现突出,Seedream 3.0在中文文本渲染方面领先,但多数模型仍存在长文本生成质量下降、多语言能力不足等问题。该基准的代码和数据集已开源,为文本到图像生成领域的研究者提供了标准化的评估工具,有助于推动生成模型在语义理解、知识推理和多模态交互等方向的技术突破。
论文来源:hf
Hugging Face 投票数:41
论文链接:
https://hf.co/papers/2506.07977
PaperScope.ai 解读:
https://paperscope.ai/hf/2506.07977
(31) AnyCap Project: A Unified Framework, Dataset, and Benchmark for Controllable Omni-modal Captioning

论文简介:
由清华、上海人工智能实验室等机构提出了AnyCap项目,该工作构建了涵盖模型、数据集和评估基准的多模态可控字幕生成解决方案。研究团队提出AnyCapModel(ACM)框架,通过冻结基础模型参数,利用用户指令、模态特征与初始字幕的对齐机制,显著提升图像、视频和音频字幕生成的可控性,避免了大规模模型重训练。针对可控字幕数据匮乏问题,构建了包含30万条三元组(指令-优质字幕-次优字幕)的AnyCapDataset(ACD),覆盖3种模态、28种控制维度,采用偏好对训练策略降低标注成本。为解决现有评估指标缺陷,设计了AnyCapEval基准,通过关键点密度(KPD)量化内容准确性,结合风格一致性评分体系,实现内容与风格的双维度评估。实验显示ACM在GPT-4o等模型上提升效果显著,其中ACM-8B使GPT-4o的内容可控性提升45%、风格一致性提升12%,在MIA-Bench和VidCapBench等基准测试中也表现优异。该工作通过框架创新、数据构建和评估体系设计,系统性解决了多模态可控字幕生成的关键挑战。
论文来源:hf
Hugging Face 投票数:41
论文链接:
https://hf.co/papers/2507.12841
PaperScope.ai 解读:
https://paperscope.ai/hf/2507.12841
(32) OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

论文简介:
由南京大学等机构提出了OmniVideoBench,该工作针对多模态大语言模型(MLLMs)在音视频协同理解评估方面的不足,构建了一个大规模、高质量的基准测试集。现有视频理解基准往往忽视音频模态或存在逻辑不一致问题,OmniVideoBench通过1000个精心设计的问答对,覆盖628个时长从几秒到30分钟的多样化视频,包含新闻、纪录片、运动赛事等8大类68小类内容。每个问题均标注了包含视听证据和推理步骤的原子化推理链,确保评估的严谨性和可解释性。基准设计了13种任务类型,涵盖时空推理、因果推断、摘要生成等核心视频理解挑战,并通过严格的质量控制流程保证问题的唯一性和正确性。实验评估显示,当前MLLMs在该基准上表现普遍不佳,闭源模型Gemini-2.5-Pro最高仅达58.9%准确率,开源模型普遍接近随机猜测水平,暴露出在长视频理解、音乐场景推理等任务上的显著不足。研究还发现,音频信息对模型性能提升具有不可替代性,单纯依赖ASR文本无法弥补深层声学理解的缺失。该基准的推出为推动多模态大语言模型在音视频协同推理能力的发展提供了重要评测工具。
论文来源:hf
Hugging Face 投票数:40
论文链接:
https://hf.co/papers/2510.10689
PaperScope.ai 解读:
https://paperscope.ai/hf/2510.10689
(33) X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again

论文简介:
由腾讯等机构提出了X-Omni,该工作通过强化学习技术有效解决了离散自回归图像生成模型的累积误差和信息丢失问题,实现了文本与图像生成的统一建模。X-Omni采用语义图像分词器将图像转化为离散token,结合70亿参数的语言模型进行联合训练,并通过离线扩散解码器实现高质量图像重建。其核心创新在于引入组相对策略优化(GRPO)算法,通过人类偏好、文本对齐、OCR准确率等多维度奖励机制,引导模型生成高保真图像并精准渲染中英文长文本。实验表明,X-Omni在DPG-Bench和GenEval等基准测试中超越DALL-E3、SDXL等生成模型,尤其在长文本渲染任务中,中英文准确率分别达到89.5%和90.1%,显著优于GPT-4o等先进模型。该方法还突破了传统自回归模型对无分类器引导(CFG)的依赖,在保持生成质量的同时降低计算成本,为多模态统一建模提供了新范式。
论文来源:hf
Hugging Face 投票数:38
论文链接:
https://hf.co/papers/2507.22058
PaperScope.ai 解读:
https://paperscope.ai/hf/2507.22058
(34) OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

论文简介:
由清华大学、上海交通大学、西安交通大学等机构提出了OmniSpatial,该工作构建了一个全面的空间推理基准测试,旨在评估视觉语言模型(VLMs)的复杂空间理解能力。研究团队通过认知心理学理论指导,将空间推理细分为动态推理、复杂空间逻辑、空间交互和视角转换四大维度,涵盖50个子任务类别,构建了1.5K个高质量问答对。实验表明,当前最先进模型在该基准上的准确率仅为57%,显著低于人类表现,尤其在几何推理和非自我中心视角任务上存在明显短板。
研究核心贡献包括:1)提出多维度空间推理分类体系,覆盖运动预测、三维几何分析、实时环境交互等现实场景需求;2)构建多源异构数据集,整合网络图像、驾驶考试题库、标准化测试及现有数据集,确保场景多样性和任务挑战性;3)验证了引入点云关系(PointGraph)和新颖视角合成(SpatialCoT)等辅助模块可提升模型空间推理能力。实验评估了GPT-4、Gemini等闭源模型及InternVL等开源模型,发现现有模型在动态环境理解、多步逻辑推理和视角转换任务中普遍表现不足,而通过整合空间结构信息和三维想象能力可显著改善性能(如GPT-4.1-mini准确率提升1.63%)。该基准为推动具备物理感知和视角意识的智能体发展提供了关键评估工具。
论文来源:hf
Hugging Face 投票数:38
论文链接:
https://hf.co/papers/2506.03135
PaperScope.ai 解读:
https://paperscope.ai/hf/2506.03135
(35) R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcing Learning

论文简介:
由 Tongyi Lab 和阿里巴巴集团等机构提出了 R1-Omni,该工作首次将强化学习与可验证奖励(RLVR)应用于多模态大语言模型的情感识别任务。通过结合视觉与音频模态的关键信息,研究者利用 RLVR 优化 Omni 模型,在推理能力、情感识别准确率和泛化能力三方面实现显著提升。实验表明,R1-Omni 在分布内数据上表现优异,且在分布外数据集上展现出更强鲁棒性,其推理能力更清晰揭示了多模态信息对情感识别的贡献机制。
R1-Omni 基于 HumanOmni 模型构建,采用 RLVR 与 Group Relative Policy Optimization(GRPO)协同优化策略。通过冷启动阶段在 EMER 数据集上预训练,模型初步掌握情感推理逻辑,随后利用 MAFW 和 DFEW 数据集进行 RLVR 训练。其奖励函数包含准确率奖励与格式奖励,确保输出结构化且贴近真实标签。实验显示,R1-Omni 在 DFEW 数据集上加权平均召回率(WAR)达 65.83%,无权重平均召回率(UAR)为 56.27%,显著优于监督微调(SFT)模型的 60.23% 和 44.39%;在 MAFW 数据集上 WAR 和 UAR 分别提升至 57.68% 和 40.04%,超越 SFT 模型的 50.44% 和 30.39%。跨数据集泛化测试中,R1-Omni 在 RAVDESS 上的 UAR 和 WAR 分别达 43.00% 和 44.69%,较 SFT 模型提升 13.67% 和 13.94%,验证了其对未见场景的适应能力。
该模型通过生成结构化推理过程,直观呈现视觉(如面部表情、肢体动作)与音频(如语调、语速)线索的协同作用,为多模态情感识别提供了可解释性支持。研究同时指出模型在字幕识别、推理幻觉及音频特征利用等方面的局限性,并提出增强基础模型能力、优化推理深度等未来方向。
论文来源:hf
Hugging Face 投票数:38
论文链接:
https://hf.co/papers/2503.05379
PaperScope.ai 解读:
https://paperscope.ai/hf/2503.05379
(36) Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets

论文简介:
由腾讯Hunyuan3D团队提出了Hunyuan3D-Omni,该工作构建了一个统一的3D资产可控生成框架,在Hunyuan3D 2.1基础上实现了点云、体素、边界框和骨骼姿态等多模态条件的融合控制。该框架通过设计统一的控制编码器,将不同条件统一转换为点云表示并提取特征,与图像特征联合输入扩散模型,实现几何、拓扑和姿态的精细控制。创新性地采用渐进式训练策略,动态调整不同条件的采样权重,优先学习高难度的骨骼姿态条件,提升模型对多模态信号的融合能力。实验表明,该方法有效解决单图像生成中的几何失真问题,支持姿态标准化、比例调节、细节增强等控制功能,生成结果在几何准确性、细节丰富度和姿态对齐度上显著优于基线模型,为3D内容生产提供了更灵活的可控生成方案。
论文来源:hf
Hugging Face 投票数:36
论文链接:
https://hf.co/papers/2509.21245
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.21245
(37) Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

论文简介:
由NVIDIA、延世大学和台湾大学等机构提出了Omni-RGPT,该工作提出了一种名为Token Mark的新型区域表示方法,通过预定义的token嵌入视觉和文本特征空间,实现图像与视频的统一区域级理解。核心创新在于将目标区域编码为固定长度的token向量,通过空间投影与文本提示对齐,解决了传统方法在视频理解中因目标漂移导致的不一致性问题。针对视频场景,引入Temporal Region Guide Head辅助任务,利用软分类损失引导模型学习跨帧的区域一致性。此外构建了包含98k视频、214k区域标注和294k指令的RegVID-300k数据集,通过GPT-4o生成并优化区域级描述。实验表明,Omni-RGPT在VCR(79.9%)和Causal-VidQA(77.5%)等基准测试中超越现有方法,在区域级视频描述(METEOR 19.3)和RefCOCOg(17.0)等任务中均取得最佳表现。该方法通过统一的token标记机制,在保持架构简洁性的同时,实现了跨模态区域理解的突破性进展。
论文来源:hf
Hugging Face 投票数:33
论文链接:
https://hf.co/papers/2501.08326
PaperScope.ai 解读:
https://paperscope.ai/hf/2501.08326
(38) Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models

论文简介:
由北京大学、阿里达摩院等机构提出了Omni-MATH,该工作构建了一个包含4428道奥数级数学题的基准测试集,覆盖33个子领域和10+难度等级,旨在系统评估大语言模型的数学推理能力。研究发现当前最优模型OpenAI o1-mini在该基准上的准确率仅60.54%,表明奥数级数学问题仍是大模型的未解难题。该基准通过AoPS论坛数据构建并经人工验证,采用GPT-4o和自研的Omni-Judge进行评估,后者与人类标注一致性达86%。实验显示模型在代数、微积分领域表现较好(如Qwen2.5-MATH-72b-Instruct准确率36.2%),但在离散数学领域普遍薄弱。研究还发现测试时扩展技术(Best-of-N)在奥数问题上失效,奖励模型难以有效指导策略模型搜索正确解。通过过程级错误分析发现逻辑错误是主要问题(占比超50%),验证了奥数问题对模型推理能力的深度挑战。该基准的构建和分析为提升大模型数学能力提供了重要方向指引。
论文来源:hf
Hugging Face 投票数:33
论文链接:
https://hf.co/papers/2410.07985
PaperScope.ai 解读:
https://paperscope.ai/hf/2410.07985
(39) JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models

论文简介:
由 Futureverse AI Research 等机构提出了 JEN-1,该工作提出了一种通用的文本引导音乐生成框架,通过结合自回归(AR)和非自回归(NAR)训练的全向扩散模型,在48kHz高保真立体声生成、多任务学习和计算效率之间取得突破。JEN-1 创新性地设计了噪声鲁棒的掩码自动编码器,直接处理原始波形数据实现连续嵌入表示,避免传统频谱转换导致的音质损失,同时通过奇异值分解归一化潜空间提升生成稳定性。模型核心采用1D U-Net架构的全向扩散机制,通过动态切换双向和单向自注意力模式,在单个模型中统一实现文本生成、音乐修复和续写三大任务。实验表明,JEN-1 在 MusicCaps 数据集上以7.26亿参数量(仅为 MusicGen 的22.6%)取得2.0的 Fréchet Audio Distance 和85.7的文本-音乐对齐评分,显著优于 Noise2Music、MusicLM 等现有方法。其生成的音乐在保持旋律和谐性的同时,能精准响应文本描述中的风格、乐器、情绪等语义控制,且支持零样本创作。该工作突破了传统音乐生成模型在音质、可控性和效率间的权衡瓶颈,为多模态创作工具开发提供了新范式。
论文来源:hf
Hugging Face 投票数:32
论文链接:
https://hf.co/papers/2308.04729
PaperScope.ai 解读:
https://paperscope.ai/hf/2308.04729
(40) ShapeLLM-Omni: A Native Multimodal LLM for 3D Generation and Understanding

论文简介:
由清华大学、北京大学、ShengShu等机构提出了ShapeLLM-Omni,该工作提出了一种原生的多模态大语言模型架构,首次实现了文本、图像与3D内容的统一生成与理解能力。核心创新在于构建了3D VQVAE模块,将3D网格压缩为离散token序列,使大语言模型能够以自回归方式处理3D数据。研究团队构建了包含3.46亿token的3D-Alpaca数据集,覆盖文本/图像到3D生成、3D描述生成及3D编辑四大任务,为3D大模型研究提供了重要数据基础。通过在Qwen-2.5-vl-7B模型上进行指令微调,该模型展现出强大的跨模态能力:在保持原有语言能力的同时,实现了基于文本/图像的高质量3D生成(CLIP得分达26.7/84.5)、精准的3D描述生成(ROUGE-L达21.37)以及语义一致的3D编辑功能。实验表明其生成质量接近专用3D模型Trellis,且在3D理解任务中超越多模态基线。该研究为构建具身智能的3D原生AI系统提供了重要范式,但受限于70k编辑数据规模和7B参数量,尚未完全达到类ChatGPT-4o的交互水平,未来需探索更大规模模型与数据增强方案。
论文来源:hf
Hugging Face 投票数:31
论文链接:
https://hf.co/papers/2506.01853
PaperScope.ai 解读:
https://paperscope.ai/hf/2506.01853
(41) Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment

论文简介:
由清华大学、腾讯混元研究院和新加坡国立大学等机构提出了Ola,该工作通过渐进式模态对齐策略构建了一个支持文本、图像、视频和音频多模态输入的通用语言模型。Ola的核心创新在于其分阶段训练策略:首先基于图文数据建立基础跨模态能力,随后引入视频数据强化视觉理解,最后通过语音和音视频联合学习实现全模态对齐。模型采用统一的联合对齐模块处理多模态输入,通过局部-全局注意力池化层压缩视觉特征,并设计了支持流式语音生成的解码器。为增强跨模态关联,团队构建了包含24.3万条音视频问答数据的训练集,通过视频字幕生成与音频-文本联合训练强化模态间联系。实验显示,7B参数的Ola在MMBench(84.3%)、VideoMME(68.4%)和LibriSpeech(1.9% WER)等基准测试中全面超越同类开源模型,甚至在部分任务上优于专业单模态模型。该工作通过高效的渐进训练策略和创新的数据构建方法,显著提升了多模态模型的综合理解能力,为通用人工智能发展提供了新的技术路径。
论文来源:hf
Hugging Face 投票数:30
论文链接:
https://hf.co/papers/2502.04328
PaperScope.ai 解读:
https://paperscope.ai/hf/2502.04328
(42) OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting

论文简介:
由罗切斯特大学和Adobe Research等机构提出了OmniPaint,该工作通过解耦的插入-移除修复技术实现对象导向的图像编辑。OmniPaint创新性地将对象移除与插入视为相互依赖的任务,利用预训练扩散先验和渐进式训练流程,在物理效果一致性(如阴影、反射)和几何对齐方面取得突破。其核心贡献包括:1)提出统一框架实现高保真对象移除(消除目标物体及其物理影响)与自然对象插入(保持场景几何与光照一致性);2)设计CycleFlow机制,通过无配对数据后训练显著降低对大规模配对数据的依赖;3)开发无参考评估指标CFD,通过检测幻觉对象和评估上下文一致性,为对象移除提供更可靠的评价标准。实验表明,OmniPaint在复杂场景下(如玻璃反射消除、自然光照阴影移除)表现出色,其对象插入结果在身份一致性(DreamSim指标提升29%)和整体质量(MANIQA指标提升8%)上均超越现有方法。该工作通过任务协同建模和创新训练策略,为高精度对象级图像编辑提供了新范式。
论文来源:hf
Hugging Face 投票数:29
论文链接:
https://hf.co/papers/2503.08677
PaperScope.ai 解读:
https://paperscope.ai/hf/2503.08677
(43) OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

论文简介:
由上海人工智能实验室等机构提出了OmniCorpus,该工作构建了一个包含100亿级图像和文本的多模态数据集。该数据集规模远超现有同类数据集,包含86亿张图像和16960亿个文本token,来源涵盖Common Crawl、中文网站和视频平台。研究团队开发了高效的并行数据处理引擎,通过改进的主内容提取、多阶段过滤和人类反馈机制确保数据质量。提出的流式数据格式支持文本、图像及其交错序列的统一表示,可灵活转换为纯文本、图文对等多种形式。实验表明,该数据集在图文生成、视觉问答等任务中展现出优异性能,尤其在零样本和少样本场景下显著优于现有数据集。研究还发现,自然排版策略更适配自回归架构,而检索策略更适配交叉注意力架构。此外,基于该数据集训练的多模态大模型在VQAv2等基准测试中达到72.1%的准确率,超越现有开源模型。该数据集为多模态大模型研究提供了重要的数据基础,其代码和数据已开源发布。
论文来源:hf
Hugging Face 投票数:29
论文链接:
https://hf.co/papers/2406.08418
PaperScope.ai 解读:
https://paperscope.ai/hf/2406.08418
(44) OmniBench: Towards The Future of Universal Omni-Language Models

论文简介:
该工作设计了一个新型多模态基准测试,用于评估语言模型同时处理视觉、听觉和文本输入的"三模态理解能力"。研究团队发现现有开源多模态大语言模型在指令跟随和跨模态推理方面存在显著缺陷,即使提供图像/音频的文字替代信息,多数模型准确率仍低于50%。为解决这一问题,团队构建了包含84.5K样本的指令微调数据集OmniInstruct,并提出未来需加强三模态融合技术与训练策略的研究方向。
OmniBench基准测试包含1142个精心设计的多模态问答样本,覆盖时空实体识别、因果推理、抽象概念理解等三大类任务,要求模型必须整合图像、音频和文本信息才能正确作答。实验结果显示:开源通用语言模型UnifiedIO2系列在三模态测试中准确率最高仅38%,Gemini-1.5-Pro虽达42.91%但仍远低于人类水平;在用文字替代音频/图像的测试中,视觉语言模型InternVL-2-40B准确率可达54.29%,而音频语言模型最高仅34.76%。这些发现揭示了当前模型对模态信息整合能力的不足,以及视觉模态研究资源投入的优势。
团队进一步通过OmniInstruct数据集对模型进行指令微调,该数据集整合了MSRVTT-QA、AVQA等多模态数据源,经严格筛选保留93K高质量训练样本。研究结果表明,使用文本替代模态信息进行训练可提升模型推理能力,如GPT-4o在纯文本测试中准确率达60.6%。论文强调了构建更优跨模态对齐架构、开发多样化训练数据集的重要性,为推动多模态人工智能向类人理解能力发展提供了关键研究方向。
论文来源:hf
Hugging Face 投票数:28
论文链接:
https://hf.co/papers/2409.15272
PaperScope.ai 解读:
https://paperscope.ai/hf/2409.15272
(45) Ming-Omni: A Unified Multimodal Model for Perception and Generation

论文简介:
由Inclusion AI和Ant Group提出了Ming-Omni,该工作构建了一个统一的多模态模型,支持图像、文本、音频和视频的感知与生成。Ming-Omni采用MoE架构语言模型Ling,通过模态特定路由器实现多模态输入的高效融合,并整合音频解码器及Ming-Lite-Uni模块,实现上下文感知聊天、文本转语音和图像编辑等功能。其创新点包括:1)针对多模态冲突问题,设计模态专用路由机制并采用动态平衡策略优化训练;2)通过字节对编码(BPE)压缩音频标记,提升语音生成实时性与自然度;3)提出多尺度可学习标记与渐进式图像生成框架,实现高保真图像生成。实验显示,该模型在激活2.8B参数时达到Qwen2.5-VL-7B同等图像理解性能,在语音理解任务中超越Qwen2.5-Omni和Kimi-Audio,在图像生成任务中FID指标达4.85,超越SDXL等主流模型。作为首个开源的GPT-4o级多模态模型,Ming-Omni在统一感知与生成任务中展现卓越性能,为多模态研究提供重要基础。
论文来源:hf
Hugging Face 投票数:28
论文链接:
https://hf.co/papers/2506.09344
PaperScope.ai 解读:
https://paperscope.ai/hf/2506.09344
(46) PANORAMA: The Rise of Omnidirectional Vision in the Embodied AI Era

论文简介:
由香港科技大学(广州)、索非亚大学、上海交通大学等机构提出了PANORAMA全景系统架构,该工作系统性梳理了具身智能时代下全景视觉的技术突破与挑战,提出包含数据采集、感知、应用和加速四大子系统的理想化全景系统框架,并绘制了涵盖数据整合、多模态扩展、推理增强等六个阶段的技术发展路线图。论文指出,相较于传统针孔视觉,全景视觉通过360°环境感知显著提升了场景理解的完整性,但面临数据标注成本高、模型畸变适应难、应用场景碎片化三大核心挑战。在技术进展方面,生成领域涌现了基于扩散模型的PanoDiffusion和轨迹控制的OmniDrag等方法;感知领域发展出对抗学习、伪标签优化等跨域适应策略;理解领域则通过认知地图标注和多模态预训练推动空间推理能力。研究团队系统整理了23个代表性全景数据集,涵盖室内、户外和无人机场景,强调多传感器融合与动态畸变处理的重要性。未来需突破投影无关表征学习、动作感知特征建模等关键技术,通过构建统一基础模型实现从环境感知到决策执行的完整闭环,最终推动机器人导航、人机交互等领域的跨越式发展。
论文来源:hf
Hugging Face 投票数:27
论文链接:
https://hf.co/papers/2509.12989
PaperScope.ai 解读:
https://paperscope.ai/hf/2509.12989
(47) SphereDiff: Tuning-free Omnidirectional Panoramic Image and Video Generation via Spherical Latent Representation

论文简介:
由KAIST等机构提出的SphereDiff,该工作提出了一种无需微调的360度全景图像与视频生成方法,通过球形潜在表示解决传统等距柱状投影(ERP)导致的极点失真问题。研究团队定义了球形潜在表示,使潜在特征在球面均匀分布,并扩展MultiDiffusion框架至球形空间,通过动态潜在采样将连续球形潜在离散化到2D网格,实现预训练扩散模型的直接应用。此外,引入失真感知加权平均技术,在球面到透视投影过程中优化局部失真。实验表明,该方法在视觉质量、极点连续性和文本可控性等指标上全面超越现有方法,尤其在全景生成的无失真性和端到端连续性方面表现突出。通过与SANA、LTX Video等先进模型结合,SphereDiff在保持高保真度的同时实现无缝全景生成,为AR/VR应用提供了高质量沉浸式内容生成方案。
论文来源:hf
Hugging Face 投票数:27
论文链接:
https://hf.co/papers/2504.14396
PaperScope.ai 解读:
https://paperscope.ai/hf/2504.14396
(48) OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations

论文简介:
由上海人工智能实验室等机构提出了OmniDocBench,该工作构建了一个面向多样化PDF文档解析的基准测试平台,通过全面注释和灵活评估框架解决了现有方法在文档类型多样性、评估维度和指标合理性方面的不足。OmniDocBench包含9种文档类型(如学术论文、教材、幻灯片等)的981页高质量标注数据,提供19种布局类别和14种属性标签,支持端到端评估、单模块评估和属性级评估。通过智能预标注、人工校正和专家审核的三阶段标注流程,确保了数据集的准确性和全面性,其中包含超过20万标注元素,涵盖文本、公式、表格等内容的多模态标注。
研究团队基于OmniDocBench对主流解析方法进行了系统评估,涵盖Pipeline工具(如MinerU、Marker)、专家视觉语言模型(如GOT-OCR、Nougat)和通用视觉语言模型(如GPT-4o、InternVL2)。实验表明,针对文档解析优化的Pipeline工具在整体性能上表现更优,其中MinerU在英文页面和复杂布局中表现突出,Mathpix在中文解析上领先。但通用VLM在处理幻灯片、手写笔记等长尾数据时展现出更强泛化能力,Qwen2-VL和InternVL2在模糊扫描、水印等干扰场景下保持较高鲁棒性。评估还发现现有方法在多栏布局的阅读顺序判断上普遍存在性能下降问题。
该基准为文档解析领域提供了标准化评估范式,通过细粒度标注和多维度指标设计,揭示了不同方法的优势与局限,为后续研究指明了方向。代码和数据集已开源,为推动文档智能解析技术发展提供了重要基础设施。
论文来源:hf
Hugging Face 投票数:26
论文链接:
https://hf.co/papers/2412.07626
PaperScope.ai 解读:
https://paperscope.ai/hf/2412.07626
(49) Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model

论文简介:
由中科院计算所等机构提出了Stream-Omni,该工作提出了一种支持文本、视觉和语音多模态实时交互的大型语言模型架构。针对现有模型在多模态对齐中依赖大规模数据的问题,研究者通过差异化对齐策略实现高效模态融合:对语义互补的视觉模态采用序列维度拼接,对语义一致的语音模态则创新性引入基于CTC的层维度映射。这种设计使模型在仅使用23,000小时语音数据的情况下,即可实现语音到文本的精准对齐,同时支持交互过程中实时输出中间文本结果(如ASR转录和模型回复),显著提升用户体验。实验表明,Stream-Omni在视觉理解(11项基准测试)、语音交互(知识问答任务)和视觉引导语音交互(SpokenVisIT基准)中均表现优异,尤其在语音到文本任务中超越了依赖更大规模数据的SpeechGPT、GLM-4-Voice等模型。其核心创新在于:1)分层架构设计,通过底部语音层实现CTC语音到文本映射,顶部语音层完成文本到语音生成;2)基于对齐融合的流式语音生成机制,通过滑动窗口跨模态注意力保持文本-语音一致性;3)三阶段渐进式训练策略,有效缓解多模态数据稀缺问题。该工作为构建高效多模态交互系统提供了新范式,相关技术已开源实现。
论文来源:hf
Hugging Face 投票数:26
论文链接:
https://hf.co/papers/2506.13642
PaperScope.ai 解读:
https://paperscope.ai/hf/2506.13642
(50) OmnimatteZero: Training-free Real-time Omnimatte with Pre-trained Video Diffusion Models

论文简介:
由特拉维夫大学、希伯来大学和OriginAI等机构提出了OmnimatteZero,该工作首次实现了无需训练的实时视频分层生成技术,通过直接调用预训练视频扩散模型完成物体移除、效果提取与无缝合成。传统方法依赖耗时的模型训练或优化,而OmnimatteZero通过改进零样本图像修复技术,创新性地将视频物体移除转化为潜在空间的掩码融合问题:首先将输入视频与掩码分别编码为潜在表示,利用自注意力图捕捉物体及其阴影、反射等关联效果,进而通过双路径修复(背景保留与物体移除)的加权融合实现高质量背景重建。实验表明,该方法在Movie和Kubric数据集上以0.04秒/帧的速度(LTXVideo)刷新了背景重建的PSNR(34.11/44.07)和LPIPS(0.015/0.010)记录,显著优于OmnimatteRF、Generative Omnimatte等需训练的方法。其核心突破在于:1)通过潜在空间算术直接分离物体层(Z_obj=Z_obj+bg-Z_bg),结合像素空间修正保持物体细节;2)利用视频扩散模型特有的时空注意力机制关联动态效果,实现反射、阴影等复杂效果的精准剥离;3)跨视频合成时仅需简单加法叠加潜在编码,配合少量去噪步骤即可完成自然融合。该方法为视频编辑提供了首个开箱即用的分层解决方案,推动了生成式AI在影视制作、AR合成等场景的实时应用落地。
论文来源:hf
Hugging Face 投票数:26
论文链接:
https://hf.co/papers/2503.18033
PaperScope.ai 解读:
https://paperscope.ai/hf/2503.18033
(51) OmniParser for Pure Vision Based GUI Agent

论文简介:
由Microsoft Research等机构提出了OmniParser,该工作通过纯视觉方法解析用户界面截图中的可交互元素,显著提升GPT-4V在跨平台GUI任务中的操作准确性。研究指出当前多模态模型在屏幕解析能力上的局限性导致其实际性能被低估,OmniParser通过构建67K网页截图的可交互区域检测数据集和7K图标功能描述数据集,训练专用检测模型和描述模型,结合OCR模块生成结构化输出。该方法在ScreenSpot基准测试中使GPT-4V的平均准确率从16.2%提升至73.0%,在Mind2Web和AITW基准测试中分别超越依赖HTML信息的GPT-4V基线2-5%和4.7%,验证了纯视觉解析方案的有效性。实验表明,添加图标功能描述的局部语义信息可将GPT-4V的标签匹配准确率从70.5%提升至93.8%,有效解决多模态模型在复杂界面中的元素定位难题。
论文来源:hf
Hugging Face 投票数:24
论文链接:
https://hf.co/papers/2408.00203
PaperScope.ai 解读:
https://paperscope.ai/hf/2408.00203
(52) Is Extending Modality The Right Path Towards Omni-Modality?

论文简介:
由加州大学戴维斯分校和俄亥俄州立大学等机构提出的这项研究,通过系统性实验探讨了多模态语言模型(MLLMs)向全模态(Omni-Modality)发展的可行性。研究聚焦三个核心问题:模态扩展是否损害语言能力、模型合并能否有效整合模态专精模型、全模态微调是否优于顺序扩展。实验发现:1)模态微调虽能提升知识扩展能力(如视觉模态使MMLU-Pro成绩提升5%),但会显著削弱推理(GPQA下降3-10%)、指令遵循(IFEval平均下降10%)和安全对齐(HarmBench攻击成功率上升);2)基于参数偏移量的加权模型合并策略,在保留基础语言模型能力的同时,能实现多模态能力的互补整合(MMMU成绩达48.11%),但推理能力仍有损失;3)全模态微调(如NextGPT)在同等数据量下表现弱于模态专精模型(如LLaVA-Next在VQAv2上领先15.1%),且微调过程会加剧模态间能力失衡。研究揭示了当前模态扩展技术的固有矛盾:视觉模态通过大规模数据注入提升知识表征,但参数更新不可避免地干扰语言模型的核心能力。加权合并策略虽能缓解能力退化,但无法完全恢复推理性能;而全模态微调在效率和效果上均未超越模态专精模型。这些发现为多模态模型设计提供了关键洞见——未来需探索更精细的参数隔离机制或新型训练范式,以平衡模态扩展与核心能力保持的矛盾。
论文来源:hf
Hugging Face 投票数:23
论文链接:
https://hf.co/papers/2506.01872
PaperScope.ai 解读:
https://paperscope.ai/hf/2506.01872
(53) OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web

论文简介:
由卡内基梅隆大学和Writer.com等机构提出了OmniACT,该工作构建了首个覆盖桌面和网页应用的多模态通用自主代理数据集与基准,包含9.8K对屏幕截图与自然语言任务配对,要求模型生成可执行的PyAutoGUI代码完成指定操作。数据集涵盖股票、租房、天气等200+场景,任务类型包括点击、拖拽、文本输入等20余种操作,其中桌面应用占比75%。研究团队提出DetACT模块,通过OCR、图标匹配和颜色分析提取UI元素并结合任务描述筛选相关特征,为下游模型提供结构化输入。实验评估了LLaMA、Vicuna、GPT-3.5/4等13种语言模型及LLaVA、Gemini等多模态模型,发现最强基线GPT-4的Action Score仅达11.6(人类水平为80.14),GPT-4V通过视觉增强将得分提升至17.02,但仍显著落后于人类表现。研究揭示当前模型在坐标预测和跨应用任务上的局限性,强调构建具备视觉理解能力的多模态模型对实现通用自主代理的重要性,为未来研究提供明确方向。
论文来源:hf
Hugging Face 投票数:23
论文链接:
https://hf.co/papers/2402.17553
PaperScope.ai 解读:
https://paperscope.ai/hf/2402.17553
(54) Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities
论文来源:hf
Hugging Face 投票数:22
论文链接:
https://hf.co/papers/2410.11190
PaperScope.ai 解读:
https://paperscope.ai/hf/2410.11190
(55) Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities

论文简介:
由InspireAI与清华大学提出了Mini-Omni2,该工作致力于打造首个开源的GPT-4o级多模态模型,实现视觉、语音、文本的端到端实时交互能力。研究团队通过整合CLIP视觉编码器与Whisper音频编码器,构建了具备跨模态理解能力的统一架构,并创新性地采用三阶段训练策略:首先通过适配器对齐多模态特征,再迁移文本问答能力至视觉/音频输入,最终扩展音频输出能力并训练中断机制。模型采用SNAC语音tokenizer实现高质量语音生成,提出基于语义的命令式中断方法,通过"stop omni"指令控制对话流程。实验表明其在LibriSpeech数据集上语音识别性能超越Whisper基线模型,且支持图像、音频、文本的流式响应。该工作通过高效的数据利用策略,仅使用有限规模训练数据即实现接近GPT-4o的功能形态,所有代码与数据集均已开源,为多模态交互研究提供重要参考。
论文来源:hf
Hugging Face 投票数:22
论文链接:
https://hf.co/papers/2410.1119
PaperScope.ai 解读:
https://paperscope.ai/hf/2410.1119
(56) LLaMA-Omni2: LLM-based Real-time Spoken Chatbot with Autoregressive Streaming Speech Synthesis

论文简介:
由中科院计算技术研究所等机构提出了LLaMA-Omni 2,该工作基于Qwen2.5系列模型构建了参数规模从0.5B到14B的实时语音交互系统。通过集成Whisper语音编码器和受CosyVoice 2启发的自回归流式语音解码器,该模型在仅使用20万小时多轮语音对话数据训练的情况下,展现出超越GLM-4-Voice等使用百万小时数据训练模型的性能。其创新性地采用门控融合机制联合LLM隐藏状态与文本嵌入作为语音解码输入,并通过两阶段训练策略实现语音理解与生成能力的协同优化。实验显示LLaMA-Omni 2在语音问答和指令跟随任务中,7B版本较GLM-4-Voice的语音到语音准确率提升36.2%,同时保持600ms内的实时交互延迟。特别在语音自然度(UTMOS 4.21)和文本一致性(ASR-WER 2.64%)指标上显著优于现有方案,验证了其在有限数据下实现高质量语音交互的有效性。该研究通过系统性消融实验,揭示了模型规模、读写策略和训练数据量对性能的影响规律,为低资源语音交互系统开发提供了重要参考。
论文来源:hf
Hugging Face 投票数:22
论文链接:
https://hf.co/papers/2505.02625
PaperScope.ai 解读:
https://paperscope.ai/hf/2505.02625
(58) OmniCaptioner: One Captioner to Rule Them All

论文简介:
由上海人工智能实验室、中科大、复旦大学、香港中文大学等机构提出了OmniCaptioner,该工作设计了一种统一的视觉描述框架,能够生成自然图像、视觉文本图像(如海报、UI界面、教科书)和结构化图像(如文档、表格、图表)的细粒度文本描述。通过将低层像素信息转换为语义丰富的文本表示,该框架有效弥合了视觉与文本模态之间的鸿沟。其核心贡献包括:1)覆盖多样化视觉领域的统一框架,支持自然图像、视觉文本和结构化图像的描述生成;2)像素到文本的详细映射,通过长上下文描述提升视觉推理能力,特别是与DeepSeek-R1系列LLM结合时效果显著;3)增强图像生成能力,通过精准描述指导文本到图像生成任务,提升生成质量;4)提升监督微调效率,减少下游任务所需数据量。实验表明,OmniCaptioner在多模态推理基准(如MathVision、MathVerse)上超越现有方法,与DeepSeek-R1-Distill-Qwen-7B结合后在数学推理任务中表现突出。此外,其生成的描述显著提升文本到图像生成模型的对齐能力,并在监督微调中实现更高效的任务适应。
论文来源:hf
Hugging Face 投票数:20
论文链接:
https://hf.co/papers/2504.07089
PaperScope.ai 解读:
https://paperscope.ai/hf/2504.07089
(59) OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks

论文简介:
由浙江大学等机构提出了OmniEAR,该工作构建了一个用于评估具身任务中智能体推理能力的综合框架。OmniEAR通过文本化环境表示建模连续物理属性(如重量、材质、温度)和复杂空间关系,包含1500个家庭与工业场景,要求智能体动态获取工具能力并自主判断协作需求,而非依赖预定义工具集或明确协作指令。实验显示当前语言模型在明确指令下表现优异(85-96%成功率),但在工具推理(56-85%)和隐式协作(63-85%)任务中显著退化,复合任务失败率超50%。研究发现完全环境信息反而降低协作性能,表明模型无法筛选任务相关约束;微调虽将单智能体任务成功率从0.6%提升至76.3%,但多智能体任务仅从1.5%增至5.5%,揭示现有架构在自主推理物理约束和协作需求方面的根本性缺陷。该框架通过动态工具-能力绑定机制和物理约束驱动的协作设计,为评估具身AI系统提供了新基准,系统性证明当前模型在理解物理交互原则、动态能力扩展和自主协作决策等核心能力上的不足,为下一代具身智能体开发指明方向。
论文来源:hf
Hugging Face 投票数:20
论文链接:
https://hf.co/papers/2508.05614
PaperScope.ai 解读:
https://paperscope.ai/hf/2508.05614
(60) OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models

论文简介:
由华中科技大学等机构提出了OmniMamba,该工作基于状态空间模型(SSM)构建了首个统一的多模态理解和生成框架。针对传统Transformer架构在计算复杂度和数据效率上的瓶颈,研究团队创新性地引入了三大核心技术:解耦词汇表以分离模态语义、任务特定LoRA适配器实现参数高效微调、以及两阶段解耦训练策略缓解任务间数据不平衡。该模型在仅使用200万图像文本对训练的情况下,性能超越Show-o并在多项基准上接近JanusFlow的水平。实验表明,OmniMamba在长序列生成任务中展现显著优势,相比Show-o实现119.2倍推理速度提升和63%显存占用降低,相较于JanusFlow在百万级序列长度下仍保持10.2倍加速。其核心突破在于将Mamba-2的线性复杂度特性扩展至多模态领域,同时通过模块化设计有效解决跨模态学习中的数据效率问题。这项工作为资源受限场景下的多模态模型开发提供了新范式,推动了高效统一生成模型的前沿进展。
论文来源:hf
Hugging Face 投票数:19
论文链接:
https://hf.co/papers/2503.08686
PaperScope.ai 解读:
https://paperscope.ai/hf/2503.08686