
从 CVPR、ICLR 到 AAAI,2025 年顶会趋势已清晰释放信号:多模态大模型领域正迈入新一轮技术爆发期。
作为当前技术核心,多模态大型语言模型(MLLMs)并非单一模态的升级,而是将大型语言模型的自然语言处理能力,与视觉、音频等多模态数据的理解、生成能力深度融合。我们整理了80篇2025最新多模态大模型方向的论文,需要的同学可以扫码领取。

扫码回复【多模态大模型】
领取讲师推荐论文合集

1.Directional Reasoning Injection for Fine-Tuning MLLMs

摘要:本文提出了一种轻量级的Directional Reasoning Injection方法(DRIFT),通过在梯度空间中转移推理知识来优化多模态大语言模型(MLLMs)的推理能力,实现了高效的知识迁移和性能提升。
方法:DRIFT通过预计算推理先验(即推理模型与多模态模型之间的参数空间差异),并在多模态微调过程中使用该先验来偏置梯度,从而在不破坏多模态对齐的情况下实现推理知识的迁移。
结论:DRIFT 方法有效地将推理能力从纯文本 LLM 转移到 MLLM,而无需大规模多模态 CoT 监督;DRIFT 方法在性能和效率方面优于现有的方法,为跨域能力转移提供了一种高效且可扩展的途径
2.UniFusion: Vision-Language Model as Unified Encoder in Image Generation

摘要:提出UniFusion模型,利用冻结的大型视觉语言模型(VLM)作为统一的多模态编码器,通过Layerwise Attention Pooling(LAP)机制提高图像生成中的文本-图像对齐和视觉信息传递效率。
方法:采用Layerwise Attention Pooling(LAP)机制从冻结的VLM中提取文本和视觉token的高级语义和低级细节,以调节扩散生成模型。
结论:论文发现 LAP 模型在文本-图像生成和图像编辑任务中均优于其他架构,能够更好地保留图像细节并提高提示遵循能力。 论文提出了 UniFusion 框架,该框架使用冻结的 VLM 作为统一编码器,并通过 LAP 模块和 Verifi 技术实现高效的图像生成。
为了帮助更多研究多模态大模型这个方向的同学发文,我们邀请了多模态与AI领域 “战绩斐然” 的导师 —— 复旦大学智能机器人与先进制造创新学院副教授陈静静在10月25日晚19点给大家直播:多模态大模型的研究热点!

扫二维码预约“直播”!

陈教授的研究方向精准踩中当前学术热点,每一个课题都有扎实的顶会顶刊成果支撑,不管是选题参考还是方法借鉴,都能给你满满的灵感!
在生成内容鉴别方向,他们构建的全球最大多模态深度伪造检测数据集IDForge(ACM MM’24),为检测模型训练提供“黄金数据”;在概念遗忘领域,RECE方法(ECCV 2024)3秒内即可修改扩散模型,DuMo网络(AAAI 2025)更实现精准概念移除,直接解决生成模型“安全治理”核心难题!
扫二维码预约“直播”

能在顶刊顶会持续产出,离不开陈教授深厚的学术积淀。2018年7月,她从香港城市大学计算机科学专业博士毕业,师从国际知名学者Chong-Wah Ngo教授,博士期间就凭借出色的研究能力拿下2016年ACM Multimedia最佳学生论文奖、2017年Multimedia Modeling最佳学生论文奖,早早在学术界崭露头角。
加入复旦大学前,她还在新加坡国立大学担任博士后研究员,与ACM SIGMM终身成就奖得主Tat-Seng Chua教授深度合作,进一步拓宽了研究视野。如今作为复旦智能机器人与先进制造创新学院副教授,她的学术成就更是“拿奖拿到手软”:2020年获“ACM上海新星奖”,2021年入选“AI 2000最具影响力学者提名”,2023年获得“IEEE 多媒体新星提名奖”,2024年更是一举拿下多媒体领域年轻学者的顶级荣誉 ——ACM SIGMM新星奖,同年还入选“斯坦福&爱思唯尔全球前2%科学家”,成为业内公认的“青年学术领军者”。
这样一位从顶尖院校走出、兼具国际视野与扎实功底的导师,她的研究方向和成果,无疑是学术选题的“黄金参考”!
扫二维码预约“直播”

除了上述3大核心方向,陈教授团队在当前最火的“多模态大模型”“可信AI与安全治理”领域,同样是“顶会常客”,核心论文覆盖关键研究节点:
✅ 多模态大模型:从 “检索” 到 “问答”,成果覆盖全场景
· 2024年,《Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models》,NeurIPS(AI领域顶会,录取率仅19%)
· 2024年,《Eyes Can Deceive: Benchmarking Counterfactual Reasoning Abilities of Multi-modal Large Language Models》,arXiv(预印本平台,领域高关注度论文)
· 2024年,《Domain Expansion and Boundary Growth for Open-Set Single-Source Domain Generalization》,IEEE TMM(多媒体领域顶刊)
这些成果突破传统多模态模型“视觉能力弱”瓶颈,实现“文本 - 图像 - 视频”跨模态理解新突破,无论你做多模态检索还是问答,都能找到关键启发!
✅ 可信AI与安全治理:从“对抗攻击”到“鲁棒性评估”,构建全链路安全体系
· 2024年,《Unrestricted Adversarial Attacks on Vision-Language Models via Diffusion Models》,ACM MM(多媒体领域顶会)
· 2023年,《Transferable Adversarial Attacks on Video Models via Random Cropping》,CVPR(计算机视觉顶会)
· 2022年,《Temporal-Shift Based Transferable Adversarial Attacks on Video Recognition Models》,AAAI(人工智能顶会)
从对抗攻击方法到鲁棒性评估体系,这些论文构建了完整研究框架,帮你避开“选题偏、方法旧”的坑!
扫二维码预约“直播”

乐分启航作为一家专注AI前沿领域的论文辅导机构,汇聚全球顶尖名校AI博士、博士后及研究员,为你提供从0到1的全流程深度辅导,助你快速实现SCI论文突破!
……
都可以根据你的需求和背景条件,匹配合适的老师,定制专属于你的学习计划,满足你的个性化需求。
▼


