复旦教授眼里的多模态大模型研究热点！idea满满

点击蓝字关注我们

从 CVPR、ICLR 到 AAAI，2025 年顶会趋势已清晰释放信号：多模态大模型领域正迈入新一轮技术爆发期。

作为当前技术核心，多模态大型语言模型（MLLMs）并非单一模态的升级，而是将大型语言模型的自然语言处理能力，与视觉、音频等多模态数据的理解、生成能力深度融合。我们整理了80篇2025最新多模态大模型方向的论文，需要的同学可以扫码领取。

复旦教授眼里的多模态大模型研究热点！idea满满图2

扫码回复【多模态大模型】

领取讲师推荐论文合集

1.Directional Reasoning Injection for Fine-Tuning MLLMs

摘要：本文提出了一种轻量级的Directional Reasoning Injection方法（DRIFT），通过在梯度空间中转移推理知识来优化多模态大语言模型（MLLMs）的推理能力，实现了高效的知识迁移和性能提升。

方法：DRIFT通过预计算推理先验（即推理模型与多模态模型之间的参数空间差异），并在多模态微调过程中使用该先验来偏置梯度，从而在不破坏多模态对齐的情况下实现推理知识的迁移。

结论：DRIFT 方法有效地将推理能力从纯文本 LLM 转移到 MLLM，而无需大规模多模态 CoT 监督；DRIFT 方法在性能和效率方面优于现有的方法，为跨域能力转移提供了一种高效且可扩展的途径

2.UniFusion: Vision-Language Model as Unified Encoder in Image Generation

摘要：提出UniFusion模型，利用冻结的大型视觉语言模型（VLM）作为统一的多模态编码器，通过Layerwise Attention Pooling（LAP）机制提高图像生成中的文本-图像对齐和视觉信息传递效率。

方法：采用Layerwise Attention Pooling（LAP）机制从冻结的VLM中提取文本和视觉token的高级语义和低级细节，以调节扩散生成模型。

结论：论文发现 LAP 模型在文本-图像生成和图像编辑任务中均优于其他架构，能够更好地保留图像细节并提高提示遵循能力。论文提出了 UniFusion 框架，该框架使用冻结的 VLM 作为统一编码器，并通过 LAP 模块和 Verifi 技术实现高效的图像生成。

为了帮助更多研究多模态大模型这个方向的同学发文，我们邀请了多模态与AI领域 “战绩斐然” 的导师 —— 复旦大学智能机器人与先进制造创新学院副教授陈静静在10月25日晚19点给大家直播：多模态大模型的研究热点！

复旦教授眼里的多模态大模型研究热点！idea满满图6

扫二维码预约“直播”！

深耕3大前沿课题，每篇成果都是顶刊 “敲门砖”

陈教授的研究方向精准踩中当前学术热点，每一个课题都有扎实的顶会顶刊成果支撑，不管是选题参考还是方法借鉴，都能给你满满的灵感！

在生成内容鉴别方向，他们构建的全球最大多模态深度伪造检测数据集IDForge（ACM MM’24），为检测模型训练提供“黄金数据”；在概念遗忘领域，RECE方法（ECCV 2024）3秒内即可修改扩散模型，DuMo网络（AAAI 2025）更实现精准概念移除，直接解决生成模型“安全治理”核心难题！

扫二维码预约“直播”

学界 “实力派”：从港城大博士到复旦博导，每一步都扎实亮眼

能在顶刊顶会持续产出，离不开陈教授深厚的学术积淀。2018年7月，她从香港城市大学计算机科学专业博士毕业，师从国际知名学者Chong-Wah Ngo教授，博士期间就凭借出色的研究能力拿下2016年ACM Multimedia最佳学生论文奖、2017年Multimedia Modeling最佳学生论文奖，早早在学术界崭露头角。

加入复旦大学前，她还在新加坡国立大学担任博士后研究员，与ACM SIGMM终身成就奖得主Tat-Seng Chua教授深度合作，进一步拓宽了研究视野。如今作为复旦智能机器人与先进制造创新学院副教授，她的学术成就更是“拿奖拿到手软”：2020年获“ACM上海新星奖”，2021年入选“AI 2000最具影响力学者提名”，2023年获得“IEEE 多媒体新星提名奖”，2024年更是一举拿下多媒体领域年轻学者的顶级荣誉 ——ACM SIGMM新星奖，同年还入选“斯坦福&爱思唯尔全球前2%科学家”，成为业内公认的“青年学术领军者”。

这样一位从顶尖院校走出、兼具国际视野与扎实功底的导师，她的研究方向和成果，无疑是学术选题的“黄金参考”！

扫二维码预约“直播”

大模型时代热门课题：多模态 + 可信 AI，跟着陈教授走准没错

除了上述3大核心方向，陈教授团队在当前最火的“多模态大模型”“可信AI与安全治理”领域，同样是“顶会常客”，核心论文覆盖关键研究节点：

✅ 多模态大模型：从 “检索” 到 “问答”，成果覆盖全场景

· 2024年，《Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models》，NeurIPS（AI领域顶会，录取率仅19%）

· 2024年，《Eyes Can Deceive: Benchmarking Counterfactual Reasoning Abilities of Multi-modal Large Language Models》，arXiv（预印本平台，领域高关注度论文）

· 2024年，《Domain Expansion and Boundary Growth for Open-Set Single-Source Domain Generalization》，IEEE TMM（多媒体领域顶刊）

这些成果突破传统多模态模型“视觉能力弱”瓶颈，实现“文本 - 图像 - 视频”跨模态理解新突破，无论你做多模态检索还是问答，都能找到关键启发！

✅ 可信AI与安全治理：从“对抗攻击”到“鲁棒性评估”，构建全链路安全体系

· 2024年，《Unrestricted Adversarial Attacks on Vision-Language Models via Diffusion Models》，ACM MM（多媒体领域顶会）

· 2023年，《Transferable Adversarial Attacks on Video Models via Random Cropping》，CVPR（计算机视觉顶会）

· 2022年，《Temporal-Shift Based Transferable Adversarial Attacks on Video Recognition Models》，AAAI（人工智能顶会）

从对抗攻击方法到鲁棒性评估体系，这些论文构建了完整研究框架，帮你避开“选题偏、方法旧”的坑！

扫二维码预约“直播”

人工智能SCI论文一对一辅导

乐分启航作为一家专注AI前沿领域的论文辅导机构，汇聚全球顶尖名校AI博士、博士后及研究员，为你提供从0到1的全流程深度辅导，助你快速实现SCI论文突破！

无论你是希望走学术保研；还是打算出国留学，想get国内外名校offer；亦或是学术经历空白，想通过SCI论文提升学术竞争力；或者想评国家奖学金或者个人荣誉；又或者想在职场晋升上加一把力；

……

都可以根据你的需求和背景条件，匹配合适的老师，定制专属于你的学习计划，满足你的个性化需求。

▼