复旦教授眼里的多模态大模型研究热点!idea满满

AI大模型前沿 2025-10-25 12:00
复旦教授眼里的多模态大模型研究热点!idea满满图1
点击蓝字  关注我们

从 CVPR、ICLR 到 AAAI,2025 年顶会趋势已清晰释放信号:多模态大模型领域正迈入新一轮技术爆发期

作为当前技术核心,多模态大型语言模型(MLLMs)并非单一模态的升级,而是将大型语言模型的自然语言处理能力,与视觉、音频等多模态数据的理解、生成能力深度融合。我们整理了80篇2025最新多模态大模型方向的论文,需要的同学可以扫码领取。

复旦教授眼里的多模态大模型研究热点!idea满满图2

扫码回复【多模态大模型

领取讲师推荐论文合集

复旦教授眼里的多模态大模型研究热点!idea满满图3

1.Directional Reasoning Injection for Fine-Tuning MLLMs

复旦教授眼里的多模态大模型研究热点!idea满满图4

摘要:本文提出了一种轻量级的Directional Reasoning Injection方法(DRIFT),通过在梯度空间中转移推理知识来优化多模态大语言模型(MLLMs)的推理能力,实现了高效的知识迁移和性能提升。

方法:DRIFT通过预计算推理先验(即推理模型与多模态模型之间的参数空间差异),并在多模态微调过程中使用该先验来偏置梯度,从而在不破坏多模态对齐的情况下实现推理知识的迁移。

结论:DRIFT 方法有效地将推理能力从纯文本 LLM 转移到 MLLM,而无需大规模多模态 CoT 监督;DRIFT 方法在性能和效率方面优于现有的方法,为跨域能力转移提供了一种高效且可扩展的途径

2.UniFusion: Vision-Language Model as Unified Encoder in Image Generation

复旦教授眼里的多模态大模型研究热点!idea满满图5

摘要:提出UniFusion模型,利用冻结的大型视觉语言模型(VLM)作为统一的多模态编码器,通过Layerwise Attention Pooling(LAP)机制提高图像生成中的文本-图像对齐和视觉信息传递效率。

方法:采用Layerwise Attention Pooling(LAP)机制从冻结的VLM中提取文本和视觉token的高级语义和低级细节,以调节扩散生成模型。

结论:论文发现 LAP 模型在文本-图像生成和图像编辑任务中均优于其他架构,能够更好地保留图像细节并提高提示遵循能力。 论文提出了 UniFusion 框架,该框架使用冻结的 VLM 作为统一编码器,并通过 LAP 模块和 Verifi 技术实现高效的图像生成。

为了帮助更多研究多模态大模型这个方向的同学发文,我们邀请了多模态与AI领域 “战绩斐然” 的导师 —— 复旦大学智能机器人与先进制造创新学院副教授陈静静在10月25日晚19点给大家直播:多模态大模型的研究热点

复旦教授眼里的多模态大模型研究热点!idea满满图6

扫二维码预约“直播”!

复旦教授眼里的多模态大模型研究热点!idea满满图7

01

深耕3大前沿课题,每篇成果都是顶刊 “敲门砖”

陈教授的研究方向精准踩中当前学术热点,每一个课题都有扎实的顶会顶刊成果支撑,不管是选题参考还是方法借鉴,都能给你满满的灵感!

复旦教授眼里的多模态大模型研究热点!idea满满图8
复旦教授眼里的多模态大模型研究热点!idea满满图9

生成内容鉴别方向,他们构建的全球最大多模态深度伪造检测数据集IDForge(ACM MM’24),为检测模型训练提供“黄金数据”;在概念遗忘领域,RECE方法(ECCV 2024)3秒内即可修改扩散模型DuMo网络(AAAI 2025)更实现精准概念移除,直接解决生成模型“安全治理”核心难题!

扫二维码预约“直播

复旦教授眼里的多模态大模型研究热点!idea满满图10

02

学界 “实力派”:从港城大博士到复旦博导,每一步都扎实亮眼

能在顶刊顶会持续产出,离不开陈教授深厚的学术积淀。2018年7月,她从香港城市大学计算机科学专业博士毕业,师从国际知名学者Chong-Wah Ngo教授,博士期间就凭借出色的研究能力拿下2016年ACM Multimedia最佳学生论文奖2017年Multimedia Modeling最佳学生论文奖,早早在学术界崭露头角。

加入复旦大学前,她还在新加坡国立大学担任博士后研究员,与ACM SIGMM终身成就奖得主Tat-Seng Chua教授深度合作,进一步拓宽了研究视野。如今作为复旦智能机器人与先进制造创新学院副教授,她的学术成就更是“拿奖拿到手软”:2020年获“ACM上海新星奖”,2021年入选“AI 2000最具影响力学者提名”,2023年获得IEEE 多媒体新星提名奖,2024年更是一举拿下多媒体领域年轻学者的顶级荣誉 ——ACM SIGMM新星奖,同年还入选“斯坦福&爱思唯尔全球前2%科学家”,成为业内公认的“青年学术领军者”

这样一位从顶尖院校走出、兼具国际视野与扎实功底的导师,她的研究方向和成果,无疑是学术选题的“黄金参考”!

扫二维码预约“直播

复旦教授眼里的多模态大模型研究热点!idea满满图11

03

大模型时代热门课题:多模态 + 可信 AI,跟着陈教授走准没错

除了上述3大核心方向,陈教授团队在当前最火的多模态大模型”“可信AI与安全治理领域,同样是顶会常客,核心论文覆盖关键研究节点:

✅ 多模态大模型:从 “检索” 到 “问答”,成果覆盖全场景

· 2024年,《Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models》,NeurIPS(AI领域顶会,录取率仅19%)

· 2024年,《Eyes Can Deceive: Benchmarking Counterfactual Reasoning Abilities of Multi-modal Large Language Models》,arXiv(预印本平台,领域高关注度论文)

· 2024年,《Domain Expansion and Boundary Growth for Open-Set Single-Source Domain Generalization》,IEEE TMM(多媒体领域顶刊)

这些成果突破传统多模态模型“视觉能力弱”瓶颈,实现“文本 - 图像 - 视频”跨模态理解新突破,无论你做多模态检索还是问答,都能找到关键启发!

✅ 可信AI与安全治理:从“对抗攻击”到“鲁棒性评估”,构建全链路安全体系

· 2024年,《Unrestricted Adversarial Attacks on Vision-Language Models via Diffusion Models》,ACM MM(多媒体领域顶会)

· 2023年,《Transferable Adversarial Attacks on Video Models via Random Cropping》,CVPR(计算机视觉顶会)

· 2022年,《Temporal-Shift Based Transferable Adversarial Attacks on Video Recognition Models》,AAAI(人工智能顶会)

对抗攻击方法鲁棒性评估体系,这些论文构建了完整研究框架,帮你避开“选题偏、方法旧”的坑!

扫二维码预约“直播

复旦教授眼里的多模态大模型研究热点!idea满满图12






















人工智能SCI论文一对一辅导




















乐分启航作为一家专注AI前沿领域的论文辅导机构,汇聚全球顶尖名校AI博士、博士后及研究员,为你提供从0到1的全流程深度辅导,助你快速实现SCI论文突破!

无论你是希望走学术保研;还是打算出国留学,想get国内外名校offer;亦或是学术经历空白,想通过SCI论文提升学术竞争力;或者想评国家奖学金或者个人荣誉;又或者想在职场晋升上加一把力;

……

都可以根据你的需求和背景条件,匹配合适的老师,定制专属于你的学习计划,满足你的个性化需求

复旦教授眼里的多模态大模型研究热点!idea满满图13

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
iPhone Air成苹果最不保值手机;黄仁勋:4点起来工作,子女不敢懈怠;影翎全景无人机正式上市,6799起售 | 极客早知道
做AI眼镜,为何Rokid乐奇能成为大厂们的学习对象?
AI赋能千行百业  “制造”迈上“智造”新台阶
首发即爆单!华为AI玩具火出圈,千亿市场芯片厂商加速入局
SpaceX估值8000亿美元超OpenAI,IPO就在明年
腾讯研究院AI速递 20251204
晚点独家丨视频生成产品 Pollo AI 获 1400 万美元融资,一个没有大厂与海外背景的 “草根” 创始人
OpenAI首席研究员Mark Chen长访谈:小扎亲手端汤来公司挖人,气得我们端着汤去了Meta
苹果年度 App 出炉!女儿想学单词,他直接做了个 AI 神器 | 对话 CapWords
夸克 AI 眼镜 S1 体验:超越 Meta 的决心,以及方法论
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号