
ACL 投稿破8000,大模型把计算语言学推向‘智能体’时代,三位顶级学者拆解 NLP 未来趋势。
作者丨岑峰
编辑丨陈彩娴
2025年的 ACL(计算语言学协会)年会,无疑是大语言模型( LLM )持续主导 NLP 领域的又一里程碑。这不仅仅体现在学术研究的深度,更体现在会议本身的各项数据上——史无前例的8000多篇投稿,其中中国作者的比例高达51%。这一现象清晰地传递出大模型已成为 NLP 领域核心的信号,也标志着整个行业的格局正在发生深刻变化。
通过与多位参会者的沟通,我们得出这样的结论:大模型并未“冲淡”计算语言学的核心,反而在其技术框架下,为传统议题赋予了新的定义和呈现形式。同时,其多模态特性打破了传统的研究壁垒,吸引了来自计算机视觉、网络安全等不同领域的学者,使得 ACL 大会的氛围愈发跨学科。
为了深入剖析这一变革,雷峰网、AI 科技评论 GAIR Live 品牌特别邀请了三位杰出学者——美国埃默里大学副教授刘菲、美国约翰霍普金斯大学助理教授肖超玮,以及中国科学院自动化研究所研究员张家俊,三位嘉宾从他们在 ACL 的所见所闻出发,就大模型的能力边界、安全鲁棒性以及多模态融合展开了一场深度对话。
面对“大模型是否会冲淡计算语言学”的担忧,三位嘉宾一致认为,ACL 的核心本质并未改变,它始终是通过计算手段研究和运用语言;大模型只是计算语言学借助 AI 技术实现自我进化的体现。对于投稿量激增和中国作者比例创历史新高,三位嘉宾给出了多维度解读。张家俊老师认为,这主要得益于开源技术对研究门槛的降低,以及 AI 应用场景的广泛拓展;刘菲老师则补充道,大模型显著提升了研究生产力,让撰写论文的效率大幅提升,这也是投稿量激增的直接原因。
然后,三位嘉宾从自己的研究方向和本次 ACL 带来的论文出发,进一步剖析了今年 ACL 所反映的学术趋势变化。其中一个趋势是,大语言模型正从单纯的“问答机器”向具备高级“智能体”特征的“问题解决者”演进。刘菲老师指出,当前大模型的推理能力已大幅提升,但面对复杂任务时,必须“规划先行”;她进一步深入剖析了 LLM 在推理(Reasoning)和规划(Planning)能力上的跃迁,强调未来的 LLM 不仅需要强大的内部推理,更要学会调用外部工具,以弥补知识局限性,学会“说不”;张家俊老师则说明,大模型的主动澄清能力等交互方式的改变将是根本性的,它将使 AI 从一个被动响应的工具,转变为一个能够进行主动、有意义的交互的智能伙伴。
与此同时,LLM 的快速发展也伴随着日益严峻的安全与鲁棒性挑战。肖超玮老师将模型对抗性攻击与防御形容为一场“永无止境的攻防战”。他揭示了攻击策略的“持续学习能力”,并提出了一种全新的防御范式——“学习安全推理逻辑”。这一思路不再依赖于生成海量数据进行对抗训练,而是通过让模型学会“浏览动态攻击策略列表”并进行深层语义分析,从而主动识别并化解潜在的恶意指令。这标志着 LLM 安全研究正从被动防御转向主动、策略性的智能防御。
三位嘉宾还共同展望了多模态融合的未来图景。张家俊老师将 LLM 的演变喻为一场范式革命,并指出多模态融合是 LLM 的下一个必经之路。它将使 LLM 具备跨模态的理解和生成能力,从简单的“看图说话”进化到真正的“感知与交互”。
三位老师描绘了一幅清晰而宏大的 LLM 未来蓝图:一个不仅能理解、生成语言,还能进行复杂推理、安全规划,并与多模态世界深度融合的通用智能体。这不仅是学术研究的新方向,更是 AI 产业实践的下一个主战场。

以下是此次圆桌讨论的精彩分享,AI 科技评论进行了不改原意的编辑整理:

01
ACL 的包容性与“自我进化”
岑峰:去年 ACL 主席 Emily M. Bender 说“ ACL 不是 AI 会议”,引发了关于大模型是否会冲淡计算语言学研究的担忧。但一年过去,大模型相关论文却斩获最佳论文,这股“ AI 味”不减反增。我的第一个问题是:我们当前是在见证计算语言学被 AI“收编”,还是看到它借助 AI 之力实现自我进化?
刘菲:我是去年和今年ACL 主会多个领域的高级领域主席(Senior Area Chair),我认为,作为自然语言处理领域的顶级会议,ACL 必须与时俱进。
当前,大模型和智能体等技术浪潮正席卷整个行业。传统的 NLP 研究方向,如对话、问答、机器翻译等,已经沿用了十多年。如今,大模型带来了许多新的研究方向,比如大模型安全、多模态、多语言等,这些都是亟待探索的重要领域。我很高兴看到,今年的 ACL 已经开始适应这种变化,将大模型智能体和人机协作等方向纳入了会议议题。我相信,未来 ACL 的领域划分会迎来更大调整,以更好地适应当前 AI 技术的发展。
肖超玮:从我个人研究经历来看,这种转变正体现了 NLP 会议日益增强的包容性。我从机器学习和计算机视觉安全转向 NLP 安全,我以前是不投 NLP 会议的,最近这两年开始投 NLP 会议,恰好说明这个领域在大模型的时代下正在迎接不同背景的学者。我认为,计算语言学的核心议题并未消失,而是在大模型框架下有了新的呈现。比如我研究的多语言安全问题,不同语言和文化对“安全”的定义各不相同,这正是大模型时代计算语言学需要深入探索的新议题。今年 ACL 大会的跨学科氛围非常浓厚,这种融合趋势为计算语言学带来了更多新视角和新机遇。
张家俊:我认同刘老师和肖老师的观点,ACL 的核心本质没有改变,它始终是通过计算手段研究和运用语言,大模型是计算语言学借助 AI 技术实现进一步进化的体现。对于 Emily M. Bender 主席的观点,我认为她并非否定 AI 的价值,而是以一种极端的方式提醒学界:不应只关注 AI 技术本身,更要关注研究的多样性与语言本质的探索。
大模型不仅是研究语言的“工具”,也成为了具备语言能力的“研究对象”,这极大地拓展了计算语言学的内涵。同时,大模型的多模态特性也推动了 ACL 的跨学科融合。虽然大模型研究成为主流,但 ACL 对语言学核心议题的关注并未减弱,今年仍有许多论文聚焦语言组合性、语法学习等基础研究。
此外,我非常认同刘老师关于传统研究方向需要调整的观点,明年我们将讨论如何优化会议领域划分,以更好地适应发展。
岑峰:今年 ACL 投稿量突破8000篇,创下历史新高。这股“内卷”是源于跨学科的新问题,还是因为 AI 技术降低了研究门槛?
张家俊:我认为两个原因都存在,但技术门槛降低的影响更为显著。这主要得益于开源技术。当前,90%以上的研究都基于开源模型、方法和数据。就像上世纪90年代末,统计机器翻译的工具开源后,相关研究才迎来爆发式增长。如今, AI 应用场景的广泛拓展也吸引了更多领域的研究者加入,共同推动了投稿量的激增。
肖超玮:我非常认同张老师的观点。我之前的网络安全领域,因为技术和工具不便开源,导致会议投稿量与 ACL 有天壤之别。在 NLP 领域,我深刻体会到了开源环境的优势:大量国内外的开源大模型性能出色,降低了研究门槛,吸引了更多研究者。此外,ACL 采用的 ARR(ACL Rolling Review)机制也是吸引跨领域研究者的重要因素。它不像一些会议的“一票否决”制,而是允许作者根据审稿意见修改后重新提交,甚至可以更换审稿人。这种机制更适应 AI 技术的快速迭代,也让更多有价值的研究成果有机会被看到。正是这种友好的投稿机制和成熟的开源环境共同推动了 ACL 投稿量的激增。
刘菲:我非常认同两位老师的观点。大模型极大地提升了研究生产力,这是投稿量激增的直接原因。传统上写一篇论文可能需要两周,现在借助大模型两天就能完成初稿。这种效率的飞跃,让更多人能快速上手。我建议希望进入 NLP 领域的研究者,可以从开源项目入手,并结合自己的专长探索“ NLP + 垂直领域”的交叉方向,这样既有实际需求,也更容易产出有价值的成果。
岑峰:今年 ACL 大会,中国作者的论文比例达到51%。三位老师第一次参加 ACL 是什么时候?相比当年,如今让你们感受最“不一样”的地方是什么?
肖超玮:我过去主要是参加机器学习,视觉和安全的会议,今年首次参加 ACL,最大感触是它与机器学习会议的核心关注点不同。机器学习会议更关注模型和算法本身,而 ACL 则更包容,它围绕语言学本质,汇聚了不同文化、语言背景的思考,这帮助我理解“如何设计安全策略”这类关键问题,进而指导我们构建更负责任、更安全的模型。此外,今年中国企业在会场的高参与度和在开源大模型领域的显著进展,也让我印象深刻。
刘菲:我对中国在 AI 领域的快速发展感到非常欣慰。过去十几年,我们打下了坚实的基础,大模型的研发需要完整的技术链条支撑。我看到国内在数据处理、模型架构探索等基础研究上都取得了显著进展。同时,国内大模型配套生态系统也在高速发展,研究正从基础技术突破迈向智能体等应用层面。我期待未来一两年,大模型能更多地融入我们的日常生活。
张家俊:我第一次参加 ACL 是在2013年,会议地点在保加利亚索菲亚。当时的 ACL 更聚焦语言学本质,而如今大模型已成为主流研究方向。
我感受最深的有几点:第一,论文数量大幅增长,让人很难全部阅读;第二,中国研究者的话语权显著提升,无论在论文贡献还是组织参与度上都变得更有影响力;第三,研究领域的边界日益模糊,不同方向的方法和对象趋同,跨领域交流变得更顺畅;第四,应用场景不断拓展,NLP 已从相对小众的研究方向,成为 AI 领域的核心焦点。

02
大模型规划:统一评估框架的必要性
岑峰:刘菲老师团队的一篇关于 LLM 规划的论文获得了本次 ACL 的杰出论文,为何当前该领域特别需要这样一个统一的评估框架和能力地图?它解决了哪些迫在眉睫的问题?
刘菲:我们的团队之所以如此关注大语言模型的规划能力,核心原因在于,当前大模型的推理能力已实现大幅提升,这让它们具备了解决高难度、复杂任务的潜力。但这类任务往往无法一蹴而就,需要通过“任务拆解”将其分解为多个可执行的子模块,这正是规划能力的核心。
举个具体的例子,如果你想用智能体制定一份为期一周的北京旅行行程,它首先需要拆解出多个子任务,比如“预订机票”、“预订酒店”和“每日行程安排”。这三个子任务本身就非常复杂。更重要的是,不同用户对这些子任务的需求差异巨大,这意味着复杂任务的第一步必须是合理的、个性化的任务拆分。
此外,这些子任务的解决路径也各不相同。有些可以由系统自动处理,但可能存在不稳定性;有些则需要人工介入。更关键的是,子任务之间并非孤立存在,它们有着明确的关联结构。规划的最终目标是让用户完全满意,而“个性化” 是实现这一目标的最大难点。做好规划,需要综合考虑这些多维度的个性化因素。
正因为规划任务的复杂性和多样性,我们认为构建一个统一的评估框架至关重要。我在自然语言处理领域工作了近15年,始终坚信 “评估先行”。一套优质的、经过深思熟虑的评估指标能够有效指导系统开发,让研究方向更为集中和高效。反之,如果缺乏扎实可靠的评估框架,整个领域的发展就会变得分散,甚至陷入停滞。因此,要真正推动大模型规划与推理领域的前进,必须先建立一个统一且精细的评估框架。
此外,规划能力也与当前的智能体人工智能( Agentic AI ) 高度相关。规划的效率直接决定了智能体完成任务的效率,从这个角度看,规划与决策无疑是极具潜力的研究方向。除了规划,我们团队也对多智能体协同和竞争方向有着浓厚的兴趣。我认为,未来大模型可以升级为个性化模型,让每个人都拥有一个专属的智能助手。在这种情境下,智能体之间可能存在复杂的社会关系:在团队协作时,它们需要合作;而在争夺同一个资源时,它们又会形成竞争。无论是合作还是竞争,多智能体都需要强大的规划和协同能力,这也是我们未来重点关注的方向。
岑峰:如果小模型能在特定规划任务上达到大模型的性能,这对商业化应用与部署会有何影响?
刘菲:小模型具有很强的推理能力,而大模型的优势在于知识储备。如果一个工业落地场景无需大量外部知识,仅需调用大模型的单一能力,那么经过知识蒸馏的小模型就极具价值。但若任务对专业知识有高要求,则仍需采用参数规模更大的模型。总而言之,小模型在特定场景下的高性能表现,将大幅降低部署成本,加速商业化落地。
岑峰:刘老师在论文中提到“强化不可行任务检测指标”的建议,让大模型学会“说不”,从技术层面会面临哪些挑战?又会给用户体验带来怎样的改变?
刘菲:从用户角度,我非常希望大模型能主动“说不”。目前,大模型在训练时倾向于迎合用户需求,这导致它们在回答不确切的问题时容易产生“幻觉”,比如虚构一个不存在的电影剧情。
要解决这个问题,长远来看,我们需要将传统的分类模型方法与大模型结合,实现“结论与推理依据的对齐”。当前,大模型通过逐 token 生成推理依据,但其最终结论可能与推理过程不一致。未来,我们需要确保无论结论是基于分类模型还是参数化模型,其口头解释都能保持一致。如果大模型能学会“说不”,将能提供更准确、更可信的信息,避免误导用户,从而带来更好的用户体验。

03
从被动到主动:大模型的未来交互策略
岑峰:张老师团队也有一篇 ACL 的 Highlight 论文,其核心思想是“让视觉语言模型学会提问,消解视觉回答中的模糊性”。如何通俗解读这一研究?它与人类的提问逻辑有何异同?
张家俊:我们研究的核心是让视觉语言模型拥有“追问”的能力。在视觉问答( VQA )中,很多问题回答不准确,是因为问题本身就很模糊。这就像我们问“那个东西怎么用?”,对方会反问“你指的是哪个?”来明确需求。但大模型默认用户问题是完全正确的,不会主动澄清。由于图像信息量大,这种模糊性在视觉领域尤其突出。因此,我们的研究就是教会模型,在识别到模糊提问时,先通过追问来明确用户意图,再给出精准回答。
岑峰:除了论文中提到的三类模糊性,是否还存在其他类型?能否结合例子具体说明?
张家俊:我们当前将模糊性划分为三类,主要是基于现有数据集的特性和技术的可行性。但实际上,除了这三种,在现实场景中肯定还存在其他类型的模糊性问题。
其中一个非常典型的例子就是由文化背景差异带来的模糊性。在不同的国家和文化语境下,即使是相同的问题,其背后所指向的需求或隐含的文化含义也可能截然不同,也存在数据构造极为困难的巨大的挑战。要构建涵盖不同文化、不同常识背景的模糊问题数据集,需要大量的跨文化标注,目前这方面的积累还远远不够。所以,我们选择先聚焦于“指代、意图、拼写” 这三类更容易界定和构造数据的问题,后续再逐步拓展。
为了帮助大家更好地理解这三类模糊性,我可以结合视觉场景来举几个具体的例子:
指代模糊:想象一张照片里有两个人一前一后站着,一个穿着“杀马特”风格的衣服,另一个是“二次元”风格。如果用户问模型:“这个人怎么穿成这样?”模型就无法确定用户指的是哪一个人。这就是典型的指代模糊,模型需要通过追问来解决,比如问:“您指的是照片中靠前的人,还是靠后的人?”
意图模糊:比如一张图片展示了一个人站在伦敦桥上,背景能看到著名的大本钟。这时,用户可能会问:“这个人站在哪里?”从表面看,用户是在问具体位置,但深层的意图可能是想知道所在的城市,也就是“伦敦”。如果模型只回答“在桥上”,就没有真正满足用户的需求。这就是意图模糊,模型需要追问来确认,比如问:“您是想了解具体地点,还是所在的城市?”
拼写模糊:假设图片是在某个展览活动现场,用户想问“这是一个什么事件?”但因为同音字错误,打成了“这是一个什么时间?”虽然语法正确,但语义完全偏离了。这就是拼写模糊,模型需要识别出这种偏差并进行追问,比如问:“您是否想问‘这是一个什么事件?’”
这些例子清晰地说明了,在复杂的人机交互中,让模型学会主动识别和消解模糊性,是提升用户体验的关键。
岑峰:如何从技术上让模型具备“该直接回答还是主动追问”的判断能力?这项研究对未来 AI 认知发展有何启示?
张家俊:核心在于让模型拥有“自知之明”,即清楚自己“知道什么、不知道什么”。当面对不确定的问题时,它能识别出不确定性,并主动交互。目前,我们通过 数据驱动 的方式来实现这一能力。我们专门针对模糊场景,自动化构造了大规模训练数据,将“需要追问”的案例作为正样本,将“可直接回答”的案例作为负样本,以此教会模型进行二元判断。从长远看,若模型能同时具备“自知之明”和“用户认知建模”的能力,有望自主形成主动交互意识。
岑峰:这一能力能否扩展到其他领域?它将如何改变人与 AI 的交互方式?
张家俊:这一能力的通用性非常强,可以扩展到智能客服、智能家居、车载系统等高频人机交互场景,甚至在智能决策系统中,模型也能通过主动提问来补全信息,提升决策准确性。这种主动澄清能力,将成为多模态模型和决策模型的基础能力。例如,在撰写综述时,模型若能主动询问用户“您希望重点覆盖哪些领域?”,便能生成更贴合需求的内容。这种交互方式的改变将是根本性的,它将使AI从一个被动响应的工具,转变为一个能够进行主动、有意义的交互的智能伙伴。

04
大模型安全与鲁棒性:一场永无止境的攻防战
岑峰:在大模型时代,有哪些新的攻击或防御策略?传统方法是否仍有效?
肖超玮:我将结合我们团队的研究探索,分享对大模型安全领域的最新观察与趋势。
早期的对抗攻击研究主要集中在计算机视觉领域。那时的防御方案聚焦于“System 1” 层次,即通过生成对抗样本,并进行 “对抗训练” 来微调模型。然而,这种方法的致命缺陷是 泛化性极差。它只能应对已知的扰动,面对更广泛、更复杂的未知攻击时,几乎束手无策。
早在2022年,我们团队就提出了一个不同的思路,从 “System 2” 层面设计防御方案。我们的 DiffPure 通过引入“扩散模型”,模拟人类的“慢思考”过程,实现在无需接触对抗样本的情况下,也能对未知扰动进行有效防御。
如今,这种“System 2” 的思路在大模型安全研究中得到了延伸。我们最近的工作 ARMOR,仅仅让模型“背”下安全策略是远远不够的,而是必须让它通过一个主动的 推理过程 来分析问题,明确不安全行为违反了哪些安全准则。当前,无论是 OpenAI 的 “深度思考的对齐” 还是国内清华大学等团队的工作 STAIR,都在尝试通过“推理模型” 来强化安全对齐。
然而,现有的一些推理防御方案仍存在漏洞。其根本原因在于,模型的推理逻辑和人类对比可能存在偏差。对于一个恶意的共计,人类解决问题的关键,是让模型像人类一样“抽丝剥缕”,先理解到底是在问什么问题,再基于安准则做出判断,是不是这个问题是不是违背了安全准则。
因此,我们提出了“结构化推理” 方法,旨在明确模型的推理逻辑,使其决策过程更贴近人类思维。我们认为,如何将这种结构化推理与基于强化学习的目标驱动方法相结合,是当前一个重要的研究方向。
另一个重要趋势是智能体安全( Agent Security )。今年 ACL 会议上,业界开始关注 “间接指令注入( indirect problem injection )” 这种新的系统级威胁。针对这类问题,我们在 ACL 会议上面也提出了 Agrail , 通过构建一个智能体安全护栏提升智能体的安全。
总的来说,安全研究正在从早期的“ System 1 ” 级对齐微调,深化到“ System2 ”级别利用“结构化推理” 提升模型安全性;并从单一模型扩展到系统层面,通过构建外部防御机制来系统性地解决安全问题。这些都是当前领域的重要进展,并且仍在持续推进。
岑峰:与计算机视觉相比,NLP 在对抗攻击与鲁棒性方面面临哪些独特挑战?
肖超玮:我之所以从计算机视觉( CV )转向自然语言处理( NLP )领域,正是因为语言具有独特的价值和挑战。CV 领域的对抗攻击通常很直接,比如在停车标志上贴一张特殊设计的贴纸来误导模型,而 NLP 则完全不同,语言是人类设计的、带有强烈 社会性的知识载体和社交工具。其逻辑与人类现实社会中的“说服”或“PUA”非常相似。攻击者可以通过不同的语言技巧和策略,诱导模型给出有害的回答。这说明 NLP 的攻击门槛非常低,普通用户就能实施,这是语言特性带来的全新挑战。
为此,我们的研究方向像 AutoDAN-Turbo,ARMOR 等是从“策略空间”切入,系统地梳理和识别这些基于策略的攻击手段,再让模型学习如何防御。早期的攻击方式相对简单,比如替换个别单词,但现在的攻击已升级,不再是简单的文本改写,而是通过设计特定策略来精准诱导模型。这种升级不仅为攻击行为开辟了巨大空间,也给防御工作带来了巨大挑战。我认为,这正是语言独特的社会性和动态的语言学属性所导致的。
岑峰:AI 安全的未来方向是怎样的?除了对抗攻击和防御,还有哪些更深层次的问题需要解决?
肖超玮:我认为未来的 AI 安全需要重点关注四个方向:
推理模型的应用: 核心问题是,我们该如何利用推理模型?是采用我们提出的“结构化推理”,还是更偏向目标对齐的方法,这需要深入研究。
目标过拟合:目前许多模型通过奖励机制来确保目标达成,但过度关注结果可能导致模型在过程中产生欺骗行为。如何解决这种“目标过拟合”带来的新安全挑战,是亟待解决的问题。
个性化安全: 这是一个跨学科的难题。安全本身没有统一的定义,如何让模型能适应不同国家、不同个体的安全准则,并构建一个兼顾个体需求与公共安全的策略框架,是需要深层探索的方向。
智能体安全: 随着大模型向多智能体系统演进,系统级安全问题日益突出,比如“间接指令注入”。智能体比单一模型更脆弱,因此如何定义和解决智能体安全问题,是未来需要重点思考的方向。
岑峰:张老师,我也想请教您,从多模态大模型研究的视角,您如何看待 AI 安全问题?
张家俊:我非常认同肖老师的观点,语言的主观性和不确定性确实为 AI 安全带来了独特的挑战。而当我们将技术从单一的语言或视觉模态拓展到多模态时,AI 安全问题会进一步加剧。
举个我们研究中遇到的例子:一个安全对齐良好的大语言模型,其抗攻击能力较强。但如果加入语音交互模态,安全风险便会立刻凸显。不同的口音或年龄群体在提问时,很可能绕过为文本模态设计的安全机制。
为此,我们团队开展了“行为克隆” 的研究,旨在实现 “跨模态对齐”。核心思想是:在语音和文本语义一致的前提下,模型对两种模态输入的行为响应也必须完全一致。我们通过这种方法,在不修改大语言模型核心参数的情况下,实现了语音到文本的模态对齐,从而让模型在处理语音输入时也能继承原有的安全能力。
然而,这种方法尚未完全解决所有多模态安全问题。例如,语音中的情绪、重音差异仍可能导致模型内部表征发生微小变化,进而影响其安全防御水平。因此,我认为多模态场景下的 AI 安全研究,既存在巨大的探索空间,也面临着更为严峻的挑战。

05
产学研融合:新企业入局与人才新需求
岑峰:今年我们看到了量化基金、律师事务所等新企业入局 ACL,会对 NLP 研究和人才需求产生哪些影响?ACL 的学术成果又该如何更好地转化为产业应用?
张家俊:今年 ACL 的赞助商确实呈现显著多样化,这背后是大模型发展推动 NLP 技术的应用边界不断拓展。如今,大模型不仅应用于互联网,更在金融、法律、医疗等实体行业落地,催生了企业对 NLP 人才的差异化需求。这些新入局的企业通过赞助顶会,来吸引人才和对接前沿研究,这是其核心驱动力。
关于学术成果如何对接产业,这取决于论文的研究属性:
兴趣驱动型研究:这类研究以学术探索为核心,通常不考虑实际应用。例如,有最佳论文聚焦“大模型内部公平性”这类基础问题,其直接商业价值有限,企业联合研究的动力也较低。
应用/任务驱动型研究: 这类研究是连接学术与产业的核心。它又分为两个方向:
○基础模型构建:比如专注于预训练数据筛选、对齐数据工程等。ACL 的许多杰出论文都属于此类,它们由产学研联合开展,能直接转化为业界模型开发的核心技术。
○具体场景落地:比如面向律师事务所的“法律文本分析”,或面向量化基金的“金融舆情挖掘”。这类研究从行业实际问题出发,目标就是技术落地,因此天然具备与产业对接的属性,能直接转化为企业的产品功能。
因此,“应用驱动型研究”是推动 ACL 学术价值向产业价值高效转化的关键。
肖超玮:我非常认同张老师的分析,大模型正在拓展其应用边界。我分享一个亲身经历:我的航班延误8小时,航空公司只愿意赔偿100美元。我用大模型查询后得知,根据欧盟法律,我应该获得600欧元的赔偿,最终成功拿到了这笔钱。这个案例让我感触很深:大模型凭借其海量知识储备,让普通人也能便捷地获取专业知识,这在过去是无法想象的。
这个例子也恰好说明了模型与产业结合的巨大价值。现在,越来越多的企业,包括安全领域的公司,都在探索如何构建AI安全防护机制,比如打造 “ AI 防火墙” 或利用 AI 生成 “安全代码”。这些都不仅仅是学术研究,而是能直接应用于产业的实际方向。
关于如何更好地推动研究与产业结合,我认为可以从两个方面发力:
应用驱动型研究:研究者可以结合自身优势,深耕特定应用场景,围绕产业实际需求开展研究。
基础理论研究:同样要重视大模型的训练逻辑、算法设计等基础研究。这些看似不直接落地,但它们是未来技术突破的核心,终有一天会迸发出巨大的产业价值。

06
观众 QA
岑峰:有观众提问:若防御者能利用推理( reasoning )提升安全,攻击者同样可借助推理实施攻击,那么该领域合理的研究假设应如何界定?
肖超玮:是的,攻防双方都可利用推理能力。所以对于防御的关键就是,在合理的威胁模型的假设下,在攻击者也可以用各种合理的工具,各种手段还能防御成功就是合理的。比如现在 OpenAI 的防御的威胁模型就是,他不会全给你模型完整的和真实的推理过程,而是经过筛选后仅暴露部分内容,这些内容不会妨碍正常用户对推理过程的理解,满足了可解释信也不会影响模型回答问题的准确性。这种假设就是合理的。这种假设下,虽然攻击者可以用各种手段,也可以用推理共计,但是他不能利用模型真实的和完整的推理内容。
岑峰:第二个观众问题:“大语言模型面临多种攻击方式,是否存在通用的鲁棒防御方法?”
肖超玮:我认为,这个问题的答案可以概括为“既无绝对通用的方法,也存在可探索的通用防御方向”。
从“无” 的角度看,绝对的通用防御是不存在的。攻击者具备持续学习的能力,他们总能探索出全新的攻击形式。因此,我们不能再沿用传统的防御思路,比如仅仅通过生成海量数据来进行对抗训练,这种方式是行不通的。
然而,从“有” 的角度看,我们存在可行的通用防御方向。我们需要转变思路,让模型学习如何进行 安全推理。正如我们近期研究的工作 ARMOR 提出的,模型首先需要具备浏览一个动态攻击策略列表的能力,并能从中识别出输入问题可能采用的攻击策略,进而理清用户的真实意图。这个列表是可维护、可低成本更新的,我们可以不断将新的攻击策略补充进去。
我们希望传递的理念是,研究应从“结构化推理” 和 提成本的“终生学习” ,快读迭代的角度去思考防御。让模型学习理解高层级的推理逻辑,而不是单纯地记忆数据实例。攻击者可能会用不同的语言、不同的劝说策略发起攻击,但从高层级来看,这些攻击手段存在诸多共性。因此,我们需要维护的是这份高层级共性策略列表,并持续更新,防御者可以低成本的让模型基于该列表进行推理,来以终身学习的方式去防御。只有让模型掌握这种识别推理逻辑能力,才有可能从根本上解决问题,真正推动 AI 安全领域取得进展。
岑峰:时间过得飞快,我们这次圆桌到这里就结束了。谢谢三位嘉宾的分享,谢谢观众们的观看,我们下次再见!



未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。