编辑:Sia
作为新一轮科技革命和产业变革的重要驱动力量,人工智能正从技术探索迈向规模化应用,成为中国经济社会高质量发展的新引擎。为推动智能算法从理论创新迈向实际落地,启元实验室于 2025 年 5 月 20 日正式启动「启智杯」算法创新应用挑战赛。经过两个多月的激烈角逐,大赛于 7 月 25 日圆满落幕。
赛事共吸引来自高校、科研院所及科技企业的 1022 支队伍参赛。最终,来自华南理工大学、陕西师范大学、西北农林科技大学及中山大学的三支代表队凭借扎实的建模与创新能力分别斩获三大赛道的冠军。
本届赛事中,各参赛队伍在建模思路、算法选型与工程实现等方面展开积极探索,部分具有代表性的技术路线在实战中获得有效验证,为相关行业应用提供了有价值的启示与参考。

Transformer 架构展现关键作用
本届「启智杯」设立了「卫星遥感图像鲁棒实例分割」、「面向嵌入式平台的无人机对地目标检测」、「面向多模态大模型的对抗」三大赛道,选手们需围绕鲁棒感知、轻量部署与对抗防御等核心能力展开比拼。

本届大赛的三大赛题方向
在实际应用中,遥感图像往往存在图像分辨率与尺寸差异大、目标易被遮挡或呈现模糊特征等问题,不同成像条件(如传感器类型、拍摄环境)造成的域差异,也进一步加大了解析难度,尤其是对小目标的精准识别。「卫星遥感图像鲁棒实例分割」赛题聚焦高分辨率遥感图像中复杂目标的精准分割任务,要求参赛团队在实现像素级高精度分割的同时,有效应对视角畸变、遮挡干扰和分布外样本(OOD)等因素给模型带来的多重挑战。
为系统评估模型的实际适用能力,赛题采用分阶段设计:初赛主要考察分割精度,复赛则引入「已知 + 未知类别」的混合测试集,在更加贴近真实环境的设定中,验证模型的泛化能力与零样本分割能力。
比赛过程中,选手们在模型设计、训练与调优方面进行了大量尝试。在复赛测试集更具挑战性的背景下,参赛队伍仍然积极迭代优化方案。最终,华南理工大学的团队「AlexZou14」凭借改进的一套目标实例分割方案夺冠。

「卫星遥感图像鲁棒实例分割」赛道前三名获奖队伍
该方案在 Co-DETR 模型基础上进行了针对性优化。Co-DETR 是 DETR 系列模型的一种改进版本,具备更高效的结构与训练机制。其核心特点在于在训练阶段引入多个并行的辅助检测头,与主检测头进行「协同训练」。这些辅助头采用不同的标签分配策略,对共享的 Transformer 编码器提供多样化的监督信号,从而提升了编码器的特征学习能力。
比赛过程中,冠军团队引入了多种辅助检测与分割头,包括 ATSS Head、RPN Head、SimpleRefineMask 与 MaskIoU Head 。这些模块通过多任务并行训练,为编码器引入更多监督信号,有效提升模型对细节的捕捉能力和对小目标的检测表现。
复赛时,面对未知类别,团队通过扩展训练数据的类别覆盖范围,提升了模型的类别泛化能力。同时,引入大模型 SAM( Segment Anything Model ),自动为图像中潜在目标生成分割掩码,并将其作为伪标签,用于伪监督训练。这一策略在无需人工标注的条件下,有效增强了模型对新类别目标的识别能力。
整体来看,该方案之所以能够在激烈竞争中脱颖而出,关键在于巧妙融合了 Transformer 架构、多任务联合优化、大模型的分割先验与伪监督学习机制,在精度提升与鲁棒性增强之间取得了良好平衡。
「面向嵌入式平台的无人机对地目标检测」被认为是本届大赛最具人气的赛题,初赛阶段提交量位居三大赛道之首,也体现出任务本身的广泛适用性与技术吸引力。
该任务不仅要求算法具备高识别精度,还须在昇腾 310B 等算力受限、功耗受控的端侧平台上高效运行。参赛队伍需在「看得准」与「跑得快」之间取得极致平衡。
赛事设置层层递进的评估体系:初赛阶段聚焦检测精度,复赛则同时引入推理效率和部署稳定性考核,通过实地测评模拟无人机任务场景,全面检验方案的落地能力与工程鲁棒性。
最终,陕西师范大学与西北农林科技大学联合组成的团队「断雁无凭」凭借模型在硬件受限情况下的高精度表现,获得冠军。

「面向嵌入式平台的无人机对地目标检测」前三名获奖队伍
在初赛阶段,团队基于 YOLOv11 搭建了目标检测模型,并通过多尺度训练与测试时增强( Test-Time Augmentation, TTA )策略提升模型鲁棒性,取得了良好效果。
进入复赛后,面对更加复杂的背景环境与密集的小目标场景,YOLOv11 在全局建模能力与细粒度目标识别方面暴露出一定局限。为此,团队果断转向基于Transformer 架构的 Co-DETR 模型。相比传统 CNN 检测器,Co-DETR 能更有效地捕捉图像中的全局上下文信息,更适应复杂场景下的小目标检测需求。
在此基础上,团队进一步引入了 RFLA( Region-based Focal Loss Assignment )标签分配策略,以优化小目标的正负样本匹配精度,缓解了传统匹配机制在处理密集小目标时的不足。同时,采用专为小目标设计的 ATSS( Adaptive Training Sample Selection )采样方法,引导模型在训练阶段更关注小尺寸目标区域,从而显著提升检测性能。
考虑到 Transformer 模型对显存资源的高度依赖,团队还应用了梯度检查点( Gradient Checkpointing )技术,显著降低训练过程中的显存占用,使得在有限硬件条件下依然能够稳定训练大规模模型。
多项优化策略协同作用下,模型在复赛的复杂场景中表现出优异的检测精度与稳定性,最终助力团队在激烈竞争中脱颖而出。
多模态大模型的迅猛发展,正在为复杂决策场景打开新可能。然而,随着其应用边界不断拓展,模型的鲁棒性与可靠性问题正成为制约 AI 安全性与可持续应用的瓶颈。「面向多模态大模型的对抗挑战赛」围绕视觉问答、图像描述和变化检测三大典型任务,从准确性、抗干扰性与抗攻击性三大维度,全面考察模型在可见光遥感图像场景下的鲁棒性与可靠性。
为了贴近真实部署,赛事设置了 20GB 模型体积上限与单卡推理时间限制,进一步提升对算法效率与系统优化的挑战。如何在有限资源下权衡精度与速度,成为每支队伍必须面对的关键命题。
复赛阶段,该赛道的转化率约 68%,显著高于其他赛道,充分反映出参赛团队在多模态理解与模型调优方面的高度成熟。最终,中山大学的团队「爱吃猪脚饭」凭借高鲁棒性、高可靠性模型方案,成功登顶。

「多模态对抗鲁棒性」赛题前三名获奖队伍
为了在多重限制条件下兼顾性能和效率,突破从通用视觉到遥感认知这道巨大鸿沟,并在准确性与鲁棒性之间找到最佳平衡,该团队以 Qwen2.5-VL-7B-Instruct 作为基础模型,围绕三大核心策略展开系统性优化。
在数据构建方面,团队自建了面向遥感任务的专业数据集,为模型训练提供了扎实的数据支持。
在训练方法上,设计采用了课程学习式多任务微调策略。该策略借鉴人类循序渐进的学习过程,将任务按难度与语义层级进行阶段性训练——模型先掌握基础识别能力,再逐步过渡到更复杂的理解与推理任务。这种渐进式学习方式显著降低了训练负担,同时有效提升了模型在遥感场景下的适应性与表现。
此外,针对遥感图像中常见的模糊、噪声、光照变化和遮挡问题,团队引入了自适应图像增强预处理机制。该机制可根据图像质量特征动态调整处理策略,如增强对比度、去噪、锐化等,精准匹配图像劣化类型,从源头提升图像可判读性,增强模型的鲁棒性。
以赛为媒,探索 AI 落地新路径
本届「启智杯」不仅是一场算法能力的高水平竞技,更是一次将前沿算法与理论创新融合实际应用、推动智能算法产业落地的重要尝试。
大赛聚焦视觉智能领域的核心技术挑战,设置三大赛道,赛题设计紧贴真实应用场景,力求全面还原现实挑战的复杂多变。相比纯粹的算法挑战,本届赛事除了注重算法精度,还强调模型在动态复杂环境中的适应能力和工程可行性,为参赛团队提供了一个将算法技术进行实战转化的真实语境。
例如,高分辨率遥感图像中复杂目标的精准分割任务,广泛应用于地理信息提取、环境监测、城市规划等关键场景。比赛过程中,选手需应对遮挡、模糊与跨域变化等多重干扰,不仅考验模型的精度,更考验其在非理想条件下的适应能力。冠军团队尝试多检测头协同训练、引入大模型伪监督与类别扩展策略等方法,不断探索可部署的工程化路径。最终,获胜方案展现出面向核心视觉应用的强大落地潜力。
在最具人气的「面向嵌入式平台的无人机对地目标检测」比赛中,选手不仅要实现高精度识别,还需在算力受限的端侧平台上保障推理效率与部署稳定性。这一设定引导参赛者深入探索模型压缩、显存调度等工程策略。「断雁无凭」团队的技术方案在性能与资源约束之间取得了良好平衡,为边缘部署提供了可参考的路径。
不仅如此,参赛团队还在多模态大模型的鲁棒性与可控性等前沿方向展开积极探索。面对遥感图像中复杂且不可预测的干扰环境,冠军团队引入「课程式多任务微调」策略,结合自适应预处理机制,使模型在不确定性场景中依然保持稳健的感知与理解能力,验证了新一代 AI 系统的落地潜力。
以赛促学,助力 AI 新生代成长
作为一场聚焦产业落地的赛事,「启智杯」也探索出了一条 AI 人才培养的新路径。在高强度的赛事环境中完成复杂任务,选手们不仅要掌握前沿算法,还需理解业务和数据,构建兼具精度与可落地的技术方案。通过端到端的实战训练,他们不仅实现了从理论到工程的闭环能力提升,显著拓展了认知边界,对科研成果转化与工程落地的整体理解与掌控能力也得到大幅增强。
这种复合型能力的锤炼,对于即将步入科研或产业前沿的青年人才而言,具有宝贵价值。赛后,不少参赛者会投身高校、企业及科研机构,继续深耕在 AI 前沿,为行业注入源源不断的新动力。
本届「启智杯」也有力推动了 AI 生态的发展。比赛过程中,企业得以前瞻性把握前沿研究动向,科研团队则在真实任务中获得应用反馈,有效促进了产学研之间联动。赛事的广泛传播,也提升了公众对人工智能及其应用价值的认知。
展望未来,「启智杯」将继续面向真实世界挑战,拓展更具技术深度与产业价值的命题方向,进一步打通产学研用联动链条,构建一个聚焦实战能力、推动生态协同、加速技术落地的人工智能创新平台。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com