Gemini 3研发逻辑首度披露：系统工程、数据范式与多模态协同驱动AI新跃迁

【科技纵览】在2025年12月18日首次公开的播客访谈中，Google DeepMind Gemini 3预训练负责人Sebastian Borgeaud系统阐释了这款被业界视为里程碑式模型的核心研发逻辑。他强调，Gemini 3的显著性能提升并非源于单一技术突破，而是由150至200人规模的跨职能团队，在数据、模型架构、基础设施与评估四大维度上持续融合数百项改进所共同促成的结果。

该模型采用基于Transformer的混合专家（MoE）架构，其关键创新在于将计算资源分配与参数总量解耦——通过动态路由机制，仅激活处理特定任务所需的“专家”模块，从而在不显著增加推理成本的前提下提升模型容量与效率。Borgeaud指出，尽管模型规模仍是预训练性能的重要变量，但当前行业已进入“数据有限”新范式，单纯依赖数据扩张难以为继，架构优化与高质量数据策略的重要性正日益凸显。

值得注意的是，Gemini 3从预训练初期即引入合成数据，但团队对其使用持高度审慎态度。Borgeaud坦言，合成数据若设计不当极易导致模型偏差，而有效的架构改进可使模型以更少真实数据达成更优性能。这一转变也呼应了DeepMind内部研究范式的演进：从早期强化学习项目转向以真实世界数据为基础的表征学习，并最终催生Gopher、Chinchilla及Retro等关键项目，为其在大模型领域的深厚积累奠定基础。

作为原生多模态模型，Gemini 3统一处理文本、图像、音频乃至视频输入，采用多塔式结构分别编码后在推理层融合。尽管多模态输入带来更高的计算与研究复杂度，但其在MMMU-Pro（81%）与Video-MMMU（87.6%）等基准测试中的断层领先，验证了该路径的可行性。尤其在ScreenSpot-Pro测试中，其72.7%的得分远超GPT-5.1的3.6%，凸显其对用户界面与屏幕内容的理解能力。

Borgeaud特别强调评估体系的独立性与保密性。为避免外部基准测试因数据污染而失真，DeepMind已逐步转向内部构建并严格隔离的评估集。他同时澄清，对齐工作主要在后训练阶段完成，但预训练阶段仍需保留对不良信息的有限接触，以确保模型具备识别与规避能力，而非完全隔绝现实语料的复杂性。

谈及行业趋势，Borgeaud认为AI研发正从“算法驱动”转向“系统工程驱动”，研究与工程边界日益模糊，“研究型工程”成为主流。他预测，未来一到两年内，长上下文处理效率与注意力机制将取得关键进展，而检索增强等技术或通过可微分端到端方式重新整合进预训练流程。对于人才发展，他建议新一代研究者需贯通从TPU底层到模型顶层的全栈知识，方能在复杂系统中发现创新机会。

这场深度对话揭示了一个核心事实：顶尖大模型的竞争已不仅是算力或参数的比拼，更是组织协同、数据哲学、架构创新与评估科学的综合较量。在通往通用人工智能的道路上，系统性工程能力正成为决定性壁垒。