【科技纵览】在2025年12月18日首次公开的播客访谈中,Google DeepMind Gemini 3预训练负责人Sebastian Borgeaud系统阐释了这款被业界视为里程碑式模型的核心研发逻辑。他强调,Gemini 3的显著性能提升并非源于单一技术突破,而是由150至200人规模的跨职能团队,在数据、模型架构、基础设施与评估四大维度上持续融合数百项改进所共同促成的结果。
该模型采用基于Transformer的混合专家(MoE)架构,其关键创新在于将计算资源分配与参数总量解耦——通过动态路由机制,仅激活处理特定任务所需的“专家”模块,从而在不显著增加推理成本的前提下提升模型容量与效率。Borgeaud指出,尽管模型规模仍是预训练性能的重要变量,但当前行业已进入“数据有限”新范式,单纯依赖数据扩张难以为继,架构优化与高质量数据策略的重要性正日益凸显。
值得注意的是,Gemini 3从预训练初期即引入合成数据,但团队对其使用持高度审慎态度。Borgeaud坦言,合成数据若设计不当极易导致模型偏差,而有效的架构改进可使模型以更少真实数据达成更优性能。这一转变也呼应了DeepMind内部研究范式的演进:从早期强化学习项目转向以真实世界数据为基础的表征学习,并最终催生Gopher、Chinchilla及Retro等关键项目,为其在大模型领域的深厚积累奠定基础。
作为原生多模态模型,Gemini 3统一处理文本、图像、音频乃至视频输入,采用多塔式结构分别编码后在推理层融合。尽管多模态输入带来更高的计算与研究复杂度,但其在MMMU-Pro(81%)与Video-MMMU(87.6%)等基准测试中的断层领先,验证了该路径的可行性。尤其在ScreenSpot-Pro测试中,其72.7%的得分远超GPT-5.1的3.6%,凸显其对用户界面与屏幕内容的理解能力。
Borgeaud特别强调评估体系的独立性与保密性。为避免外部基准测试因数据污染而失真,DeepMind已逐步转向内部构建并严格隔离的评估集。他同时澄清,对齐工作主要在后训练阶段完成,但预训练阶段仍需保留对不良信息的有限接触,以确保模型具备识别与规避能力,而非完全隔绝现实语料的复杂性。
谈及行业趋势,Borgeaud认为AI研发正从“算法驱动”转向“系统工程驱动”,研究与工程边界日益模糊,“研究型工程”成为主流。他预测,未来一到两年内,长上下文处理效率与注意力机制将取得关键进展,而检索增强等技术或通过可微分端到端方式重新整合进预训练流程。对于人才发展,他建议新一代研究者需贯通从TPU底层到模型顶层的全栈知识,方能在复杂系统中发现创新机会。
这场深度对话揭示了一个核心事实:顶尖大模型的竞争已不仅是算力或参数的比拼,更是组织协同、数据哲学、架构创新与评估科学的综合较量。在通往通用人工智能的道路上,系统性工程能力正成为决定性壁垒。
Gemini 3研发逻辑首度披露:系统工程、数据范式与多模态协同驱动AI新跃迁
科技区角
2026-02-21 20:30
声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。