Gemini 3研发逻辑首度披露:系统工程、数据范式与多模态协同驱动AI新跃迁

科技区角 2026-02-21 20:30

【科技纵览】在2025年12月18日首次公开的播客访谈中,Google DeepMind Gemini 3预训练负责人Sebastian Borgeaud系统阐释了这款被业界视为里程碑式模型的核心研发逻辑。他强调,Gemini 3的显著性能提升并非源于单一技术突破,而是由150至200人规模的跨职能团队,在数据、模型架构、基础设施与评估四大维度上持续融合数百项改进所共同促成的结果。

该模型采用基于Transformer的混合专家(MoE)架构,其关键创新在于将计算资源分配与参数总量解耦——通过动态路由机制,仅激活处理特定任务所需的“专家”模块,从而在不显著增加推理成本的前提下提升模型容量与效率。Borgeaud指出,尽管模型规模仍是预训练性能的重要变量,但当前行业已进入“数据有限”新范式,单纯依赖数据扩张难以为继,架构优化与高质量数据策略的重要性正日益凸显。

值得注意的是,Gemini 3从预训练初期即引入合成数据,但团队对其使用持高度审慎态度。Borgeaud坦言,合成数据若设计不当极易导致模型偏差,而有效的架构改进可使模型以更少真实数据达成更优性能。这一转变也呼应了DeepMind内部研究范式的演进:从早期强化学习项目转向以真实世界数据为基础的表征学习,并最终催生Gopher、Chinchilla及Retro等关键项目,为其在大模型领域的深厚积累奠定基础。

作为原生多模态模型,Gemini 3统一处理文本、图像、音频乃至视频输入,采用多塔式结构分别编码后在推理层融合。尽管多模态输入带来更高的计算与研究复杂度,但其在MMMU-Pro(81%)与Video-MMMU(87.6%)等基准测试中的断层领先,验证了该路径的可行性。尤其在ScreenSpot-Pro测试中,其72.7%的得分远超GPT-5.1的3.6%,凸显其对用户界面与屏幕内容的理解能力。

Borgeaud特别强调评估体系的独立性与保密性。为避免外部基准测试因数据污染而失真,DeepMind已逐步转向内部构建并严格隔离的评估集。他同时澄清,对齐工作主要在后训练阶段完成,但预训练阶段仍需保留对不良信息的有限接触,以确保模型具备识别与规避能力,而非完全隔绝现实语料的复杂性。

谈及行业趋势,Borgeaud认为AI研发正从“算法驱动”转向“系统工程驱动”,研究与工程边界日益模糊,“研究型工程”成为主流。他预测,未来一到两年内,长上下文处理效率与注意力机制将取得关键进展,而检索增强等技术或通过可微分端到端方式重新整合进预训练流程。对于人才发展,他建议新一代研究者需贯通从TPU底层到模型顶层的全栈知识,方能在复杂系统中发现创新机会。

这场深度对话揭示了一个核心事实:顶尖大模型的竞争已不仅是算力或参数的比拼,更是组织协同、数据哲学、架构创新与评估科学的综合较量。在通往通用人工智能的道路上,系统性工程能力正成为决定性壁垒。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI EMI 驱动
more
氮矽专为高密度电源系统推出全新低压氮化镓集成驱动芯片DXC150LX070
2025年中国家居智能硬件行业市场规模、重点企业及未来前景展望:人工智能与物联网深度融合,驱动家居智能硬件规模达4600.1亿元[图]
AMD推Adrenalin 26.1.1驱动,集成AI Bundle简化本地AI开发环境
Didero完成3000万美元A轮融资,聚焦生成式AI驱动的全球采购自动化
台积电2025财报亮眼 AI驱动增长 竞争与布局双线推进
华邦电子DRAM缺口难补,AI驱动存储市场全面紧缺
特斯拉Cybertruck全轮驱动版上市十日即涨价1万美元,营销策略引争议
理想MEGA交付破3万台登顶高端MPV榜首,技术配置与家庭场景成关键驱动力
别再想靠“demo”糊弄,NVIDIA联合光轮智能正式开启具身评测驱动的时代!
订阅经济驱动2025年移动应用收入创新高,下载量连续五年下滑
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号