Gemini 3研发逻辑首度披露:系统工程、数据范式与多模态协同驱动AI新跃迁

科技区角 2026-02-21 20:30

【科技纵览】在2025年12月18日首次公开的播客访谈中,Google DeepMind Gemini 3预训练负责人Sebastian Borgeaud系统阐释了这款被业界视为里程碑式模型的核心研发逻辑。他强调,Gemini 3的显著性能提升并非源于单一技术突破,而是由150至200人规模的跨职能团队,在数据、模型架构、基础设施与评估四大维度上持续融合数百项改进所共同促成的结果。

该模型采用基于Transformer的混合专家(MoE)架构,其关键创新在于将计算资源分配与参数总量解耦——通过动态路由机制,仅激活处理特定任务所需的“专家”模块,从而在不显著增加推理成本的前提下提升模型容量与效率。Borgeaud指出,尽管模型规模仍是预训练性能的重要变量,但当前行业已进入“数据有限”新范式,单纯依赖数据扩张难以为继,架构优化与高质量数据策略的重要性正日益凸显。

值得注意的是,Gemini 3从预训练初期即引入合成数据,但团队对其使用持高度审慎态度。Borgeaud坦言,合成数据若设计不当极易导致模型偏差,而有效的架构改进可使模型以更少真实数据达成更优性能。这一转变也呼应了DeepMind内部研究范式的演进:从早期强化学习项目转向以真实世界数据为基础的表征学习,并最终催生Gopher、Chinchilla及Retro等关键项目,为其在大模型领域的深厚积累奠定基础。

作为原生多模态模型,Gemini 3统一处理文本、图像、音频乃至视频输入,采用多塔式结构分别编码后在推理层融合。尽管多模态输入带来更高的计算与研究复杂度,但其在MMMU-Pro(81%)与Video-MMMU(87.6%)等基准测试中的断层领先,验证了该路径的可行性。尤其在ScreenSpot-Pro测试中,其72.7%的得分远超GPT-5.1的3.6%,凸显其对用户界面与屏幕内容的理解能力。

Borgeaud特别强调评估体系的独立性与保密性。为避免外部基准测试因数据污染而失真,DeepMind已逐步转向内部构建并严格隔离的评估集。他同时澄清,对齐工作主要在后训练阶段完成,但预训练阶段仍需保留对不良信息的有限接触,以确保模型具备识别与规避能力,而非完全隔绝现实语料的复杂性。

谈及行业趋势,Borgeaud认为AI研发正从“算法驱动”转向“系统工程驱动”,研究与工程边界日益模糊,“研究型工程”成为主流。他预测,未来一到两年内,长上下文处理效率与注意力机制将取得关键进展,而检索增强等技术或通过可微分端到端方式重新整合进预训练流程。对于人才发展,他建议新一代研究者需贯通从TPU底层到模型顶层的全栈知识,方能在复杂系统中发现创新机会。

这场深度对话揭示了一个核心事实:顶尖大模型的竞争已不仅是算力或参数的比拼,更是组织协同、数据哲学、架构创新与评估科学的综合较量。在通往通用人工智能的道路上,系统性工程能力正成为决定性壁垒。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI EMI 驱动
more
爱奇艺回应AI艺人库争议:强调授权规范与创作赋能并重
OpenAI连收两家初创公司,意在破解两大“生存难题”
亚马逊再投50亿美元加码Anthropic,十年云支出超千亿美元锁定AI算力
曝贝索斯融资100亿美元,押注物理AI
揭秘!AI数据中心需要多少SiC、GaN、IGBT?
OpenAI凌晨偷袭!Images 2.0实测:中文稳、细节炸
第一批学AI的大学生,已经笑不出来了。
马斯克 600 亿美元锁定 Cursor;字节、荣威合作推出「AI 汽车」;传今年存储厂商人均奖金超 300 万元 | 极客早知道
HPC收入碾压手机业务!台积电正式变身为一家“AI公司”
谷歌正与Marvell洽谈开发两款AI推理芯片,有望于2027年试产
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号