腾讯研究院AI速递 20251223

生成式AI

一、Gemini Flash表现超越Gemini Pro，帕累托前沿反转？

1. Gemini 3 Flash在SWE-Bench Verified测试中获得78%分数，超越Pro版的76.2%，且速度是2.5 Pro的3倍，Token消耗量减少30%；

2. 谷歌团队解释Flash集成了大量Agentic RL研究成果，通过后训练算法实现小模型"降维打击"，Pro主要作用是蒸馏Flash；

3. 帕累托前沿反转证明参数不再是唯一真理，更便宜更快的模型现在也是更聪明的模型，打破"旗舰版迷信"。

二、旧金山一场大停电，Waymo出租车罢工秒变「路障」

1. 旧金山停电导致红绿灯熄灭，Waymo无人驾驶出租车集体停摆秒变路障，多辆车停在十字路口和主干道上；

2. Waymo依赖多传感器融合和高精地图，当城市基础设施异常时系统无法确认安全边界选择停车，马斯克称特斯拉FSD完全未受影响；

3. 事件凸显Waymo与特斯拉技术路线差异：前者重传感器地图规则，后者依赖视觉和AI，暴露了L4级无人驾驶在突发状况下的脆弱性。

三、MiniMax海螺首次开源，视觉生成领域的Scaling Law

1. MiniMax首次开源海螺视频底层技术VTP（视觉分词器预训练框架），在AI视觉生成领域发现了Scaling Law，破解"第一阶段训练越好第二阶段反而变差"悖论；

2. VTP通过三管齐下训练方案（重建+CLIP图文对比+自监督学习）让视觉分词器学会理解而非只会重建，算力扩大10倍性能提升65.8%；

3. 论文登上HuggingFace Daily Paper第三名，开源完整模型权重、训练代码和技术报告，理解能力和生成能力呈现完美正相关。

四、通义Qwen-lmage-Layered将图片"拆解"成多个图层

1. 通义千问推出Qwen-Image-Layered图像生成模型，采用自研架构将图片拆解成多个RGBA图层，每层可独立操作而不影响其他内容；

2. 核心技术包括RGBA-VAE（处理RGB和RGBA图层在同一潜空间对话）和VLD-MMDiT（一次性处理3层到10层甚至更多图层）；

3. 支持重新着色、物体替换、缩放移动、干净删除等基本操作，分层结构天然支持高保真编辑，且可递归进行无限层级细化分解。

五、人均29岁的AI公司MiniMax要IPO了！用户超2亿

1. MiniMax正式冲刺港股"大模型第一股"，成立于2022年初，385人团队平均年龄29岁，累计消耗5亿美元约为OpenAI开销的不到1%；

2. 2025年前9个月营收5344万美元同比增长超170%，海外收入占比超70%，拥有超2.12亿个人用户和13万家企业客户；

3. 坐拥米哈游、阿里、腾讯、小红书、高瓴、红杉等豪华股东阵容，董事会平均年龄32岁，是全球唯四全模态进入第一梯队的大模型公司。

前沿科技

六、上海交大推出全光生成式AI芯片LightGen，登Science

1. 上海交大陈一彤团队推出全光生成式AI芯片LightGen，首次将光子计算拓展至大模型语义媒体生成领域，研究登上Science；

2. LightGen由光子编码器、光学潜在空间和光子生成器构成，实现512×512高分辨率图像生成、3D生成、高清视频生成及语义调控；

3. 系统速度3.57×10^4 TOPS、能效6.64×10^2 TOPS/W、计算密度2.62×10^2 TOPS/mm²，整体性能比英伟达A100高出两个数量级以上。

报告观点

七、DeepMind：AGI不必是巨模型，拼凑型AI群或率先涌现

1. DeepMind发布《分布式AGI安全》研究，提出AGI极可能通过多个次级AGI智能体协作与拼凑率先涌现，而非单一庞大模型；

2. 论文提出四层深度防御框架：市场设计（隔离、激励对齐、熔断机制）、基线智能体安全、监控与监督、监管机制；

3. 强调"拼凑型AGI"假设此前受关注甚少，建议构建虚拟智能体沙盒经济，解决智能体共谋和"许多手的问题"等分布式风险。

八、红杉对话ElevenLabs、Lovable：创业先攒够这3类经验

1. ElevenLabs的Mati和Lovable的Anton均建议创业前积累7-8年工作经验，包括在优秀公司任职经历和对用户痛点的深刻理解；

2. 两位CEO分享高速扩张关键：保持"创始人模式"与"管理模式"平衡，团队构成一半内部培养一半外部资深人士，采用996+高强度工作模式；

3. 欧洲创业"困难模式"优劣势：缺乏成熟创业网络和资深高管，但人才优秀且忠诚度高，时区优势可同时对接全球市场。