生成式AI
一、Gemini Flash表现超越Gemini Pro,帕累托前沿反转?
1. Gemini 3 Flash在SWE-Bench Verified测试中获得78%分数,超越Pro版的76.2%,且速度是2.5 Pro的3倍,Token消耗量减少30%;
2. 谷歌团队解释Flash集成了大量Agentic RL研究成果,通过后训练算法实现小模型"降维打击",Pro主要作用是蒸馏Flash;
3. 帕累托前沿反转证明参数不再是唯一真理,更便宜更快的模型现在也是更聪明的模型,打破"旗舰版迷信"。
二、旧金山一场大停电,Waymo出租车罢工秒变「路障」
1. 旧金山停电导致红绿灯熄灭,Waymo无人驾驶出租车集体停摆秒变路障,多辆车停在十字路口和主干道上;
2. Waymo依赖多传感器融合和高精地图,当城市基础设施异常时系统无法确认安全边界选择停车,马斯克称特斯拉FSD完全未受影响;
3. 事件凸显Waymo与特斯拉技术路线差异:前者重传感器地图规则,后者依赖视觉和AI,暴露了L4级无人驾驶在突发状况下的脆弱性。
三、MiniMax海螺首次开源,视觉生成领域的Scaling Law
1. MiniMax首次开源海螺视频底层技术VTP(视觉分词器预训练框架),在AI视觉生成领域发现了Scaling Law,破解"第一阶段训练越好第二阶段反而变差"悖论;
2. VTP通过三管齐下训练方案(重建+CLIP图文对比+自监督学习)让视觉分词器学会理解而非只会重建,算力扩大10倍性能提升65.8%;
3. 论文登上HuggingFace Daily Paper第三名,开源完整模型权重、训练代码和技术报告,理解能力和生成能力呈现完美正相关。
四、通义Qwen-lmage-Layered将图片"拆解"成多个图层
1. 通义千问推出Qwen-Image-Layered图像生成模型,采用自研架构将图片拆解成多个RGBA图层,每层可独立操作而不影响其他内容;
2. 核心技术包括RGBA-VAE(处理RGB和RGBA图层在同一潜空间对话)和VLD-MMDiT(一次性处理3层到10层甚至更多图层);
3. 支持重新着色、物体替换、缩放移动、干净删除等基本操作,分层结构天然支持高保真编辑,且可递归进行无限层级细化分解。
五、人均29岁的AI公司MiniMax要IPO了!用户超2亿
1. MiniMax正式冲刺港股"大模型第一股",成立于2022年初,385人团队平均年龄29岁,累计消耗5亿美元约为OpenAI开销的不到1%;
2. 2025年前9个月营收5344万美元同比增长超170%,海外收入占比超70%,拥有超2.12亿个人用户和13万家企业客户;
3. 坐拥米哈游、阿里、腾讯、小红书、高瓴、红杉等豪华股东阵容,董事会平均年龄32岁,是全球唯四全模态进入第一梯队的大模型公司。
前沿科技
六、上海交大推出全光生成式AI芯片LightGen,登Science
1. 上海交大陈一彤团队推出全光生成式AI芯片LightGen,首次将光子计算拓展至大模型语义媒体生成领域,研究登上Science;
2. LightGen由光子编码器、光学潜在空间和光子生成器构成,实现512×512高分辨率图像生成、3D生成、高清视频生成及语义调控;
3. 系统速度3.57×10^4 TOPS、能效6.64×10^2 TOPS/W、计算密度2.62×10^2 TOPS/mm²,整体性能比英伟达A100高出两个数量级以上。
报告观点
七、DeepMind:AGI不必是巨模型,拼凑型AI群或率先涌现
1. DeepMind发布《分布式AGI安全》研究,提出AGI极可能通过多个次级AGI智能体协作与拼凑率先涌现,而非单一庞大模型;
2. 论文提出四层深度防御框架:市场设计(隔离、激励对齐、熔断机制)、基线智能体安全、监控与监督、监管机制;
3. 强调"拼凑型AGI"假设此前受关注甚少,建议构建虚拟智能体沙盒经济,解决智能体共谋和"许多手的问题"等分布式风险。
八、红杉对话ElevenLabs、Lovable:创业先攒够这3类经验
1. ElevenLabs的Mati和Lovable的Anton均建议创业前积累7-8年工作经验,包括在优秀公司任职经历和对用户痛点的深刻理解;
2. 两位CEO分享高速扩张关键:保持"创始人模式"与"管理模式"平衡,团队构成一半内部培养一半外部资深人士,采用996+高强度工作模式;
3. 欧洲创业"困难模式"优劣势:缺乏成熟创业网络和资深高管,但人才优秀且忠诚度高,时区优势可同时对接全球市场。