生成式AI
一、OpenAI上线 GPT-5.1 系列模型,不仅聪明还更有人情味
1. OpenAI发布GPT-5.1系列模型,OpenAI 表示出色的 AI 不仅要聪明,还要让人与之对话变得愉悦;
2. GPT-5.1 Instant:ChatGPT 最常用的模型,更温暖、更智能,也更善于遵循指令的模型;
3. GPT-5.1 Thinking:高级推理模型,在简单任务上更快,在复杂任务上更持久,也更容易理解。
二、李飞飞 AI「造世神器」一句话打造 3D 世界|附实测体验
1. 李飞飞团队World Labs正式向全体用户开放3D世界生成模型Marble,支持文本、图像、视频、3D布局等多模态输入方式;
2. Marble首创AI原生编辑工具可对生成世界进行局部替换和结构调整,Chisel功能实现结构与风格分离,同一框架可生成不同风格场景;
3. 提供免费版(7000点数/月)至旗舰版(120000点数/月)四档订阅,支持高斯溅射、三角网格、视频等多种导出格式可直接导入游戏引擎。
三、Anthropic掷500亿美元联手Fluidstack,拟自建AI infra
1. Anthropic宣布与英国云服务商Fluidstack达成500亿美元数据中心合作协议,将在得克萨斯州和纽约州建设专为Anthropic定制的设施;
2. 这是Anthropic首次大手笔投入建设定制化基础设施,符合其预计到2028年实现700亿美元收入和170亿美元正向现金流的内部预测;
3. Fluidstack这家2017年成立的公司已与Meta、Mistral等建立合作,是首批获得谷歌定制TPU的第三方供应商之一。
四、谷歌Gemini Live语音大升级:AI语音进入拟人化2.0时代
1. 谷歌Gemini Live语音功能全面升级,支持实时语速调节、情绪化语气响应、牛仔腔/伦敦腔等风格化语音等五大核心能力;
2. 基于Gemini2.5Flash模型深度优化语音引擎,显著提升对语调、重音、停顿与音高微变的建模能力,能感知用户情绪自动调整语气;
3. 无缝融入Google生态,在Maps中可直接查询无需唤醒,靠近Pixel Watch抬手腕即可无声启动对话,所有语音数据默认不存储。
五、文心5.0正式发布,一手实测2.4万亿参数原生全模态模型
1. 百度文心5.0正式发布,主打原生全模态,最开始就把语言/图像/视频/音频放在同一套自回归统一架构里进行统一训练;
2. 支持全模态输入(文/图/音/视频)+多模态输出(文/图),在LMArena文本排行榜得分1432表现出色;
3. 模型总参数规模超2.4万亿,超稀疏激活参数设计激活比例低于3%,已上线文心一言网页版、文心App及百度千帆平台提供API服务。
六、LiblibAI 上线混元图像3.0,工业级原生多模态,附实测
1. 腾讯推出的工业级原生多模态生图模型混元图像3.0现已支持在LiblibAI上使用,能利用世界知识进行推理准确理解千字级复杂提示词;
2. 该模型具备世界知识推理能力可生成带逻辑的连续性内容,支持中英文文字生成以及超长文本渲染,整体美学接近商业级模型;
3. 在真实光影质感、风格材质、推理生成和文本渲染等多方面表现突出,极致真实质感。
七、成本不到8千美元!新浪微博发布VibeThinker-1.5B模型
1. 新浪微博发布并开源VibeThinker-1.5B模型,仅15亿参数训练成本不足8000美元,在AIME25等顶级数学竞赛基准上击败近万亿参数的DeepSeek-R1;
2. 采用创新的频谱到信号原则(SSP),将SFT和RL目标解耦,SFT阶段追求多样性(Pass@K)、RL阶段追求准确性(Pass@1);
3. 在NVIDIA H800 GPU上总计算成本不到8000美元,成本效益比达惊人的30到60倍,15亿参数可轻松运行在手机等边缘设备上。
前沿科技
八、拿下奥数银牌的Google AlphaProof,首次公开技术细节
1. Google DeepMind的AlphaProof系统完整论文发表在《自然》杂志,该系统在2024年IMO中获得28分银牌成绩并成功解决被认为最难的第六题;
2. 核心创新在于将Lean形式化语言与强化学习深度结合,通过自动形式化从100万自然语言数学命题生成8000万个Lean形式化语句;
3. 采用"测试时强化学习"(TTRL)技术,利用语言模型生成目标定理众多变体形成学习课程,通过解决较容易变体逐步攻克复杂问题。
报告观点
九、专属Coding的新一代Arena榜单,有国产模型登上榜首
1. LMArena发布新世代大模型编码评估系统Code Arena,从底层重构评估代码性能表现、交互自然度和设计意图忠实程度的动态过程;
2. 国产大模型智谱GLM-4.6在新榜单中登上榜首,与Claude、GPT-5并列排名第一,超越Gemini和Grok;
3. 根据Cline遥测数据,GLM-4.6的代码修改成功率达94.9%,与Claude Sonnet 4.5的96.2%差距已缩小到基点级别,证明开源模型正在迅速追赶闭源模型。