腾讯研究院AI速递 20251114

生成式AI

一、OpenAI上线 GPT-5.1 系列模型，不仅聪明还更有人情味

1. OpenAI发布GPT-5.1系列模型，OpenAI 表示出色的 AI 不仅要聪明，还要让人与之对话变得愉悦；

2. GPT-5.1 Instant：ChatGPT 最常用的模型，更温暖、更智能，也更善于遵循指令的模型；

3. GPT-5.1 Thinking：高级推理模型，在简单任务上更快，在复杂任务上更持久，也更容易理解。

二、李飞飞 AI「造世神器」一句话打造 3D 世界｜附实测体验

1. 李飞飞团队World Labs正式向全体用户开放3D世界生成模型Marble，支持文本、图像、视频、3D布局等多模态输入方式；

2. Marble首创AI原生编辑工具可对生成世界进行局部替换和结构调整，Chisel功能实现结构与风格分离，同一框架可生成不同风格场景；

3. 提供免费版（7000点数/月）至旗舰版（120000点数/月）四档订阅，支持高斯溅射、三角网格、视频等多种导出格式可直接导入游戏引擎。

三、Anthropic掷500亿美元联手Fluidstack，拟自建AI infra

1. Anthropic宣布与英国云服务商Fluidstack达成500亿美元数据中心合作协议，将在得克萨斯州和纽约州建设专为Anthropic定制的设施；

2. 这是Anthropic首次大手笔投入建设定制化基础设施，符合其预计到2028年实现700亿美元收入和170亿美元正向现金流的内部预测；

3. Fluidstack这家2017年成立的公司已与Meta、Mistral等建立合作，是首批获得谷歌定制TPU的第三方供应商之一。

四、谷歌Gemini Live语音大升级：AI语音进入拟人化2.0时代

1. 谷歌Gemini Live语音功能全面升级，支持实时语速调节、情绪化语气响应、牛仔腔/伦敦腔等风格化语音等五大核心能力；

2. 基于Gemini2.5Flash模型深度优化语音引擎，显著提升对语调、重音、停顿与音高微变的建模能力，能感知用户情绪自动调整语气；

3. 无缝融入Google生态，在Maps中可直接查询无需唤醒，靠近Pixel Watch抬手腕即可无声启动对话，所有语音数据默认不存储。

五、文心5.0正式发布，一手实测2.4万亿参数原生全模态模型

1. 百度文心5.0正式发布，主打原生全模态，最开始就把语言/图像/视频/音频放在同一套自回归统一架构里进行统一训练；

2. 支持全模态输入（文/图/音/视频）+多模态输出（文/图），在LMArena文本排行榜得分1432表现出色；

3. 模型总参数规模超2.4万亿，超稀疏激活参数设计激活比例低于3%，已上线文心一言网页版、文心App及百度千帆平台提供API服务。

六、LiblibAI 上线混元图像3.0，工业级原生多模态，附实测

1. 腾讯推出的工业级原生多模态生图模型混元图像3.0现已支持在LiblibAI上使用，能利用世界知识进行推理准确理解千字级复杂提示词；

2. 该模型具备世界知识推理能力可生成带逻辑的连续性内容，支持中英文文字生成以及超长文本渲染，整体美学接近商业级模型；

3. 在真实光影质感、风格材质、推理生成和文本渲染等多方面表现突出，极致真实质感。

七、成本不到8千美元！新浪微博发布VibeThinker-1.5B模型

1. 新浪微博发布并开源VibeThinker-1.5B模型，仅15亿参数训练成本不足8000美元，在AIME25等顶级数学竞赛基准上击败近万亿参数的DeepSeek-R1；

2. 采用创新的频谱到信号原则（SSP），将SFT和RL目标解耦，SFT阶段追求多样性（Pass@K）、RL阶段追求准确性（Pass@1）；

3. 在NVIDIA H800 GPU上总计算成本不到8000美元，成本效益比达惊人的30到60倍，15亿参数可轻松运行在手机等边缘设备上。

前沿科技

八、拿下奥数银牌的Google AlphaProof，首次公开技术细节

1. Google DeepMind的AlphaProof系统完整论文发表在《自然》杂志，该系统在2024年IMO中获得28分银牌成绩并成功解决被认为最难的第六题；

2. 核心创新在于将Lean形式化语言与强化学习深度结合，通过自动形式化从100万自然语言数学命题生成8000万个Lean形式化语句；

3. 采用"测试时强化学习"（TTRL）技术，利用语言模型生成目标定理众多变体形成学习课程，通过解决较容易变体逐步攻克复杂问题。

报告观点

九、专属Coding的新一代Arena榜单，有国产模型登上榜首

1. LMArena发布新世代大模型编码评估系统Code Arena，从底层重构评估代码性能表现、交互自然度和设计意图忠实程度的动态过程；

2. 国产大模型智谱GLM-4.6在新榜单中登上榜首，与Claude、GPT-5并列排名第一，超越Gemini和Grok；

3. 根据Cline遥测数据，GLM-4.6的代码修改成功率达94.9%，与Claude Sonnet 4.5的96.2%差距已缩小到基点级别，证明开源模型正在迅速追赶闭源模型。