腾讯研究院AI速递 20251218

生成式AI

一、OpenAI推出全新ChatGPT Images，sam露腹肌搞宣传

1. OpenAI发布全新图像生成模型驱动的ChatGPT Images，图像生成速度提升4倍，实现精准编辑并保持细节完好，Sam Altman亲自下场"辣眼睛"宣传；

2. 该模型支持添加、删减、组合、融合等多种编辑类型，文本渲染能力增强可处理更密集更小的文字，并可将日常照片转换成电影海报等创意风格；

3. 新版Images功能向所有ChatGPT用户推出，API以GPT Image 1.5形式提供，价格比GPT Image 1降低20%，内置数十种预设滤镜和提示词。

二、3D分割还不够，Meta开源SAM Audio分割一切声音

1. Meta开源音频分割模型SAM Audio，支持文本、视觉和业内首创的时间跨度提示三种方式，可从复杂音频混合中分离任意声音；

2. 核心引擎PE-AV基于Perception Encoder扩展，通过对齐视频帧与音频实现多模态融合，在超过1亿条视频上训练，运行速度快于实时处理（RTF≈0.7）；

3. 同步发布SAM Audio-Bench基准和SAM Audio Judge评测模型，在多种音频分离任务上达到SOTA水平，已整合进Segment Anything Playground平台。

三、小米开源新模型 MiMo-V2-Flash，手机性价比卷到 AI

1. 小米发布并开源MiMo-V2-Flash大模型，总参数3090亿活跃参数150亿，采用MIT协议，SWE-bench Verified得分73.4%超越所有开源模型；

2. 核心技术创新包括5比1混合滑动窗口注意力机制（KV缓存减少近6倍）和轻量级多Token预测（推理速度提升2-2.6倍），成本每百万token输入0.1美元输出0.3美元；

3. 后训练采用多教师在线策略蒸馏（MOPD），仅需传统方法1/50算力达到教师性能峰值，支持256k超长上下文窗口，API限时免费开放。

四、腾讯混元世界模型1.5发布，国内首个开放实时体验

1. 腾讯混元世界模型1.5（HY WorldPlay）正式发布并开源，支持文本或图片输入创建实时交互的3D世界，以24FPS速度生成720P高清视频；

2. 核心创新包括重构记忆机制实现分钟级几何一致性、Context Forcing蒸馏方案、基于3D的自回归扩散模型强化学习等，支持导出3D点云；

3. 首次开源业界最系统全面的实时世界模型训练体系，涵盖数据、训练、流式推理部署全链路，已在腾讯混元3D官网开放申请体验。

五、Vidu Agent开启全球内测，一句话复刻爆款分镜级可控

1. Vidu Agent全球开放内测，主打"一键成片"能力，上传产品图和功能信息即可生成可直接投放的广告成片，实现生成即成片、成片即投放；

2. 核心亮点包括分镜级可控力（产品人物场景15-30秒视频保持一致）、精细化编辑力（可随时修改脚本和视频内容）和多语言多场景定制；

3. 支持视频复刻功能上传1分钟内爆款视频和产品图即可批量产出同类高质量视频，首推多模态Agent API为企业提供端到端交付结果。

六、Gemini引入Super Gems，Opal工作流并入，门槛再降

1. 谷歌在Gemini中推出Super Gems功能，将Opal应用与Gems管理器深度整合，原Opal工作流作为预构建Gems直接呈现在Labs区域；

2. 全新Workflow Builder工作流构建器支持描述场景自动生成完整工作流步骤、系统提示词和可视化界面元素，支持文本和语音输入即时预览测试；

3. 工作流可直接生成可分享链接并公开发布，不再依赖Google Drive权限设置，高级用户可一键跳转Opal Builder进行精细编辑。

前沿科技

七、OpenAI发布专家级科学能力评估基准FrontierScience

1. OpenAI推出FrontierScience基准评估专家级科学能力，包含700余道物理化学生物题目，分为奥赛赛道（100道题）和研究赛道（60项原创研究子任务）；

2. GPT-5.2在奥赛赛道得分77%、研究赛道得分25%均领先其他前沿模型，Gemini 3 Pro在奥赛赛道与GPT-5.2表现相当（得分76%）；

3. 研究赛道采用基于量规的10分制评估架构，关注推理步骤正确性而非仅看最终答案，揭示模型存在推理逻辑错误、专业概念理解不足等问题。

报告观点

八、金句媲美雷军！罗福莉加入小米首次公开演讲揭秘MiMo

1. 原DeepSeek成员罗福莉首次站台小米演讲，解读MiMo-V2-Flash三个核心方向：超强代码和工具调用能力、极致推理效率模型结构、全新后训练范式；

2. 她强调AI进化下个起点必须是能与物理世界交互的模型，算力和数据非最终护城河，真正护城河是科学研究文化与将未知问题转化为可用产品的能力；

3. 提出开源是实现AGI普惠化、确保人类智慧共同进化的唯一路径，小米未来五年研发投入预计超2000亿元，2026年预计投入约400亿元。