腾讯研究院AI速递 20251218

腾讯研究院 2025-12-18 00:01

生成式AI

一、OpenAI推出全新ChatGPT Images,sam露腹肌搞宣传

1. OpenAI发布全新图像生成模型驱动的ChatGPT Images,图像生成速度提升4倍,实现精准编辑并保持细节完好,Sam Altman亲自下场"辣眼睛"宣传;

2. 该模型支持添加、删减、组合、融合等多种编辑类型,文本渲染能力增强可处理更密集更小的文字,并可将日常照片转换成电影海报等创意风格;

3. 新版Images功能向所有ChatGPT用户推出,API以GPT Image 1.5形式提供,价格比GPT Image 1降低20%,内置数十种预设滤镜和提示词。

二、3D分割还不够,Meta开源SAM Audio分割一切声音

1. Meta开源音频分割模型SAM Audio,支持文本、视觉和业内首创的时间跨度提示三种方式,可从复杂音频混合中分离任意声音;

2. 核心引擎PE-AV基于Perception Encoder扩展,通过对齐视频帧与音频实现多模态融合,在超过1亿条视频上训练,运行速度快于实时处理(RTF≈0.7);

3. 同步发布SAM Audio-Bench基准和SAM Audio Judge评测模型,在多种音频分离任务上达到SOTA水平,已整合进Segment Anything Playground平台。

三、小米开源新模型 MiMo-V2-Flash,手机性价比卷到 AI

1. 小米发布并开源MiMo-V2-Flash大模型,总参数3090亿活跃参数150亿,采用MIT协议,SWE-bench Verified得分73.4%超越所有开源模型;

2. 核心技术创新包括5比1混合滑动窗口注意力机制(KV缓存减少近6倍)和轻量级多Token预测(推理速度提升2-2.6倍),成本每百万token输入0.1美元输出0.3美元;

3. 后训练采用多教师在线策略蒸馏(MOPD),仅需传统方法1/50算力达到教师性能峰值,支持256k超长上下文窗口,API限时免费开放。

四、腾讯混元世界模型1.5发布,国内首个开放实时体验

1. 腾讯混元世界模型1.5(HY WorldPlay)正式发布并开源,支持文本或图片输入创建实时交互的3D世界,以24FPS速度生成720P高清视频;

2. 核心创新包括重构记忆机制实现分钟级几何一致性、Context Forcing蒸馏方案、基于3D的自回归扩散模型强化学习等,支持导出3D点云;

3. 首次开源业界最系统全面的实时世界模型训练体系,涵盖数据、训练、流式推理部署全链路,已在腾讯混元3D官网开放申请体验。

五、Vidu Agent开启全球内测,一句话复刻爆款分镜级可控

1. Vidu Agent全球开放内测,主打"一键成片"能力,上传产品图和功能信息即可生成可直接投放的广告成片,实现生成即成片、成片即投放;

2. 核心亮点包括分镜级可控力(产品人物场景15-30秒视频保持一致)、精细化编辑力(可随时修改脚本和视频内容)和多语言多场景定制;

3. 支持视频复刻功能上传1分钟内爆款视频和产品图即可批量产出同类高质量视频,首推多模态Agent API为企业提供端到端交付结果。

六、Gemini引入Super Gems,Opal工作流并入,门槛再降

1. 谷歌在Gemini中推出Super Gems功能,将Opal应用与Gems管理器深度整合,原Opal工作流作为预构建Gems直接呈现在Labs区域;

2. 全新Workflow Builder工作流构建器支持描述场景自动生成完整工作流步骤、系统提示词和可视化界面元素,支持文本和语音输入即时预览测试;

3. 工作流可直接生成可分享链接并公开发布,不再依赖Google Drive权限设置,高级用户可一键跳转Opal Builder进行精细编辑。

前沿科技

七、OpenAI发布专家级科学能力评估基准FrontierScience

1. OpenAI推出FrontierScience基准评估专家级科学能力,包含700余道物理化学生物题目,分为奥赛赛道(100道题)和研究赛道(60项原创研究子任务);

2. GPT-5.2在奥赛赛道得分77%、研究赛道得分25%均领先其他前沿模型,Gemini 3 Pro在奥赛赛道与GPT-5.2表现相当(得分76%);

3. 研究赛道采用基于量规的10分制评估架构,关注推理步骤正确性而非仅看最终答案,揭示模型存在推理逻辑错误、专业概念理解不足等问题。

报告观点

八、金句媲美雷军!罗福莉加入小米首次公开演讲揭秘MiMo

1. 原DeepSeek成员罗福莉首次站台小米演讲,解读MiMo-V2-Flash三个核心方向:超强代码和工具调用能力、极致推理效率模型结构、全新后训练范式;

2. 她强调AI进化下个起点必须是能与物理世界交互的模型,算力和数据非最终护城河,真正护城河是科学研究文化与将未知问题转化为可用产品的能力;

3. 提出开源是实现AGI普惠化、确保人类智慧共同进化的唯一路径,小米未来五年研发投入预计超2000亿元,2026年预计投入约400亿元。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
AI推理的“性价比之选”:为什么LPDDR5X正在取代传统方案
是个公司都在用AI Agent,但大家真的用明白了吗??| MEET2026圆桌论坛
英特尔亮相火山引擎原动力大会,全景展示系统化AI加速方案
IO资本赵占祥:绕开HBM依赖,国产AI芯片正在走哪些新路线?丨GAIR 2025
估值7000万美元,真格、IDG押注AI陪伴的另一种可能
WAIC Future Tech 2026:全球科技曝光+合作,资本的下一个掘金点
腾讯研究院AI速递 20251217
追赶谷歌,OpenAI 推出全新旗舰生图模型;折叠屏 iPhone 设计细节曝光;余承东接任华为终端有限公司董事长|极客早知道
小米突然发布新模型:媲美 DeepSeek-V3.2,把手机的性价比卷到 AI
前沿 | 有些人天生不能控制脑机接口,但AI或能“逆天改命”
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号