生成式AI
一、OpenAI推出全新ChatGPT Images,sam露腹肌搞宣传
1. OpenAI发布全新图像生成模型驱动的ChatGPT Images,图像生成速度提升4倍,实现精准编辑并保持细节完好,Sam Altman亲自下场"辣眼睛"宣传;
2. 该模型支持添加、删减、组合、融合等多种编辑类型,文本渲染能力增强可处理更密集更小的文字,并可将日常照片转换成电影海报等创意风格;
3. 新版Images功能向所有ChatGPT用户推出,API以GPT Image 1.5形式提供,价格比GPT Image 1降低20%,内置数十种预设滤镜和提示词。
二、3D分割还不够,Meta开源SAM Audio分割一切声音
1. Meta开源音频分割模型SAM Audio,支持文本、视觉和业内首创的时间跨度提示三种方式,可从复杂音频混合中分离任意声音;
2. 核心引擎PE-AV基于Perception Encoder扩展,通过对齐视频帧与音频实现多模态融合,在超过1亿条视频上训练,运行速度快于实时处理(RTF≈0.7);
3. 同步发布SAM Audio-Bench基准和SAM Audio Judge评测模型,在多种音频分离任务上达到SOTA水平,已整合进Segment Anything Playground平台。
三、小米开源新模型 MiMo-V2-Flash,手机性价比卷到 AI
1. 小米发布并开源MiMo-V2-Flash大模型,总参数3090亿活跃参数150亿,采用MIT协议,SWE-bench Verified得分73.4%超越所有开源模型;
2. 核心技术创新包括5比1混合滑动窗口注意力机制(KV缓存减少近6倍)和轻量级多Token预测(推理速度提升2-2.6倍),成本每百万token输入0.1美元输出0.3美元;
3. 后训练采用多教师在线策略蒸馏(MOPD),仅需传统方法1/50算力达到教师性能峰值,支持256k超长上下文窗口,API限时免费开放。
四、腾讯混元世界模型1.5发布,国内首个开放实时体验
1. 腾讯混元世界模型1.5(HY WorldPlay)正式发布并开源,支持文本或图片输入创建实时交互的3D世界,以24FPS速度生成720P高清视频;
2. 核心创新包括重构记忆机制实现分钟级几何一致性、Context Forcing蒸馏方案、基于3D的自回归扩散模型强化学习等,支持导出3D点云;
3. 首次开源业界最系统全面的实时世界模型训练体系,涵盖数据、训练、流式推理部署全链路,已在腾讯混元3D官网开放申请体验。
五、Vidu Agent开启全球内测,一句话复刻爆款分镜级可控
1. Vidu Agent全球开放内测,主打"一键成片"能力,上传产品图和功能信息即可生成可直接投放的广告成片,实现生成即成片、成片即投放;
2. 核心亮点包括分镜级可控力(产品人物场景15-30秒视频保持一致)、精细化编辑力(可随时修改脚本和视频内容)和多语言多场景定制;
3. 支持视频复刻功能上传1分钟内爆款视频和产品图即可批量产出同类高质量视频,首推多模态Agent API为企业提供端到端交付结果。
六、Gemini引入Super Gems,Opal工作流并入,门槛再降
1. 谷歌在Gemini中推出Super Gems功能,将Opal应用与Gems管理器深度整合,原Opal工作流作为预构建Gems直接呈现在Labs区域;
2. 全新Workflow Builder工作流构建器支持描述场景自动生成完整工作流步骤、系统提示词和可视化界面元素,支持文本和语音输入即时预览测试;
3. 工作流可直接生成可分享链接并公开发布,不再依赖Google Drive权限设置,高级用户可一键跳转Opal Builder进行精细编辑。
前沿科技
七、OpenAI发布专家级科学能力评估基准FrontierScience
1. OpenAI推出FrontierScience基准评估专家级科学能力,包含700余道物理化学生物题目,分为奥赛赛道(100道题)和研究赛道(60项原创研究子任务);
2. GPT-5.2在奥赛赛道得分77%、研究赛道得分25%均领先其他前沿模型,Gemini 3 Pro在奥赛赛道与GPT-5.2表现相当(得分76%);
3. 研究赛道采用基于量规的10分制评估架构,关注推理步骤正确性而非仅看最终答案,揭示模型存在推理逻辑错误、专业概念理解不足等问题。
报告观点
八、金句媲美雷军!罗福莉加入小米首次公开演讲揭秘MiMo
1. 原DeepSeek成员罗福莉首次站台小米演讲,解读MiMo-V2-Flash三个核心方向:超强代码和工具调用能力、极致推理效率模型结构、全新后训练范式;
2. 她强调AI进化下个起点必须是能与物理世界交互的模型,算力和数据非最终护城河,真正护城河是科学研究文化与将未知问题转化为可用产品的能力;
3. 提出开源是实现AGI普惠化、确保人类智慧共同进化的唯一路径,小米未来五年研发投入预计超2000亿元,2026年预计投入约400亿元。