腾讯研究院AI速递 20260629

生成式AI

一、OpenAI发布GPT-5.6预览版三档模型,测评超Claude

1.OpenAI推出迄今最强模型GPT-5.6预览版，分旗舰版Sol、均衡版Terra、高性价比版Luna三档，Terra性能比肩GPT-5.5但价格仅一半；

2.Sol在编程、生物、网安基准全面超越Claude Fable 5，ExploitBench仅用三分之一token即对标Mythos，但METR发现其作弊率偏高致评分不稳；

3.OpenAI投入超70万A100小时做自动化红队演练，配备多层安全防护，因美政府审查目前仅向部分企业有限开放。

二、苹果Vision Pro硬件负责人Paul Meade跳槽OpenAI

1.苹果Vision Pro与智能眼镜硬件副总裁Paul Meade离职加盟OpenAI，将负责下一代AI原生硬件研发，他在苹果工作超15年深度参与多个未来硬件项目；

2.OpenAI已聚齐Jony Ive、Tang Tan、Evans Hankey等苹果黄金时代核心成员，覆盖工业设计、产品开发、硬件工程三大能力，去年还以65亿美元收购io；

3.Meade离职源于苹果硬件部门重组被降级及Vision Pro战略调整，AI硬件竞争已进入顶级人才争夺阶段。

三、DeepSeek新论文DSpark，10个概念读懂推测解码

1.梁文锋署名的DeepSeek新论文DSpark单用户速度提升85%、高并发吞吐翻4倍，Fireworks CTO将其拆解为从GPU访存到在线调度的10个核心概念；

2.DSpark融合DFlash并行骨干与Eagle串行头，用马尔可夫头低成本修正后缀衰减，平均接受长度比Eagle3高26%-31%，两层即可胜过五层DFlash；

3.方案实现算法、调度、硬件适配三位一体闭环，配套DeepSpec全栈训练库已开源，GitHub斩获1.4k星标。

四、四大模型对战《文明VI》，Claude核平法国仍落败

1.前英国首相府数据科学家搭建76个MCP工具，将Claude、GPT、Gemini等四大模型扔进《文明VI》，AI仅靠纯文本感知世界进行多线程决策；

2.最魔幻一局中Claude花50回合造核弹夷平法国文化重镇，却因全程紧盯文化威胁忽视外交，最终以18比20惜败；

3.AI仅1%-2%时间主动检查全局陷入感知盲区，且写下的计划仅48%-66%被执行，暴露感知与执行两大架构工程瓶颈。

报告观点

五、Dwarkesh Patel：下一代AI范式或靠真实干活炼成

1.播客主Dwarkesh指出当前RLVR路线依赖可验证、可大规模刷题的任务，代码数学进步快但创业、诉讼等真实世界任务因无法重置复制难以纳入；

2.他认为关键在于将部署后的真实经验蒸馏回模型权重，而非停留在上下文学习，提出OPSD自蒸馏与dreaming构造模拟环境两条路径；

3.设想2027-2028年训练流程将从发布前训练转向发布后持续学习，每次真实交互、失败和修正都成为下一轮能力提升的养料。

六、微软年度AI职场报告：员工已就绪，组织还没跟上

1.微软《Work Trend Index》调研全球10市场2万名用户，58%称AI助其产出一年前无法完成的成果，中国高达72%，AI高手群体达80%；

2.报告核心是"转型悖论"，员工已用AI重塑工作流，但绩效考核仍走老路，组织环境对AI价值的影响占67%是个人心态的两倍；

3.破局之道在于老板亲自示范及搭建沉淀经验的自学习系统，领导公开分享用法可使员工AI价值感知提升17个百分点。

七、Anthropic逐小时数据观察，照出打工人隐秘24小时

1.Anthropic经济指数第六份报告首次将采样精度拉到逐小时，呈现凌晨5点问睡眠、早7点看新闻、下午6点查菜谱的人类生活节奏心电图；

2.个人用途占比工作日约35%周末跳至近50%，93%对话产生交付物，创意写作超80%为个人用，博客文章81%为工作用；

3.高薪职业对话消耗更多token，营销经理是编辑约2.5倍，且高薪用户交互更深，Claude回答阅读水平平均高于用户提问约1年教育年限。

八、翁荔时隔13个月博客上新《谨慎对待Scaling Law》

1.翁荔时隔13个月更新博客发表《谨慎对待Scaling Law》，系统梳理幂律预测、计算最优分配原理及数据限制下外推困难等内容；

2.文章详解Kaplan与Chinchilla分歧根源，前者因小模型实验及嵌入层参数处理高估了最优模型规模，后者主张模型与数据应同步翻倍；

3.她强调Scaling law拟合对参数计算、精度舍入等流程选择异常敏感，数据受限区域的重复训练建模仍缺乏理论支撑。

👇加入AGI数据库，AI智能问答

👇订阅下方合集，获取每日推送