生成式AI
一、OpenAI发布GPT-5.6预览版三档模型,测评超Claude
1.OpenAI推出迄今最强模型GPT-5.6预览版,分旗舰版Sol、均衡版Terra、高性价比版Luna三档,Terra性能比肩GPT-5.5但价格仅一半;
2.Sol在编程、生物、网安基准全面超越Claude Fable 5,ExploitBench仅用三分之一token即对标Mythos,但METR发现其作弊率偏高致评分不稳;
3.OpenAI投入超70万A100小时做自动化红队演练,配备多层安全防护,因美政府审查目前仅向部分企业有限开放。
二、苹果Vision Pro硬件负责人Paul Meade跳槽OpenAI
1.苹果Vision Pro与智能眼镜硬件副总裁Paul Meade离职加盟OpenAI,将负责下一代AI原生硬件研发,他在苹果工作超15年深度参与多个未来硬件项目;
2.OpenAI已聚齐Jony Ive、Tang Tan、Evans Hankey等苹果黄金时代核心成员,覆盖工业设计、产品开发、硬件工程三大能力,去年还以65亿美元收购io;
3.Meade离职源于苹果硬件部门重组被降级及Vision Pro战略调整,AI硬件竞争已进入顶级人才争夺阶段。
三、DeepSeek新论文DSpark,10个概念读懂推测解码
1.梁文锋署名的DeepSeek新论文DSpark单用户速度提升85%、高并发吞吐翻4倍,Fireworks CTO将其拆解为从GPU访存到在线调度的10个核心概念;
2.DSpark融合DFlash并行骨干与Eagle串行头,用马尔可夫头低成本修正后缀衰减,平均接受长度比Eagle3高26%-31%,两层即可胜过五层DFlash;
3.方案实现算法、调度、硬件适配三位一体闭环,配套DeepSpec全栈训练库已开源,GitHub斩获1.4k星标。
四、四大模型对战《文明VI》,Claude核平法国仍落败
1.前英国首相府数据科学家搭建76个MCP工具,将Claude、GPT、Gemini等四大模型扔进《文明VI》,AI仅靠纯文本感知世界进行多线程决策;
2.最魔幻一局中Claude花50回合造核弹夷平法国文化重镇,却因全程紧盯文化威胁忽视外交,最终以18比20惜败;
3.AI仅1%-2%时间主动检查全局陷入感知盲区,且写下的计划仅48%-66%被执行,暴露感知与执行两大架构工程瓶颈。
报告观点
五、Dwarkesh Patel:下一代AI范式或靠真实干活炼成
1.播客主Dwarkesh指出当前RLVR路线依赖可验证、可大规模刷题的任务,代码数学进步快但创业、诉讼等真实世界任务因无法重置复制难以纳入;
2.他认为关键在于将部署后的真实经验蒸馏回模型权重,而非停留在上下文学习,提出OPSD自蒸馏与dreaming构造模拟环境两条路径;
3.设想2027-2028年训练流程将从发布前训练转向发布后持续学习,每次真实交互、失败和修正都成为下一轮能力提升的养料。
六、微软年度AI职场报告:员工已就绪,组织还没跟上
1.微软《Work Trend Index》调研全球10市场2万名用户,58%称AI助其产出一年前无法完成的成果,中国高达72%,AI高手群体达80%;
2.报告核心是"转型悖论",员工已用AI重塑工作流,但绩效考核仍走老路,组织环境对AI价值的影响占67%是个人心态的两倍;
3.破局之道在于老板亲自示范及搭建沉淀经验的自学习系统,领导公开分享用法可使员工AI价值感知提升17个百分点。
七、Anthropic逐小时数据观察,照出打工人隐秘24小时
1.Anthropic经济指数第六份报告首次将采样精度拉到逐小时,呈现凌晨5点问睡眠、早7点看新闻、下午6点查菜谱的人类生活节奏心电图;
2.个人用途占比工作日约35%周末跳至近50%,93%对话产生交付物,创意写作超80%为个人用,博客文章81%为工作用;
3.高薪职业对话消耗更多token,营销经理是编辑约2.5倍,且高薪用户交互更深,Claude回答阅读水平平均高于用户提问约1年教育年限。
八、翁荔时隔13个月博客上新《谨慎对待Scaling Law》
1.翁荔时隔13个月更新博客发表《谨慎对待Scaling Law》,系统梳理幂律预测、计算最优分配原理及数据限制下外推困难等内容;
2.文章详解Kaplan与Chinchilla分歧根源,前者因小模型实验及嵌入层参数处理高估了最优模型规模,后者主张模型与数据应同步翻倍;
3.她强调Scaling law拟合对参数计算、精度舍入等流程选择异常敏感,数据受限区域的重复训练建模仍缺乏理论支撑。
👇加入AGI数据库,AI智能问答

👇订阅下方合集,获取每日推送