OpenAI、谷歌新模型一夜刷屏,压力给到DeepSeek

科技头版 2025-08-06 18:09

资讯配图

资讯配图


新一轮中美AI“装备竞赛”开始了。

资讯配图
出品 | 科技头版    作者 | 刘峰

资讯配图

巨头齐发,谷歌先行亮剑

昨夜AI圈彻底炸锅了!

谷歌、OpenAI、Anthropic三大巨头在不到24小时内接连甩出王炸,引发了全球科技界的广泛关注。

这场大乱斗的导火索,竟是谷歌DeepMind凌晨突然祭出的「创世引擎」——Genie 3

这个被外媒称为「ChatGPT时刻」的世界模型,彻底颠覆了人类对AI的认知。

资讯配图

图源:X

Genie 3最引人注目的特点之一就是它的实时交互能力。与以往的模型不同,Genie 3能够生成“前所未有的丰富交互环境”,并且是首个支持实时交互的世界模型。

例如,你只要输入「冰雪奇缘中的魔法森林」,Genie 3就能在2秒内生成一个720P、24帧/秒的可交互3D世界,你甚至能指挥AI角色在森林中采摘发光蘑菇,或者召唤一场彩虹雨。

此外,Genie 3还首次加入了“可提示的世界事件”和“视觉记忆”等关键特性,这些特性使得模型能够根据用户的输入动态地改变世界的状态

意味着用户可以在生成的动态世界中多视角自由探索,并且即使多次往返,同一地点的同一物品细节仍能保持一致。

这种“记忆力”对于模型来说是一项重大技术突破,也为未来的游戏机器人训练以及自动驾驶系统等应用提供了更广阔的可能性。

来源:谷歌官方演示视频

从技术细节上看,Genie 3是一个拥有110亿参数的模型,其训练数据来源极为广泛,不仅包括了海量的互联网视频,还涵盖了现有的3D环境数据集。

模型的一大创新在于其内置的“潜在行动模型”Latent Action Model),该机制允许模型推断出帧与帧之间的潜在行动,从而赋予用户通过简单指令控制生成世界中角色的能力。

谷歌DeepMind团队表示,此类世界模型是通往通用人工智能(AGI)道路上的一个发展方向,因为它能为AI代理提供大量且多样化的模拟环境用于训练和测试。

目前,Genie 3仍处于研究阶段,仅提供给部分学术研究人员和创作者使用。

资讯配图

OpenAI时隔六年再次开源

在谷歌之后,OpenAI也发布了两款新的开源模型,这是该公司自GPT-2以来,时隔数年再次发布权重开源的模型。

OpenAI此次发布了gpt-oss-120bgpt-oss-20b两款模型,均采用了允许商业用途的Apache 2.0许可证。

其中,gpt-oss-120b模型拥有1170亿的庞大参数规模,但巧妙地运用了专家混合(MoE)架构,在处理每个数据点时仅激活约51亿个参数。

这种设计极大地降低了推理时的计算成本和硬件门槛,使其能够在单张80GB显存的GPU上高效运行,其公布的性能指标与OpenAI内部的o4-mini模型相当。

资讯配图

图源:ifanr

另一款gpt-oss-20b模型则拥有210亿参数(36亿活跃参数),专为消费级硬件进行了优化,可在16GB内存的设备上运行,性能对标o3-mini模型。

这两款模型均支持网络浏览、代码执行等功能,为开发者提供了在本地环境部署和微调高性能模型的可能。

OpenAI CEO山姆·奥特曼Sam Altman介绍,gpt-oss能在高端笔记本上运行还有一个更小的版本(20b),可以在手机上运行,他的激动之情溢于言表。

资讯配图

图源:X

此外,OpenAI还同步开源了其使用的分词器(tokenizer),名为o200k_harmony的分词器比OpenAI o4-mini和GPT-4o所使用的分词器更加全面和先进,能够让模型在相同上下文长度下处理更多内容,对于长文本处理非常有利。

API中的OpenAI o系列推理模型类似,gpt-oss-120b和gpt-oss-20b都支持低、中、高三种推理强度设置,开发者可以根据具体使用场景和延迟需求,在性能与响应速度之间进行灵活权衡。

例如,有网友在配备M3 Pro芯片18GB内存的设备上测试了gpt-oss-20b模型,让其一次性完成一个经典贪吃蛇游戏的编写,生成速度达到23.72 token/秒,并且未进行任何量化处理。

资讯配图

图源:智东西

与此同时,Anthropic公司也发布了Claude Opus 4.1模型。

相比较今年5月推出的Claude 4系列模型,Claude Opus 4.1主要改进了编码、推理和执行指令的能力。

SWE-bench Verified测试中,其编码性能提升到了74.5%,在深度研究和数据分析技能,尤其是细节追踪和代理搜索方面表现得更加出色。

在多文件代码重构方面,它能够精确地在大型代码库中定位并修正错误,不会进行不必要的调整或引入新的错误,深受开发者喜爱。

资讯配图

图源:ifanr

资讯配图
全球热议,沸腾期待

谷歌Genie 3和OpenAI开源模型的发布,让国外AI圈瞬间进入了狂欢时刻。一时间,外网各大平台上都是关于这些新模型的讨论。

有网友对谷歌Genie 3的3D生成能力赞不绝口,称其“仿佛让科幻电影中的场景变成了现实,以后每个人都可以轻松成为3D世界的创造者”。

还有人感慨:“谷歌这次真的是突破了界限,Genie 3可能会彻底改变多个行业的工作方式,未来的虚拟世界将会因为它而变得更加丰富多彩。”

资讯配图

图源:Reddit

对于OpenAI的开源模型,外网网友也给予了高度关注。

不少开发者兴奋地表示:“OpenAI终于开源了,而且还是性能如此强大的模型,这对于我们来说是一个绝佳的机会,可以基于它们开发出更多有趣、有用的应用。”

也有一些技术爱好者开始深入分析模型的技术架构和性能数据,他们在论坛上热烈讨论着gpt-oss系列模型的优势与潜力,甚至已经开始尝试将其应用到自己的项目中,探索各种可能的创新玩法。

面对国外AI巨头们的激烈竞争和新模型的不断涌现,国内AI玩家们也愈发期待DeepSeek R2的上线及表现。

不过,据此前周鸿祎透露,梁文锋现在一门心思想搞AGI

这意味着DeepSeek R2如果还只是一个单一模型,那目前团队重心不在它身上,它的上线时间只会比我们想的更晚;

而如果梁文锋想在DeepSeek R2上直接实现智能体或者AGI的雏形,那他的研发必定很艰巨,上线的时间同样不会很快。

资讯配图

图源:小红书

当然,即使没有DeepSeek R2,国内近期也有很多优秀的模型迎来了更新,展现出了国产AI的强大实力。

例如腾讯近期开源了全新的混元大模型系列,提供了从5亿、12亿、36亿到70亿等不同参数规模的模型版本,以适应从轻量级端侧应用到服务器级别任务的不同需求。

该系列模型专为Agent任务进行了优化,并且支持256k的长上下文窗口,这意味着模型可以一次性处理数十万字的文档,适用于长文本分析、知识库问答等复杂场景。

还有阿里巴巴的通义千问系列也在持续迭代升级。

7月,通义千问推出了Qwen3推理模型,原生支持256K上下文处理能力,能够应对更长文本和构建更深的推理链。

8月,又推出了图像生成基础模型Qwen-Image,主打复杂文本渲染能力,能够在不同场景中准确地生成不同语种、风格的文字,甚至可以写毛笔字书法,或是直接生成带有文本和图像的PPT页面,展现了强大的多模态能力。

AI独角兽月之暗面也是在沉寂许久后突然推出数学证明专精模型Kimina-Prover-72B其基础模型Kimi-K2跻身Chatbot Arena全球前五

总而言之,全球人工智能的霸权之争已然进入一个新的高潮。

欧美巨头以其前沿的技术突破引领方向,而中国的AI力量则以惊人的速度和创新的姿态紧追不舍,在部分领域甚至开始展现出独特的优势。

未来,我们有理由相信,AI 将会给我们的生活和社会带来更多意想不到的变化,让我们一起拭目以待吧。

电商卖家精英群,限时免费开放
仅限淘系、京东、拼多多、快手、抖音等平台卖家入群
资讯配图

铁粉推荐

华为大模型抄袭阿里事件反转,真相扑朔迷离
小米YU7被疯狂抹黑,雷军到底动了谁的蛋糕

华为最后一界尚界来了,价格杀进20万,行业大为震惊

刘强东造车成功,行业大为震惊

李彦宏打破质疑,百度AI彻底站起来了


关注,跟主编交个朋友 ↓↓↓
商务合作请联系微信/电话:18565716396

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
百镜出道,C位依旧:WAIC顶流Rokid是怎么做到的?
学会通知丨中国人工智能学会-华为AI算力加速计划项目申报通知
新材料革命来了!MIT/杜克大学联手用AI设计环保塑料,让强度飙升400%,这个意想不到的分子结构由AI发现
号外号外!IPBrain平台企业账号即将上线!敬请关注!
一人公司、芯片后门、OpenAI为何开源…周鸿祎这场对话干货满满
【AI】地球版ChatGPT爆诞!谷歌AI64维压缩人类星球,10米级「上帝视角」秒开
黄峥彻底觉醒,拼多多开始大搞AI
韩国“AI国家队”名单曝光
两大AI视频独角兽竞逐新融资!投前估值360亿、230亿
一日三连发!OpenAI踏上开源路,Anthropic抢占AI编码高地,谷歌拿出最强世界模型
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号