最近的发布会一点不比前几天少,老狐这段时间真是没少当空中飞人...今天人在北京,参加的是火山引擎 FOGCE 原动力大会,发布了不少好东西:Seedance 2.5 模型,豆包大模型 2.1Pro 等等...两个小时老狐实际听下来,最大的感受就一个字:密。不是那种 PPT 画饼式的密,是那种“你还在消化上一个、下一个已经端上来了”的密。这不,刚从会场出来,趁热乎,第一时间给大伙把重点捋一遍。谭待开场,先亮家底火山引擎总裁谭待第一个上台,没废话,直接甩数据。豆包大模型的日均 Tokens 调用量干到了 180 万亿。什么概念呢?两年前刚发布的时候,这个数连现在的零头都不到,增长超过了 1500 倍。光过去一年,又翻了 10 倍。看来用豆包大模型的人和场景,正在以肉眼可见的速度膨胀,而且没有任何要停的意思。还有一个数据老狐印象很深:国内公有云 MaaS 市场,火山引擎占了49.5%。也就是说,中国企业每消耗两个大模型 Token,就有一个跑在火山引擎上。谭待还提了一嘴“万亿 Tokens 俱乐部”,年度累计调用超万亿的企业。去年12 月只有 100 家,半年过去,这个数翻到了 200 多。这些企业基本覆盖了你能想到的主流行业:金融、教育、制造、政企。字节跳动 CEO 梁汝波录了一段视频,说了句大白话:“以前企业都在问要不要做 AI,现在大家问的是怎么做 AI。”他把字节今年的关键词定成了“勇攀高峰”,原话是:攀登 AI 高峰是字节当下最重要的事。字节把压箱底的掏出来了信息量最大的部分,是新旗舰模型豆包 2.1 Pro 的发布。先看 Coding。谭待给了三个硬核评测成绩:Terminal Bench 2.1,业界公认最贴近真实开发终端的评测,豆包 2.1 Pro 跟 OpenAI 的 Opus 4.7 基本打平,全球第一梯队。Scicode,科学计算代码评测,覆盖五大学科,59.8 分,压过了 GPT 5.5 和 Opus 4.7。NL2Repo-Bench,仓库级代码生成,从一份数学文档出发从零生成整个仓库,47 分,明显超过 GPT 5.5 和 Gemini 3.1。以前大模型写代码,写个小函数还行,一碰到真实工程就崩。这次豆包 2.1 Pro 是真的能扛工程级任务了。谭待现场放了个 Demo,让模型连续跑了 18 个小时,完成了一个芯片 RTL 设计的完整流程:6 个核心模块、1300 多行代码,还自己跑通了仿真测试。放在以前,这事得3到5个资深工程师干好几周。Agent 能力也拉满了。GDPVal 是 OpenAI 发布的真实世界企业任务评测,覆盖 9 大行业 14 种职业,豆包 2.1 Pro 国内第一。MCP-Atlas 测的是 AI Agent 调用真实工具的能力,包含 30 个 MCP Server、220 个工具、1000 多个任务,豆包 2.1 Pro 全面超过了 Opus 4.7 和 GPT 5.5。多模态理解本来就是豆包的强项。这回在视频理解的两个权威榜单 Tomato 和 LVBench 上,都把 Gemini 3.1 甩在了后面。GUI Agent 方面,在桌面端操作能力上接近 Opus 4.7,移动端多项 SOTA。但老狐觉得最狠的不是性能,是价格。豆包 2.1 Pro 百万 Tokens 统一定价:输入 6 块,输出 30 块,缓存命中只要 1 块 2。谭待直接拿 OpenAI 做对比:综合使用成本比 Opus 4.6 到 4.8 系列低了接近 80%。简单说就是:性能追上了,价格只要对手的两折。这还没完,谭待还端了个 Turbo 版本出来,能力保持在较高水平,价格再砍一半。字节技术副总裁洪定坤也上台了,讲的是字节内部怎么用 AI 写代码。他给了两个数:Trae 团队的 AI 代码贡献率已经超过 90%,人均需求吞吐率提升了 60%,到了原来的 1.6 倍。但他说了句挺实在的话:AI 写代码的速度比人快 10 倍不止,可效率只提了 1.6 倍,中间差的那一大截,就是工程落地要填的坑。不是什么都能“Vibe Coding”一下就上线的。顺便,Trae Work 企业版也发布了,给非技术岗位也能用的 AI 办公平台。视频、图像、音频:全家桶一次端齐语言模型讲完,视频模型 Seedance 2.5 接上。老狐觉得这是全场最炸的发布之一。三点:单段视频最长 30 秒,全球第一。支持最多 50 个全模态素材联合输入,也是全球最多。原生 4K,加上 4K 10-bit 高位深直出。以前 AI 做视频,15 秒到头了,稍微复杂的镜头就得一段一段拼。现在 30 秒一镜直出,广告、科普短片这种场景基本够用了。50 个素材联合输入什么概念呢?你给一段文字描述,再给角色图、场景图、参考风格,它全吃进去,给你一次性编排好。现场演示了一个影视白模预演的例子:一个复杂度接近 10 万面的宇宙飞船模型,豆包 2.5 在镜头缓慢推进中稳稳地保持住了结构比例,同时完成了材质渲染和光影生成。这个能力对影视行业的前期预演来说,省的不是一点点时间。编辑能力也可圈可点。广告场景里,画面其他部分不动,只换模特的口红色号,一条过。然后是图像模型 Seedream 5.0 Pro。核心升级两个:交互式精准编辑和多图层分离。你可以直接在画面上圈选、箭头标注,告诉模型“把树上的松鼠移到左边的树桩上”“右下角加两只猫的结婚照”,它理解你的空间意图然后执行。多图层分离更好玩:圈什么拆什么,小到一行字、大到整个物体,拆完还能拖拽缩放。还有个容易被忽略但实际很实用的能力:原生支持 14 种语言生成图像。阿拉伯语的从右向左排版、泰语的声调符号堆叠,模型能自动适配,不是先翻译再贴字那种假的多语言。音频这边也憋了个大招。豆包音频生成模型 1.0:一段文字描述,直接生成带多角色对白、情绪、方言口音、背景音乐、环境音效的影视级音频。现场放了一段武侠短剧 demo,劫镖、对骂、打斗,所有声音都是模型直出的,没有任何人工录音。老狐当时听着就觉得,以后有声书、播客、短剧配音这些活,门槛要被拉到地板了。语音合成模型也升到了 2.0,覆盖超过 15 种语言合成、超过 20 种语言声音复刻。哦对了,还插了个挺有意思的事。火山引擎正式上线了 AI 版权商业化平台,首批合作对象是周星驰的比高集团:《喜剧之王》《食神》《长江七号》三部经典电影的 IP 拿到了 AI 创作授权。现场放了段 AI 短片,星爷的经典桥段用豆包模型重新演绎了一遍。汽车先跑通了,700 万台只是开始听完整场发布会,老狐最大的感受其实是另外一件事:豆包的落地速度。谭待给了一组数字:搭载豆包大模型的智能汽车已经超过 700 万辆,覆盖 50 个品牌、145 款车型,搭载量行业第一。金融行业服务了超过八成系统重要性银行、超过九成头部券商。全球 Top 10 手机厂商里 9 家接了豆包。超过 7 亿台智能终端跑着豆包模型。这些数字背后有个逻辑:大模型这个东西,闷头搞评测打榜是一回事,真正塞进车机、手机、银行系统里稳定跑起来,是另一回事。除了汽车,Agent 落地也在加速。火山引擎的 AgentKit 和 HiAgent 3.0 已经接入了大量企业,中金财富在会上宣布了基于 HiAgent 搭建的 AI 投顾系统。ArkClaw 企业版也正式发布了,安踏、瑞幸、海底捞这些你天天用的品牌已经在用。散场前唠两句说实话,在去之前老狐对火山引擎的印象还停留在“字节云”这个标签上。但两小时坐下来,看到的东西跟想象的完全不是一回事。这是一家已经把模型、开发工具、Agent 平台、行业落地方案、安全合规体系全部串成一条链的公司。从底层模型到上层应用,从 API 调用到整车座舱,中间几乎没有断点。梁汝波说“攀登 AI 高峰是字节最重要的事”,谭待说“模型已经跨越了生产质变点”,洪定坤说“AI 写代码很快,但工程落地才是硬仗”。三句话串在一起,大概就是这次 FORCE 大会想讲的全部故事。大会明天还有一天,老狐先回去消化消化。你们看完这些新模型,觉得哪个最可能先用起来?评论区聊聊~图片:火山引擎,明哥自拍编辑:HQL