字节开源Seed-OSS-36B模型,512k上下文

大模型之心Tech 2025-08-22 08:00

作者 | 机器之心

原文链接:https://mp.weixin.qq.com/s/R7fpT8tOj9GE89UVd2WeuQ

点击下方卡片,关注“大模型之心Tech”公众号

戳我-> 领取大模型巨卷干货

>>点击进入→大模型没那么大Tech技术交流群

本文只做学术分享,如有侵权,联系删文,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询


开源赛道也是热闹了起来。


就在深夜,字节跳动 Seed 团队正式发布并开源了 Seed-OSS 系列模型,包含三个版本:



资讯配图



Seed-OSS 使用了 12 万亿(12T)tokens 进行训练,并在多个主流开源基准测试中取得了出色的表现。


这三个模型均以 Apache-2.0 许可证发布,允许研究人员和企业开发者自由使用、修改和再分发。 


主要特性:



模型架构


Seed-OSS-36B 的架构结合了多种常见的设计选择,包括因果语言建模、分组查询注意力(Grouped Query Attention)、SwiGLU 激活函数、RMSNorm 和 RoPE 位置编码。


每个模型包含 360 亿参数,分布在 64 层网络中,并支持 15.5 万词表。


其最具代表性的特性之一是原生长上下文能力,最大上下文长度可达 512k tokens,能够在不损失性能的情况下处理超长文档和推理链。


这一长度是 OpenAI 最新 GPT-5 模型系列的两倍,大约相当于 1600 页文本。


资讯配图


另一个显著的特性是引入了推理预算,它允许开发者在模型给出答案之前,指定模型应执行多少推理过程。


这一设计在近期其他一些开源模型中也有所体现,例如 Nvidia 新推出的 Nemotron-Nano-9B-v2。


在实际应用中,这意味着团队可以根据任务的复杂性和部署的效率需求来调节性能。


推荐的预算值为 512 tokens 的倍数,其中 0 表示直接输出答案的模式。


结果 


基准测试结果显示,Seed-OSS-36B 位列当前性能较强的开源大模型之列。


Seed-OSS-36B-Base


含合成数据版本的 Base 模型在 MMLU-Pro 上取得 65.1 得分,在 MATH 上取得 81.7 得分。非合成基础版本虽然在许多方面略微落后,但也具有竞争力。


资讯配图


Seed-OSS-36B-Instruct


Instruct 版本在多个领域都取得了 SOTA 成绩。 



资讯配图


思考预算


用户可以灵活指定模型的推理预算。下图展示了在不同任务中,随着推理预算变化而产生的性能曲线。


对于较简单的任务(如 IFEval),模型的思维链较短,随着推理预算的增加,分数会出现一定波动。


而在更具挑战性的任务(如 AIME 和 LiveCodeBench)中,模型的思维链较长,分数则会随着推理预算的增加而提升。


资讯配图


模型在运行过程,会提醒用户 token 使用情况:


<seed:think>Got it, let's try to solve this problem step by step. The problem says ... ...<seed:cot_budget_reflect>I have used 129 tokens, and there are 383 tokens remaining for use.</seed:cot_budget_reflect>Using the power rule, ... ...<seed:cot_budget_reflect>I have used 258 tokens, and there are 254 tokens remaining for use.</seed:cot_budget_reflect>Alternatively, remember that ... ...<seed:cot_budget_reflect>I have used 393 tokens, and there are 119 tokens remaining for use.</seed:cot_budget_reflect>Because if ... ...<seed:cot_budget_reflect>I have exhausted my token budget, and now I will start answering the question.</seed:cot_budget_reflect></seed:think>To solve the problem, we start by using the properties of logarithms to simplify the given equations: (full answer omitted).


如果未设置推理预算(默认模式),Seed-OSS 将以无限长度启动推理。


如果指定了推理预算,字节建议用户优先选择 512 的整数倍数(如 512、1K、2K、4K、8K 或 16K),因为模型已在这些区间上进行了大量训练。


当推理预算为 0 时,模型会被指示直接输出答案;对于低于 512 的预算,字节也建议统一设为 0。





© THE END 


大模型之心Tech知识星球交流社区

我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球,希望能够帮你把复杂的东西拆开,揉碎,整合,帮你快速打通从0到1的技术路径。 

星球内容包含:每日大模型相关论文/技术报告更新、分类汇总(开源repo、大模型预训练后训练知识蒸馏量化推理模型MoE强化学习RAG提示工程等多个版块)、科研/办公助手AI创作工具/产品测评、升学&求职&岗位推荐,等等。

星球成员平均每天花费不到0.3元,加入后3天内不满意可随时退款,欢迎扫码加入一起学习一起卷!

资讯配图



声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
突破Claude-4编程上限!自进化Agent框架拿下新SOTA,底模越好性能越高,已开源
开源扩散大模型首次跑赢自回归!上交大联手UCSD推出D2F,吞吐量达LLaMA3的2.5倍
字节开源Seed-OSS-36B模型,512k上下文
阿里“干掉”PS了,深夜正式开源
字节Seed开源长线记忆多模态Agent,像人一样能听会看
开源版Genie 3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品
《黑神话》新作亮相/DeepSeek开源新模型,R2还没来/李想:只有我和雷军能做超级产品
文心开源服务站赋能DAY·深圳站——开源生态助深圳打造AI先锋城市
比GPT-5还准?AIME25飙到99.9%刷屏,开源模型首次!
马斯克掀桌子了,最强开源大模型诞生!Grok-2近万亿参数性能首曝
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号