
字节跳动出人意料地发布了一则重磅消息。 该公司的人工智能研究团队 Seed Team 今日在人工智能代码共享网站 Hugging Face 上发布了 Seed-OSS-36B
。
Seed-OSS-36B 是一个全新的开源大语言模型系列,专为高级推理和以开发者为中心的可用性而设计,并拥有比许多美国科技公司的竞争性 LLM 更长的令牌上下文,即模型在单次交互中能够接收作为输入并随后输出的信息量,甚至超过了 OpenAI 和 Anthropic 等行业领导者。
该系列包含三个主要变体:
Seed-OSS-36B-Base
(含合成数据版)Seed-OSS-36B-Base
(不含合成数据版)Seed-OSS-36B-Instruct
通过同时发布 Seed-OSS-36B-Base
模型的合成数据版和非合成数据版,Seed Team 试图在实际性能与研究灵活性之间取得平衡。
使用合成数据的变体,经过了额外指令数据的训练,在标准基准测试中持续获得更高的分数,旨在成为一个性能更强的通用选项。
相比之下,非合成数据模型则去除了这些增强数据,从而创建了一个更纯净的基础,避免了由合成指令数据可能引入的潜在偏见或失真。
通过同时提供这两个版本,该团队既让应用型用户能够获得更优的结果,又确保了研究人员能保留一个中立的基线来研究后训练方法。
与此同时,Seed-OSS-36B-Instruct
模型则有所不同,它使用指令数据进行了后训练,以优先执行任务和遵循指令为目标,而不仅仅是纯粹作为一个基础模型。
所有三个模型均在 Apache-2.0 许可下发布,允许为企业工作的研究人员和开发者自由使用、修改和再分发。
这意味着它们可以被用来驱动商业应用,无论是公司内部应用还是面向外部客户的应用,都无需向字节跳动支付任何许可费用或应用程序编程接口 (API) 使用费。
这延续了 2025 年夏季中国公司发布强大开源模型的趋势,而 OpenAI 则试图通过本月早些时候发布的自有开源模型 gpt-oss duet
来追赶这一潮流。
Seed Team 将 Seed-OSS
定位为面向国际应用,强调其在推理、类智能体 (agent-like) 任务执行以及多语言环境下的通用性。
Seed Team 成立于 2023 年,一直专注于构建既能服务于研究又能应用于实际场景的基础模型。
设计与核心特性
Seed-OSS-36B
背后的架构结合了多种熟悉的设计方案,如因果语言建模、分组查询注意力、SwiGLU 激活函数、RMSNorm 和 RoPE 位置编码。
每个模型都包含 360 亿参数,分布在 64 个层中,并支持一个包含 155,000
个令牌的词汇表。
其决定性特征之一是原生长上下文能力,最大长度达到 512,000
个令牌,旨在处理超长文档和推理链而不会出现性能下降。
这个长度是 OpenAI 新发布的 GPT-5 模型家族的两倍,并且大致相当于约 1,600 页文本,与一本基督教《圣经》的篇幅相当。
另一个显著的元素是引入了“思考预算”,它允许开发者指定模型在给出答案前应该执行多少推理计算。
这个特性我们在近期的其他开源模型中也见过,包括英伟达 (Nvidia) 新发布的 Nemotron-Nano-9B-v2
,该模型同样在 Hugging Face 上提供。
在实践中,这意味着团队可以根据任务的复杂性和部署的效率要求来调整模型性能。 推荐的预算设置为 512 令牌的倍数,设为 0 则提供直接响应模式。
在第三方基准测试中的出色表现
随发布一同公布的基准测试结果将 Seed-OSS-36B
置于最强大的大型开源模型之列。特别是 Instruct
变体,在多个领域都取得了最先进水平 (state-of-the-art, SOTA) 的成果。
数学与推理: Seed-OSS-36B-Instruct
在 AIME24 上取得了 91.7% 的准确率,在 BeyondAIME 上得分 65,两者均代表了开源领域的“最先进水平”。代码生成:在 LiveCodeBench v6 上, Instruct
模型取得了 67.4 的分数,这是另一个 SOTA 成绩。长上下文处理:在 128K 上下文长度的 RULER 测试中,它达到了 94.6 分,创下了已报告的开源模型最高纪录。 基础模型性能:含合成数据的 Base
变体在 MMLU-Pro 上得分 65.1,在 MATH 上得分 81.7,均为同类测试中的最先进水平。
无合成数据的 Base
版本虽然在许多指标上略微落后,但其本身也极具竞争力。 它在 GPQA-D 测试上超越了其合成数据对应版本,为研究人员提供了一个更纯净、无指令干扰的实验基线。
对于正在比较不同开源选项的企业而言,这些结果表明 Seed-OSS 在计算密集的数学、代码和长上下文工作负载方面展现出强大的潜力,同时仍为研究用例提供了灵活性。
获取与部署
除了性能,Seed Team 还强调了模型对开发者和从业者的易用性。这些模型可以使用 Hugging Face Transformers 进行部署,并支持 4 位和 8 位格式的量化,以降低内存需求。
它们还与 vLLM 集成以实现可扩展的服务,包括配置示例和 API 服务器说明。
为了进一步降低使用门槛,该团队还提供了用于推理、提示词定制和工具集成的脚本。 对于管理小型团队或在预算有限情况下工作的技术负责人来说,这些准备工作旨在让试验 360 亿参数的模型变得更加容易。
许可及企业决策者须知
由于模型在 Apache-2.0 许可下提供,组织可以采用它们而无需担心限制性的许可条款,这对于需要平衡法律和运营问题的团队来说是一个重要因素。
对于正在评估开源领域的决策者来说,这次发布带来了三个关键信息:
在数学、代码和长上下文推理方面达到最先进水平的基准测试结果。 在性能更强的合成数据训练模型与纯净的研究基线模型之间取得了平衡。 提供了多种易用性功能,为精简的工程团队降低了运营开销。
通过在一个开放许可下提供强大的性能和灵活的部署选项,字节跳动的 Seed Team 为企业、研究人员和开发者等各方都增添了新的选择。
参考资料:https://huggingface.co/collections/ByteDance-Seed/seed-oss-68a609f4201e788db05b5dcd
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!