字节跳动发布全新开源模型 Seed-OSS-36B,支持 512K 令牌上下文

智能情报所 2025-08-26 17:06
资讯配图

字节跳动出人意料地发布了一则重磅消息。 该公司的人工智能研究团队 Seed Team 今日在人工智能代码共享网站 Hugging Face 上发布了 Seed-OSS-36B

Seed-OSS-36B 是一个全新的开源大语言模型系列,专为高级推理和以开发者为中心的可用性而设计,并拥有比许多美国科技公司的竞争性 LLM 更长的令牌上下文,即模型在单次交互中能够接收作为输入并随后输出的信息量,甚至超过了 OpenAI 和 Anthropic 等行业领导者。

该系列包含三个主要变体:

  • Seed-OSS-36B-Base (含合成数据版)
  • Seed-OSS-36B-Base (不含合成数据版)
  • Seed-OSS-36B-Instruct

通过同时发布 Seed-OSS-36B-Base 模型的合成数据版和非合成数据版,Seed Team 试图在实际性能与研究灵活性之间取得平衡。

使用合成数据的变体,经过了额外指令数据的训练,在标准基准测试中持续获得更高的分数,旨在成为一个性能更强的通用选项。

相比之下,非合成数据模型则去除了这些增强数据,从而创建了一个更纯净的基础,避免了由合成指令数据可能引入的潜在偏见或失真。

通过同时提供这两个版本,该团队既让应用型用户能够获得更优的结果,又确保了研究人员能保留一个中立的基线来研究后训练方法。

与此同时,Seed-OSS-36B-Instruct 模型则有所不同,它使用指令数据进行了后训练,以优先执行任务和遵循指令为目标,而不仅仅是纯粹作为一个基础模型。

所有三个模型均在 Apache-2.0 许可下发布,允许为企业工作的研究人员和开发者自由使用、修改和再分发。

这意味着它们可以被用来驱动商业应用,无论是公司内部应用还是面向外部客户的应用,都无需向字节跳动支付任何许可费用或应用程序编程接口 (API) 使用费。

这延续了 2025 年夏季中国公司发布强大开源模型的趋势,而 OpenAI 则试图通过本月早些时候发布的自有开源模型 gpt-oss duet 来追赶这一潮流。

Seed Team 将 Seed-OSS 定位为面向国际应用,强调其在推理、类智能体 (agent-like) 任务执行以及多语言环境下的通用性。

Seed Team 成立于 2023 年,一直专注于构建既能服务于研究又能应用于实际场景的基础模型。

设计与核心特性

Seed-OSS-36B 背后的架构结合了多种熟悉的设计方案,如因果语言建模、分组查询注意力、SwiGLU 激活函数、RMSNorm 和 RoPE 位置编码。

每个模型都包含 360 亿参数,分布在 64 个层中,并支持一个包含 155,000 个令牌的词汇表。

其决定性特征之一是原生长上下文能力,最大长度达到 512,000 个令牌,旨在处理超长文档和推理链而不会出现性能下降。

这个长度是 OpenAI 新发布的 GPT-5 模型家族的两倍,并且大致相当于约 1,600 页文本,与一本基督教《圣经》的篇幅相当。

另一个显著的元素是引入了“思考预算”,它允许开发者指定模型在给出答案前应该执行多少推理计算。

这个特性我们在近期的其他开源模型中也见过,包括英伟达 (Nvidia) 新发布的 Nemotron-Nano-9B-v2,该模型同样在 Hugging Face 上提供。

在实践中,这意味着团队可以根据任务的复杂性和部署的效率要求来调整模型性能。 推荐的预算设置为 512 令牌的倍数,设为 0 则提供直接响应模式。

在第三方基准测试中的出色表现

随发布一同公布的基准测试结果将 Seed-OSS-36B 置于最强大的大型开源模型之列。特别是 Instruct 变体,在多个领域都取得了最先进水平 (state-of-the-art, SOTA) 的成果。

  • 数学与推理:Seed-OSS-36B-Instruct 在 AIME24 上取得了 91.7% 的准确率,在 BeyondAIME 上得分 65,两者均代表了开源领域的“最先进水平”。
  • 代码生成:在 LiveCodeBench v6 上,Instruct 模型取得了 67.4 的分数,这是另一个 SOTA 成绩。
  • 长上下文处理:在 128K 上下文长度的 RULER 测试中,它达到了 94.6 分,创下了已报告的开源模型最高纪录。
  • 基础模型性能:含合成数据的 Base 变体在 MMLU-Pro 上得分 65.1,在 MATH 上得分 81.7,均为同类测试中的最先进水平。

无合成数据的 Base 版本虽然在许多指标上略微落后,但其本身也极具竞争力。 它在 GPQA-D 测试上超越了其合成数据对应版本,为研究人员提供了一个更纯净、无指令干扰的实验基线。

对于正在比较不同开源选项的企业而言,这些结果表明 Seed-OSS 在计算密集的数学、代码和长上下文工作负载方面展现出强大的潜力,同时仍为研究用例提供了灵活性。

获取与部署

除了性能,Seed Team 还强调了模型对开发者和从业者的易用性。这些模型可以使用 Hugging Face Transformers 进行部署,并支持 4 位和 8 位格式的量化,以降低内存需求。

它们还与 vLLM 集成以实现可扩展的服务,包括配置示例和 API 服务器说明。

为了进一步降低使用门槛,该团队还提供了用于推理、提示词定制和工具集成的脚本。 对于管理小型团队或在预算有限情况下工作的技术负责人来说,这些准备工作旨在让试验 360 亿参数的模型变得更加容易。

许可及企业决策者须知

由于模型在 Apache-2.0 许可下提供,组织可以采用它们而无需担心限制性的许可条款,这对于需要平衡法律和运营问题的团队来说是一个重要因素。

对于正在评估开源领域的决策者来说,这次发布带来了三个关键信息:

  1. 在数学、代码和长上下文推理方面达到最先进水平的基准测试结果。
  2. 在性能更强的合成数据训练模型与纯净的研究基线模型之间取得了平衡。
  3. 提供了多种易用性功能,为精简的工程团队降低了运营开销。

通过在一个开放许可下提供强大的性能和灵活的部署选项,字节跳动的 Seed Team 为企业、研究人员和开发者等各方都增添了新的选择。

参考资料:https://huggingface.co/collections/ByteDance-Seed/seed-oss-68a609f4201e788db05b5dcd



一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
老宇哥出手,100W快充 + USB3.0高速传输(3A1C),这个开源HUB项目太香了!
盘古大模型等部门被裁撤;马斯克刚刚开源 Grok 2.5;法裔女CEO接管OpenAI,奥特曼退居幕后?| AI 周报
马斯克掀桌子了,最强开源大模型诞生!Grok-2近万亿参数性能首曝
马斯克掀桌子了,最强开源大模型诞生!Grok-2近万亿参数性能首曝!
开源复现o3图像思考!快手让AI不再被动看图,模型自主生成代码调用工具
【他山之石】ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力
ICCV'25开源 | 无需任何标注!NVIDIA新作LongSplat:从任意拍摄的长视频重建3D高斯!
键鼠操控未来!DiT模型秒变“世界模型”,昆仑万维Matrix-Game 2.0开源打造无限可能的虚拟世界!
首个兼顾空间推理、开源、强泛化的机器人模型,6 大核心任务成功率远超 SOTA!
轻量级易开发,8B参数释放大实力!科学多模态模型Intern-S1-mini开源
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号