LLM-in-Sandbox:给大模型一台电脑,激发通用智能体能力

机器之心 2026-01-30 12:24

大模型的能力正在被不同的范式逐步解锁:In-Context Learning 展示了模型无需微调即可泛化到新任务;Chain-of-Thought 通过引导模型分步推理来提升复杂问题的求解能力;近期,智能体框架则赋予模型调用工具、多轮交互的能力。

 

沿着这条技术演进路线,下一步是什么?

 

近日,来自中国人民大学高瓴人工智能学院、微软研究院和清华大学的研究者提出了一个简洁而有效的范式:LLM-in-Sandbox——让大模型在代码沙盒(即虚拟电脑)中自由探索来完成任务。实验表明,这一范式不仅在代码任务上有效,更能显著提升模型在数学、物理、化学、生物医学、长文本理解、指令遵循等多个非代码领域的表现,且无需额外训练,同时显著减少长文本场景下的 token 消耗,并保持相当水平的推理速度。

 

研究者已将 LLM-in-Sandbox 开源为 Python 包,可与 vLLM、SGLang 等主流推理后端无缝集成。LLM-in-Sandbox 应当成为大模型的默认部署范式取代纯 LLM 推理

 

LLM-in-Sandbox:给大模型一台电脑,激发通用智能体能力图2
 

 

1. 核心思想:给大模型一台电脑

 

电脑可能是人类创造的最通用的工具,几乎任何任务都可以通过电脑完成。这种通用性源于三大元能力(Meta-Capabilities)

 

 

正如人类借助电脑完成各种任务,研究者假设:将大模型与虚拟电脑结合,或许能够解锁其通用智能的潜力。

 

LLM-in-Sandbox:给大模型一台电脑,激发通用智能体能力图3

 

2. LLM-in-Sandbox:

代码沙盒激发通用能力

 

2.1 轻量级通用沙盒

 

与现有软件工程智能体(SWE-Agent)需要为每个任务配置特定环境不同,LLM-in-Sandbox 采用轻量级、通用化的设计:

 

 

LLM-in-Sandbox:给大模型一台电脑,激发通用智能体能力图4

 

这种设计带来两个优势:泛化性(同一环境支持多种任务)和可扩展性(无需为每个任务维护独立镜像)。例如,当扩展到数千个任务时,SWE 智能体可能需要高达 6TB 的存储空间用于任务特定镜像,而 LLM-in-Sandbox 仅需约 1.1GB 的共享镜像。

 

2.2 最小化工具集

 

研究者为模型配备了三个基础工具:

 

 

这三个工具共同实现了电脑的核心能力,足以支撑复杂任务的完成。

 

2.3 探索式工作流

 

LLM-in-Sandbox 采用多轮交互的工作流:模型在每一轮生成工具调用,接收执行结果作为反馈,然后决定下一步行动,直到调用 submit 或达到最大轮次限制。

 

LLM-in-Sandbox:给大模型一台电脑,激发通用智能体能力图5

 

2.4 实验结果:无需训练的显著提升

 

研究者在六个非代码领域进行了实验:数学、物理、化学、生物医学、长文本理解和指令遵循。

 

LLM-in-Sandbox:给大模型一台电脑,激发通用智能体能力图6

 

实验结果表明,强大的语言模型在 LLM-in-Sandbox 模式下获得了一致性的提升。值得注意的是,这些提升完全无需额外训练:模型能够自发地利用沙盒环境来增强任务表现。

 

2.5 涌现的工具使用能力

 

研究者通过案例分析揭示了模型如何自主利用沙盒的三大能力。

 

 

LLM-in-Sandbox:给大模型一台电脑,激发通用智能体能力图7

 

 

LLM-in-Sandbox:给大模型一台电脑,激发通用智能体能力图8

 

 

LLM-in-Sandbox:给大模型一台电脑,激发通用智能体能力图9

 

3. LLM-in-Sandbox RL:

通过强化学习增强泛化能力

 

虽然强大的智能体模型能够直接受益于 LLM-in-Sandbox,但较弱的模型(如 Qwen3-4B-Instruct)往往难以有效利用沙盒环境,甚至表现不如纯 LLM 模式。

 

为此,研究者提出了 LLM-in-Sandbox RL:使用非智能体数据在沙盒环境中训练模型。

 

3.1 方法设计

 

LLM-in-Sandbox:给大模型一台电脑,激发通用智能体能力图10

 

核心思想是采用基于上下文的任务(context-based tasks):每个任务包含背景材料和需要基于这些材料完成的目标。由于完成目标依赖于提供的材料,模型必须主动探索沙盒以找到相关信息,从而自然地学会利用沙盒能力。

 

3.2 泛化能力

 

LLM-in-Sandbox:给大模型一台电脑,激发通用智能体能力图11

 

实验在 Qwen3-4B-Instruct 和 Qwen3-Coder-30B-A3B 两个模型上进行。关键发现是 LLM-in-Sandbox RL 展现出强大的泛化能力

 

 

4. 效率分析:

LLM-in-Sandbox 的实际部署价值

 

4.1 Token 消耗

 

LLM-in-Sandbox:给大模型一台电脑,激发通用智能体能力图12

 

在长文本场景下,LLM-in-Sandbox 将文档存储在沙盒中而非放入 prompt,可将 token 消耗降低最多 8 倍(100K → 13K tokens)。

 

4.2 推理速度

 

LLM-in-Sandbox:给大模型一台电脑,激发通用智能体能力图13

 

通过将计算卸载到沙盒,LLM-in-Sandbox 将工作负载从慢速的自回归生成(decode)转移到快速的并行预填充(prefill),在平均情况下保持有竞争力的吞吐量(QPM):MiniMax 可实现 2.2 倍加速

 

5. LLM-in-Sandbox 超越文本生成

 

前面的实验评估的是 LLM 和 LLM-in-Sandbox 都能完成的任务。然而,LLM-in-Sandbox 还能实现纯 LLM 根本无法完成的能力。通过给 LLM 提供虚拟电脑,LLM-in-Sandbox 突破了 text-in-text-out 的范式,解锁了新的可能性:

 

 

LLM-in-Sandbox:给大模型一台电脑,激发通用智能体能力图14

 

这些案例揭示了一个有前景的方向:随着 LLM 能力的增强和沙盒环境的完善,LLM-in-Sandbox 可能演化为真正的通用数字创作系统

 

6. 总结与展望

 

LLM-in-Sandbox 提出了一个简洁而有效的范式:通过给大模型提供一台虚拟电脑,让其自由探索来完成任务。实验表明,这一范式能够显著提升模型在非代码领域的表现,且无需额外训练。

 

研究者认为,LLM-in-Sandbox 应当成为大模型的默认部署范式取代纯 LLM 推理。当沙盒可以带来显著的性能提升,并且部署成本几乎可以忽略不计时,为什么还要用纯 LLM?

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
电脑 大模型
more
字节跳动锚定AI新高峰,2026年聚焦“豆包/Dola助手”战略布局
黄仁勋2026第一场演讲,点赞中国3个大模型
国产开源模型卷赢Gemini 3 Pro、GPT-5.2,最强多模态推理大模型易主?
2.9亿大模型大单!讯飞联合中标
百度正式发布文心大模型5.0 全模态能力与用户规模同步跃升
全球首个大模型在轨部署:中国太空算力解锁“软硬一体”
AI脑机接口大模型融合伦理:从ChatGPT到脑信号的语言革命
中国团队引领太空算力:首次太空在轨部署通用大模型,发2800颗卫星服务数亿硅基智能体
国产医疗大模型斩获三项SOTA!幻觉率优于GPT-5.2,问诊能力超过人类医生
Kimi K2.5正式开源,月之暗面推多模态全能大模型
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号