700万参数击败DeepSeek R1?不用思维链,不靠测试时推理,三星TRM如何在ARC-AGI等硬核推理任务上超越主流大模型

机智流 2025-10-11 23:59

700万参数击败DeepSeek R1?不用思维链,不靠测试时推理,三星TRM如何在ARC-AGI等硬核推理任务上超越主流大模型图1


> 本文由 Intern-S1 等 AI 生成,机智流编辑部校对

在当今人工智能领域,“越大越好”似乎已成为默认共识:千亿参数、万亿token训练、超大规模推理……然而,一篇来自三星SAIL蒙特利尔实验室实验室(Samsung AI Lab Montreal)的最新论文却给出了截然不同的答案:用一个仅700万参数的极小网络,通过巧妙的递归机制,就能在多个硬核推理任务上全面超越当前主流的大语言模型(LLMs)。

这项名为《Less is More: Recursive Reasoning with Tiny Networks》的工作提出了一个名为Tiny Recursive Model(TRM,微型递归模型)的新架构。它不仅在Sudoku、Maze、ARC-AGI等需要强逻辑推理能力的任务上大幅领先于包括Gemini 2.5 Pro、Deepseek R1在内的大模型,还以不到0.01%的参数量实现了这一壮举。

更令人惊讶的是,TRM的设计哲学恰恰是“简化”——它摒弃了复杂的生物类比、固定点定理、双网络结构,甚至不需要Chain-of-Thought(CoT)或Test-Time Compute(TTC)等大模型常用的推理增强技术。那么,TRM究竟是如何做到的?

论文链接:https://huggingface.co/papers/2510.04871

PaperScope论文解读:https://www.paperscope.ai/hf/2510.04871


从HRM到TRM:递归推理的“去繁就简”

故事的起点是今年6月由Wang等人提出的Hierarchical Reasoning Model[1](HRM,分层推理模型)。HRM通过两个小型Transformer网络(分别以高频和低频递归)配合“深度监督”(deep supervision)机制,在Sudoku、Maze等任务上取得了远超传统监督学习模型的表现。HRM的灵感部分来自神经科学——认为大脑在不同时间尺度上处理信息,因此模型也应具备“高低频”双通路。

然而,三星团队在深入分析后发现:HRM的性能提升主要来自“深度监督”,而非其复杂的双频递归结构。独立评测显示,仅靠深度监督就能将ARC-AGI准确率从19%提升至39%,而递归机制本身贡献微乎其微。更关键的是,HRM依赖的“隐函数定理”(Implicit Function Theorem)和“单步梯度近似”在实际训练中并不成立——因为模型并未真正收敛到固定点。

于是,作者Alexia Jolicoeur-Martineau提出了一个大胆的简化方案:去掉所有不必要的复杂性,只保留最核心的递归推理机制


TRM的核心思想:递归改进答案,而非生成答案

TRM的架构极其简洁:仅用一个两层的小网络,递归地改进当前的预测答案。如图1所示,TRM从输入问题  和初始猜测答案  出发,维护一个隐状态 (相当于“推理链”)。在每一步中,它先用  更新 (递归推理),再用更新后的  和当前  生成新的 (答案修正)。这个过程可重复多达16次(称为“监督步”),逐步逼近正确答案。

700万参数击败DeepSeek R1?不用思维链,不靠测试时推理,三星TRM如何在ARC-AGI等硬核推理任务上超越主流大模型图2
图 1. Tiny Recursive Model。TRM通过一个极小的网络递归改进预测答案 。它从嵌入的输入  和初始答案  开始,结合隐状态 ,在最多16步内不断优化答案。这种设计以极低的参数量实现了强大的推理能力,同时有效避免过拟合。

与HRM不同,TRM不假设固定点存在,而是直接对整个递归过程进行端到端反向传播。它也不需要两个网络——同一个网络既负责更新隐状态 ,也负责生成新答案  。作者发现,这种“一网打尽”的设计反而提升了泛化能力。

更重要的是,TRM对“隐状态”的理解更为直观:就是当前的答案(可直接解码为输出),而是辅助推理的中间表示(类似人类的“草稿纸”)。这种解释无需生物学类比,逻辑清晰且易于验证(见图2)。

700万参数击败DeepSeek R1?不用思维链,不靠测试时推理,三星TRM如何在ARC-AGI等硬核推理任务上超越主流大模型图3图 2. 一个数独难题示例。该示例展示了预训练模型的输入、预期输出以及经过嵌入反转和使用 argmax 处理后的 token 化 z_H 和 z_L。这凸显了一个事实,即 z_H 对应于预测的响应(y),而 z_L 是一种潜在特征,除非通过 f_H 转换为 z_H,否则无法解码为合理的输出。


极简设计,极致性能

TRM的“极简主义”体现在多个层面:

  • 参数量仅700万:相比HRM的2700万,TRM减少近75%;相比千亿级LLM,更是微不足道。
  • 仅两层网络:作者尝试增加层数,却发现性能反而下降——在小数据场景下,小模型+深度递归比大模型更能避免过拟合。
  • 无需自注意力(在部分任务上):对于Sudoku这类固定小尺寸输入(9×9),TRM用MLP替代自注意力,性能提升10%以上。
  • 训练更高效:TRM的ACT(自适应计算时间)机制只需一次前向传播,而HRM需要两次。

这些设计选择并非随意,而是经过大量消融实验验证。例如,表1显示,当TRM采用两层MLP、EMA权重平均、单网络结构等配置时,在Sudoku-Extreme上的准确率高达87.4% ,远超HRM的55%。

700万参数击败DeepSeek R1?不用思维链,不靠测试时推理,三星TRM如何在ARC-AGI等硬核推理任务上超越主流大模型图4表 1. 在 Sudoku-Extreme 上对 TRM 的消融实验结果。对比测试准确率、每个监督步骤的有效深度、每个优化步骤的前向传播次数(NFP)以及参数数量

700万参数击败DeepSeek R1?不用思维链,不靠测试时推理,三星TRM如何在ARC-AGI等硬核推理任务上超越主流大模型图5
图2. Tiny Recursion Models 伪代码。TRM的伪代码展示了其简洁的训练流程:通过深度监督递归更新隐状态  和答案 ,并在每一步计算损失。整个过程仅需一个小型网络和单次前向传播,极大提升了训练效率与稳定性。


全面超越:TRM在四大硬核任务上的表现

论文在四个极具挑战性的推理基准上测试了TRM:

  1. Sudoku-Extreme:仅1000个训练样本,测试集达42万。TRM(MLP版)准确率87.4% ,HRM为55%。
  2. Maze-Hard:30×30迷宫,最短路径超110步。TRM(带自注意力)达85.3% ,HRM为74.5%。
  3. ARC-AGI-1:人类易解、AI难解的视觉推理任务。TRM准确率44.6% ,超越Gemini 2.5 Pro(37.0%)和多数LLM。
  4. ARC-AGI-2(2025新基准):难度更高。TRM达7.8% ,而Gemini 2.5 Pro仅4.9%。

尤其值得注意的是,TRM在ARC-AGI上的表现已接近某些专为该任务定制的模型(如Bespoke Grok-4达29.4%),但参数量仅为后者的几千分之一。

700万参数击败DeepSeek R1?不用思维链,不靠测试时推理,三星TRM如何在ARC-AGI等硬核推理任务上超越主流大模型图6
700万参数击败DeepSeek R1?不用思维链,不靠测试时推理,三星TRM如何在ARC-AGI等硬核推理任务上超越主流大模型图7

为什么“小”反而更好?

TRM的成功挑战了“模型越大越好”的直觉。作者认为,在数据极度稀缺的场景下(如Sudoku仅1K样本)。大模型容易记住训练样本而非学习泛化规则,而TRM通过“深度递归+小容量”强制模型学习可迁移的推理过程。

此外,递归机制本身提供了一种“时间展开”的深度——TRM的有效深度可达42层以上,但参数并未增加。这种“计算换参数”的策略,在小数据时代或许更具性价比。


未来方向:从确定性推理走向生成式推理

目前TRM仍是一个确定性监督模型——给定输入,输出唯一答案。但在许多现实场景中(如数学证明、程序生成),一个问题可能有多个合理解。作者指出,未来可将TRM扩展为生成式模型,支持多答案采样与概率推理。

此外,TRM的架构是否适用于更广泛的NLP或视觉任务?其“递归改进”思想能否与强化学习、规划算法结合?这些问题都值得进一步探索。


结语:少即是多,简即是强

在AI界狂奔向更大、更贵、更复杂的今天,TRM像一股清流,提醒我们:有时候,解决问题的关键不在于堆砌资源,而在于设计更聪明的机制

正如论文标题所言:“Less is More”。一个仅700万参数的小模型,凭借极简而深刻的递归推理架构,竟能在硬核推理任务上击败千亿大模型——这不仅是技术上的突破,更是对当前AI发展范式的一次有力反思。

或许,真正的智能,不在于规模,而在于如何用有限的资源,实现无限的推理可能。

论文链接:https://huggingface.co/papers/2510.04871

PaperScope论文解读:https://www.paperscope.ai/hf/2510.04871

ARC-AGI Leaderboard:https://arcprize.org/leaderboard

HRM性能分析:https://arcprize.org/blog/hrm-analysis

参考资料
[1] 

Hierarchical Reasoning Model: https://arxiv.org/abs/2506.21734



声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AR 测试 三星
more
8点1氪:微信灰度测试一次性撤回全部消息功能;国内多家品牌金饰价格站上1160元/克;杭州一西贝午市2人需排队半小时
重庆公开邀请开展高层建筑消防安全场景灭火救援实战化无人机功能测试;黑龙江省航空器整机产品奖励、低空装备作业补贴政策实施细则发布
降低洛氏硬度测试的测量不确定度
【生活】微信灰度测试“撤回本次发送的全部消息”功能
抗干扰汽车微型网络(RAMN)开源测试平台的设计
计量筑基 质量领航——先进计量测试技术支撑产业新质生产力学术交流周在蓉开幕!
东华测试战略卡位人形关节模组赛道,与南通振康共拓机器人产业机遇!
麦格纳、北斗智联、蔡司微光学、通用测试、罗森伯格、黑芝麻智能科技、富朗巴等企业亮相 SAECCE2025亮点展商展品爆料!
坦克、机器狼!实地测试阅兵装备
高速精准+多场景覆盖:电子元器件测试方案合集
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号