文丨丁灵波

今天，AI圈知名的新锐独角兽Thinking Machines Lab正式上线了旗下的研究博客：联结主义（Connectionism），并发布公司成立以来的第一篇技术博文“克服LLM推理中的不确定性”。

“联结主义”这个名字来自人工智能早期时代，它是20世纪80年代研究神经网络及其与生物大脑相似性的子领域的名称。

Thinking Machines官方表示，“联结主义”涵盖的主题将与团队的研究范围一样广泛：从核心数值到即时工程，在这里，他们将分享内部的最新科研成果和技术见解，并与AI技术社区保持频繁且开放的联系。

Thinking Machines Lab是由前OpenAI首席技术官米拉・穆拉蒂（Mira Murati）于2025年2月牵头创立的新AI公司，旨在构建长远的正确AI系统，最大限度地提高生产力和安全性，实验室初始成员三分之二来自OpenAI核心团队，包括前OpenAI联合创始人John Schulman、前OpenAI研究副总裁Barret Zoph等。

团队中比较知名的华人科学家如北大校友、前OpenAI安全副总裁翁荔 (Lilian Weng)，是该公司的联合创始人之一；今年8月底，清华姚班校友、普林斯顿大学计算机科学系副教授陈丹琦（Danqi Chen）被曝也加入了该团队，她曾两次获得计算语言学领域顶会ACL的优秀论文奖。

由于创始阵容强大，尽管还没有任何AI产品原型或技术方案拿出手，成立仅5个月的Thinking Machines Lab就拿到了20亿美元的硅谷史上最大种子轮融资，a16z、英伟达、AMD、Accel等纷纷参投，公司估值直接飙到120亿美元，让外界对其研究进展充满期待。

华人领衔新发现
Thinking Machines Lab首篇技术博文的关键作者之一为Horace He，也是一名华人AI研究员，科研方向为机器学习和编译器，此前曾在Meta从事PyTorch开发工作。

整体来看，他在这篇最新的博文中解释了为什么“并发+浮点”假设没有达到目的，分层揭露了LLM推理不确定性背后的真正原因，并解释如何克服不确定性并在LLM推理中获得真正可重复的精准结果。

不少开发者读完后纷纷称赞：

“这篇文章确实让我意识到我还有很多东西要学，并给了我一些非常值得赞赏的答案！”

“博文讨论了如何使这些计算具有‘批次不变性’，这意味着无论运算顺序如何，它们每次都会产生相同的结果，从而使LLM的响应更加可靠和可预测。”

“整篇文章都很棒，但真正让人瞠目结舌的是‘真正的在线策略强化学习’部分，在那里揭示了事实上这些看似挑剔的非确定性实际上可能导致强化学习奖励的真正崩溃。”

开发者们认为，这篇博文或许是推动LLM从“黑箱”走向“可控基础设施”的关键一步。

三种措施降低LLM“不确定性”

由于博文太过“技术”，在此我们仅提炼一下其中的关键结论点和逻辑，更多技术细节仍需去详读原文。

为什么LLM推理引擎不是确定性的呢？一个常见的假设是，浮点非结合性和并发执行的某种组合会导致不确定性。

比如GPU很多核心同时算，谁先算完不确定；而且浮点数加法不满足“(a+b)+c=a+(b+c)”，顺序变了结果就差一点。但作者反驳了这个观点：你单独在GPU上反复跑同一个矩阵乘法，结果永远一样，这说明“并行+浮点数”并没有揭示全部情况。

研究人员经过深入研究发现，几乎所有LLM推理端点都具有不确定性的主要原因是负载（以及批次大小）的变化具有不确定性，这种不确定性并非GPU独有——由CPU或TPU提供服务的LLM推理端点也存在这种不确定性。

因此，如果我们想避免推理服务器中的不确定性，就必须在内核中实现批量不变性，批次不变性的要求是，无论内核的批次大小如何，每个元素的缩减顺序都必须固定。

如何使内核具有批次不变性？文章提到了三种技术措施：

资讯配图

1、RMSNorm：每个核心“承包”一个请求

简单来说，这个解决思路是：一个核心专门处理一个请求的计算，不管批次多大，每个请求的合并顺序都固定，就算批次小导致有些核心空闲，也不随便拆分工（避免改变计算顺序）。

2. 矩阵乘法：固定计算“模板”

矩阵乘法是模型的核心运算，为了快，会把大矩阵切成小“瓷砖”（tile）计算。

解决思路：不管批次大小，都用同一种tile尺寸和计算配置——哪怕批次小的时候有点慢，也不换策略，保证计算方式统一。

3、注意力机制：处理好“历史缓存”，固定分割规则

解决思路：不按“拆几份”来分，而是按“每份固定大小”来分。比如不管批次多大，都按250个单位为一份拆缓存，剩下的零头单独算——这样合并顺序永远固定，结果就一致了。

经过一系列优化，作者用Qwen大模型做了测试实验，当启用批不变内核时，所有1000个完成结果都是相同的。不过，性能上会慢一点，比如vLLM默认26秒跑完1000个请求，优化后42秒。

速度变慢的主要原因是vLLM中的FlexAttention集成尚未进行深度优化，尽管如此，但仍然看到性能表现并不糟糕。

而且这些解决方法还有一个额外的好处，可以让RL训练更稳定。

之前因为训练和推理的输出数值有差异，导致RL变成了“离线训练”（用旧数据练新模型），容易崩；现在输出可重复了，训练和推理的数值完全一致，就能实现“在线训练”（用模型实时输出练模型），奖励和稳定性都好了很多。

推动建设“更可信”的AI

Thinking Machines Lab团队表示，希望这篇博文能让技术社区对如何解决AI推理系统中的不确定性有一个扎实的理解，并激励其他人全面理解他们的AI系统。

从LLM中获得可重复的结果，是其从“实验室技术”走向广泛的“规模化、负责任落地”的必经之路，它不仅是技术层面的优化需求，更是行业合规、用户信任、科学严谨性的核心保障，没有可重复性，LLM的性能提升将无法有效验证，在高风险场景的应用将寸步难行，最终可能陷入“技术强大但不可信”的困境。

例如AI医疗诊断，推理系统的不确定性可能直接导致误诊、漏诊与错误治疗方案输出；在金融、电商、供应链等场景中，推理不确定性可能会转化为经济损失风险和商业信誉危机。

解决推理系统中的不确定性，本质是让AI在信息不完整、模糊或动态变化的现实中，依然能输出可信赖的决策。

-END-
如果您有什么想说的，欢迎在评论区留言讨论！
投稿或寻求报道，欢迎私信“投稿”，添加编辑微信。
【2025免费新年礼】：了解最新科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会，领取100份AI科技商业研报合集，加群共同探讨与成长——
扫描下方二维码，添加头部科技晶总微信！