OpenAI前CTO创业的模型首秀，与面壁智能「撞车」了

OpenAI前CTO创业的模型首秀，与面壁智能「撞车」了图1

MiniCPM-o 4.5在2026年2月就已正式开源。

今天，大模型圈再次被点燃，这一次的火花来自前OpenAI应用研究负责人翁荔（Lilian Weng）。她与前OpenAI CTO米拉·穆拉蒂（Mira Murati）联合创立的Thinking Machines Lab（TML）首次公布的技术愿景，直指人机交互的终极形态——一个能与人类进行「全双工」（Full-Duplex）实时对话的AI模型。

然而，当TML那支展示着无缝、主动交互能力的Demo视频在网络上流传时，许多AI领域的从业者却产生了一种强烈的「既视感」——因为TML描绘的那个未来，早在三个月前，就已被中国公司「面壁智能」的MiniCPM-o 4.5以开源的形式，带到了现实。

先看「边看边听边说」的全模态实时交互效果——

这是MiniCPM-o 4.5的效果，模型可以实时观察周围并对环境进行描述输出，主动反应表现一流：

这是TML时隔3个月后发布的模型效果：

这不仅是一次简单的「撞车」，更像是一场跨越太平洋的技术共识。它不仅验证了下一代 AI 交互的技术路径，也让我们重新审视中国AI力量在全球创新版图中的位置。

01.

一场不约而同的交互革命：

打破「对讲机」模式

要理解这场技术共识的深刻性，首先要明白TML和面壁智能共同挑战的敌人是什么——延续至今的「回合制」（turn-based）交互范式。

从Siri到各类语音助手，再到GPT-4o的语音模式，我们与AI的交流更像是使用一部「对讲机」：你说完，等待「滴」的一声，然后它回应。

这背后是一套名为「语音活动检测」（VAD）的机制在主导，它像一个裁判，严格划分着你和AI的发言轮次。这种模式，与人类自然对话中那种你来我往、信息流交织的状态，相去甚远。

而面壁智能与TML的共同洞察是：真正的自然交互，必须打破这种轮次限制，进入一个「全双工」的流式处理时代。

面壁智能的先行：
这正是面壁智能在2月发布并开源MiniCPM-o 4.5时提出的核心理念。在其技术报告中，面壁智能将目标定义为构建一个能够处理和生成「交错多模态信息」的系统，其核心动机就是摆脱「对讲机」的束缚。

TML的愿景：
在其博客中，翁荔团队明确指出，要从「回合制」转变为处理平行的输入、输出信息流。AI 应该能一边听你说话，一边看着周围的环境，同时思考并生成回应，甚至在你话音未落时就能捕捉到意图，进行打断或补充。

这是面壁智能的MiniCPM-o 4.5，打破了传统交互中「对讲机」的模式：

这是TML的模型效果：

双方几乎用不同的语言，描述了同一个未来。这标志着，AI交互的下一次范式革命，已经有了清晰的靶心。

02.

高度重合的技术框架

如果说目标一致是「英雄所见略同」，那么实现路径的高度重合，则让这场技术共识变得无可辩驳。TML与面壁智能，仿佛拿着同一张地图，走向了同一个目的地。

这张「地图」的核心，是一种基于时间对齐的流式处理框架。

面壁智能称之为「Omni-Flow」框架。其原理是将连续的音视频流，像切香肠一样，切成以毫秒（如200ms）为单位的细小片段。然后，将同一时间片段内的视觉、听觉和已生成的文本token「打包」在一起，形成一个按时间排序的统一序列，喂给大模型。

▲面壁智能Omni-Flow框架示意图

而TML在其博客中提出的，是「基于时间对齐的微轮次」（Time-aligned micro-turn based）概念。其图示与Omni-Flow 的原理如出一辙：同样是将多模态信息流切碎成带有时间戳的微小单元，然后在一条共享的时间轴上对齐融合。

▲TML微轮次框架示意图

这种设计的精妙之处在于，它将世界从AI视角下离散的、模态各异的数据，还原成了其本来的面目——一个连续不断、多感官信息交织的整体。

正是基于这一共同的底层架构，两者都实现了两个颠覆性的能力：

让模型自己决定「何时说」：
由于信息是连续输入的，模型学会了在对话的「流」中寻找最佳发言时机，彻底摆脱了对VAD的依赖。

实现「主动交互」：
模型不再是被动等待指令的机器，而是可以主动与周围的环境进行交互，对环境的变动、人物做出反应。

从革命的目标，到核心的实现框架，再到最终呈现的能力，TML的首秀与面壁智能三个月前的工作，形成了完美的闭环印证。

03.

愿景与现实：谁先撞线？

既然技术路线高度一致，那么评判的标尺自然就落在了「执行力」上——谁先将蓝图变成了现实？

答案是清晰的。

TML（2026年5月）：交付的是一份详尽的技术博客和一支制作精良的Demo视频。它成功地将一个激动人心的技术愿景传递给了世界，但截至目前，它仍是一个「期货」。

面壁智能（2026年2月与4月）：交付的是一套完整、开源、可立即上手的技术栈。包括了可部署的模型权重、复现所有工作的源代码、长达数十页的详尽技术报告，以及人人可试玩的在线Demo。它是一个已经可以触摸和使用的「现货」。

MiniCPM-o 4.5技术报告地址：

https://github.com/OpenBMB/MiniCPM-V/blob/main/docs/MiniCPM_o_45_technical_report.pdf

如果说翁荔团队是向世界宣告「我们发现了新大陆」，那么面壁智能则是早在三个月前就已经登陆，并绘制好了海图，甚至向所有后来者开放了港口。

▲MiniCPM-o 4.5视觉主动提醒

这种「交付」形态的差异至关重要。在大模型技术一日千里的今天，三个月的时间差，以及「概念展示」与「开源实物」之间的鸿沟，足以定义谁是先行者，谁是验证者。

04.

一场中国AI的「自我证明」

TML与面壁智能的这次「技术撞车」，与其说是一场竞赛，不如说是一次相互成就。

翁荔以其在全球AI领域的巨大影响力，为这一技术方向带来了聚光灯，让「全双工」AI的概念迅速成为行业焦点。

而面壁智能则以其更早的布局、扎实的工程实现和彻底的开源精神，证明了中国AI团队不仅能跟上世界潮流，更有能力在关键领域领先潮流。

直接的数据佐证就是：面壁智能的MiniCPM-o 4.5在2026年2月就已正式开源，比翁荔TML团队领先了3个月。

未来已来，只是分布尚不均匀。这一次，中国AI团队，有幸站在了更早的时区。