点击下方卡片,关注“大模型之心Tech”公众号
自2023年GPT-4震撼发布以来,大型语言模型(LLM)领域的发展轨迹经历了深刻变革。本文旨在系统性地剖析这一演进历程,揭示技术突破背后的驱动逻辑,并展望未来方向。
一、转折点:GPT-4与规模至上范式的终结(2023)
1.1 GPT-4:规模巅峰与范式固化
2023年初,LLM的发展遵循着一条看似普适的铁律:“规模即能力”(Scaling Laws)。OpenAI的GPT-4成为这一理念的集大成者。尽管其核心架构仍是Transformer,但通过巨量参数(传闻高达1.76万亿,未证实)和计算资源的堆叠,GPT-4在多项专业和学术基准上(如模拟律师考试排名前10%)展现了超越前代GPT-3.5的卓越能力。其显著进步包括大幅扩展的上下文窗口(8K/32K),以及OpenAI宣称的在可靠性、创造力和指令遵循上的提升。
然而,GPT-4的发布也因技术细节的全面保密被戏称为“CloseAI”。OpenAI在技术报告中明确表示,出于竞争与安全考虑,不再公开架构、参数量、硬件、训练计算、数据集等核心信息。这一决策引发了社区对透明度的广泛讨论,同时也进一步固化了“唯规模论”的行业信念——即更大算力、更多数据、更大参数是提升智能的唯一路径。
1.2 规模范式裂痕显现(2024)
令人深思的是,在GPT-4发布后长达一年多的时间里,尽管行业投入了巨额算力、挖掘了海量数据、汇聚了顶尖人才,期待中的“GPT-5”级飞跃并未如期而至。这标志着单纯依赖规模扩张的范式遭遇了系统性挑战,促使行业进行深刻反思。裂痕主要源于三方面:
效率瓶颈迫在眉睫: Transformer注意力机制的O(L²)计算复杂度与密集型模型的高昂推理成本,严重制约了上下文长度扩展和实际部署。
推理能力亟待突破: 业界意识到,单纯扩大规模无法赋予模型强大的多步逻辑推理和复杂规划能力。模型在需要深度演绎的任务上表现依然不佳。
智能体需求浮出水面: 推理能力的增强自然引向下一步:模型如何根据推理结果采取行动?这要求模型不仅能“思考”,还需能与外部工具和环境交互,执行复杂任务,标志着智能体(Agentic AI)时代的来临。
这三股驱动力相互关联,构成了一条清晰的因果链,共同塑造了2023至2025年前沿模型架构的演进逻辑:效率提升是经济可行推理模型的前提,强大推理能力是构建有效智能体的基石。
二、效率革命:稀疏化与注意力机制创新(2024-至今)
2.1 核心策略:混合专家(MoE)架构崛起
MoE成为应对效率挑战的核心武器。其核心思想是:用大量小型“专家”网络替换Transformer中计算密集的前馈网络(FFN)层。通过门控机制,每个输入token仅激活一小部分专家。这使得模型总参数量可以剧增(知识容量大),但每次推理激活的计算量(FLOPs)和参数量却只占一小部分,显著降低了训练和推理成本。
DeepSeek的开源实践:
DeepSeek-V2 (236B): 引入DeepSeekMoE架构,总参数量236B,每个token仅激活21B,实现>10:1的稀疏比,在保持知识容量的同时大幅降低推理成本。
DeepSeek-V2-Lite (16B): 轻量MoE版本,便于研究与部署。采用共享专家(处理通用模式)+ 路由专家(处理特定问题)的细粒度设计。
DeepSeek-R1 (671B): 专为推理优化的MoE模型,总参数量671B,每个token激活37B,证明了MoE是实现千亿级参数模型的可行路径(尤其在高性能计算协同设计下)。
Qwen的混合策略:
Qwen3系列同时提供密集模型(最高32B,性能稳定、微调简单)和MoE模型(如30B-A3B, 235B-A22B,代表技术前沿),满足不同市场需求。其开源生态(尤其在Hugging Face)活跃度极高。
Minimax-m1的混合MoE (456B):
新近开源的模型,采用MoE架构(32位专家),总参数量456B,每个token激活45.9B,同样维持了约10:1的稀疏比,并在超长上下文方面有显著提升。

2.2 攻克核心瓶颈:超越二次方复杂度的注意力机制
MoE解决了FFN层的计算问题,而注意力机制的O(L²)复杂度则是处理超长上下文(如百万Token)的主要障碍。
DeepSeek的多头潜在注意力(MLA):
机制: 将长序列的Key/Value(KV)缓存压缩成一个低秩的潜在向量,极大减少存储历史信息所需内存(支持128K上下文,KV缓存减少93.3%)。
V3演进: 引入动态低秩投影(自适应调整压缩强度)和分层自适应缓存(在深层修剪早期KV条目),优化进入精细化、动态化阶段。
Minimax-m1的闪电注意力(Lightning Attention):
机制: 采用激进混合方案:大部分层使用线性复杂度(O(L))的“闪电注意力”,每隔七层插入一个标准softmax注意力层以保障表达能力。
影响: 极大降低长序列计算负荷(生成长100K Token的FLOPs仅为DeepSeek R1的25%),支持高达100万Token上下文。
Qwen2.5的分组查询注意力(GQA): 作为现代LLM的标准优化技术,有效提升了KV缓存利用效率,平衡性能与开销。
2.3 效率:从技术到战略护城河
效率架构的选择已成为核心商业战略,塑造了不同AI实验室的竞争格局:
开源力量(如DeepSeek, Qwen): 公开架构创新细节(MoE, MLA等),核心价值主张是:以远低于专有模型的成本提供接近SOTA的性能 + 架构透明度(利于定制和研究)。通过开源和性价比冲击高成本壁垒,占领市场。
闭源巨头(如OpenAI, Anthropic): 同样大力投入效率(如GPT-4o API价格比GPT-4 Turbo便宜50%),但实现细节保密。将效率提升节省的资源,再投资于计算成本更高的专有功能(如扩展思考、智能体工具使用)。其护城河在于:效率解锁的、难以复制的独特能力。
这种分化形成了动态竞争格局:开源模型不断压低标准推理服务价格,迫使闭源领导者持续创新,推出能证明高溢价和专有性的尖端新功能。效率追求成为整个领域发展的引擎,既驱动基础能力“商品化”,也催生新功能前沿的开拓。
三、范式跃迁:推理时计算(Thinking)成为新维度(2025)
3.1 “思考”范式的兴起与实践
新范式的核心在于:将计算开销重心部分从预训练转移到推理阶段。模型在生成最终答案前,花费额外计算资源生成内部“思考链”(Chain-of-Thought, CoT),从而在复杂逻辑、数学和规划任务上实现性能飞跃。这标志着模型从静态知识检索向动态问题解决演进。
OpenAI o系列(o1, o3, o4-mini): 开创者。模型明确进行长时间、对用户隐藏的内部“思考”。在重推理基准(如AIME美国数学邀请赛)上效果惊人(o1解决率83% vs GPT-4o的13%),证明了“推理时计算”的价值。变体如o4-mini专为编码/STEM等任务优化。
Anthropic Claude系列(3.7, 4): 主打“混合推理模型”。用户可在“快速响应”和“扩展思考”(Extended Thinking)模式间选择,在延迟和准确性间权衡。
Google Gemini 2.5 Pro: 近期在多基准测试中表现卓越(见下图),成为强有力的竞争者。

Qwen3: 提供“思考”与“非思考”模式,API中直接开放“思考预算”(Thinking Budget)参数,成为行业共识体现。思考模式专攻复杂逻辑/数学/编码。
3.2 为推理而训练:强化学习(RL)的演进
RL的角色发生根本转变:从主要用于对话对齐(RLHF),变为教授模型如何进行推理的核心方法。“推理时间”本身成为新的Scaling Law。
DeepSeek-R1的RL优先流水线: 训练流程以RL为中心。SFT冷启动后,进行大规模基于规则的RL(激励清晰准确的推理过程),再进行更多SFT和最终对齐RL。目标是促进模型涌现自我验证、错误修正等高级行为(Aha moment),减少对人工标注推理数据的依赖(GRPO模式及其变体广泛应用)。
Minimax-m1的CISPO算法: 开发新型RL算法CISPO(裁剪重要性采样策略优化),通过裁剪权重而非信任域约束稳定训练。对成功训练庞大456B MoE模型至关重要,在处理需长远规划的任务时提升2倍训练速度(三周完成RL周期)。
3.3 从思考到行动:智能体工具使用的黎明
当模型具备推理规划能力后,自然延伸便是通过外部工具执行计划——即AI智能体。
OpenAI o3/o4-mini: 首批具备“智能体工具使用”(Agentic Tool Use)能力的模型。能自主决策组合使用网页搜索、代码分析、图像生成等工具解决复杂请求,动态调整策略。
Anthropic Claude 4: 配套发布专为构建智能体设计的API:代码沙盒、文件API、MCP工具。结合其独特的“计算机使用”(生成鼠标键盘操作)能力,成为构建与数字信息/GUI交互的强智能体平台。
四、当前格局:多维竞争与专业分化
4.1 主要玩家架构哲学
OpenAI: 引领“推理计算”范式(o系列),聚焦能力优先,架构细节保密,利用先发优势打造智能体。
DeepSeek: 清晰开源战略。在MoE、MLA等透明架构上创新,采用GRPO等RL方法,以高性价比挑战专有生态。
Anthropic: “安全优先,能力驱动”。跟进推理(混合推理)和智能体(计算机使用、智能体API),强调可控性、可理解性、企业级可靠性和代码能力。
Google: “平台与产品组合”战略。通过Gemini 2.5家族(Pro, Flash, Lite)提供基于统一“思考模型”的分层解决方案,深度集成Google Cloud (Vertex AI)。
Qwen: “灵活产品组合”战略。同时提供密集和MoE模型(Qwen3),开创超长上下文(Qwen2.5-1M),满足广泛需求,尤其活跃于多语言和开源生态。
Minimax: “探索混合”精神。m1模型融合多种前沿思想(MoE、混合注意力、新RL算法)于开源权重,展现独特架构组合意愿。
4.2 评估范式的转变
模型架构的演进直接导致评估基准的分化:

传统基准饱和: MMLU等知识密集型选择题基准得分趋近高端,区分度下降(2025 AI Index报告已指出)。
新基准成为SOTA标准: 复杂推理(GPQA, AIME)和智能体执行(SWE-bench, Terminal-bench)基准成为衡量前沿模型的真正标尺。
SOTA定义专业化: 不再单一。模型在不同维度各领风骚:
Claude 4 (Anthropic):SWE-bench领先 → 编码智能体SOTA
o3/o4-mini (OpenAI):AIME卓越 → 数学推理SOTA
Gemini 2.5 Pro (Google):上下文/多模态领先 → 相关领域SOTA 选择最佳模型愈发依赖具体用例,反映市场成熟与多样化。
五、未来展望:具身智能与架构探索
5.1 迈向具身智能与世界模型
当前推理与智能体的发展,是通向具身智能(Embodied AI)的直接前奏。感知-推理-规划-行动的闭环是其核心。Claude 4的产品化能力、OpenAI的智能体框架,标志着模型从控制软件工具迈向控制物理执行器的第一步。
核心挑战在于迁移到物理世界面临的实时性约束。未来研究(如Corki框架)将聚焦算法-硬件协同设计(如预测运动轨迹而非单帧动作),解耦高延迟LLM推理与低延迟控制。世界模型(World Models)——能理解预测物理世界动态的AI系统——将成为下一个热点。
5.2 后Transformer架构的探索
Transformer固有局限(组合推理困难、O(L²)复杂度)促使业界探索替代方案,但目前尚无架构能完全取代。多数“后Transformer”研究实为改进:
状态空间模型(SSMs)在复制上下文信息等任务上表现不如Transformer。
创新集中于:新层归一化方案(如ResiDual)稳定深度训练、更高效的长上下文处理方法等增量优化。
5.3 结论:现代AI架构的三大支柱
回顾2023至2025年中,LLM领域完成了从单一追求规模(Scale) 到构建三维能力支柱的战略转向:
效率(Efficiency): 通过MoE稀疏化、MLA/混合注意力等创新实现。为巨量模型和超长上下文提供经济可行性基础。
推理(Reasoning): 通过分配“推理时计算”(思考预算)和先进RL训练模型涌现问题解决能力实现。模型从知识存储器蜕变为问题解决者。
智能体(Agency): 作为推理能力的应用,实现模型自主使用工具与数字/物理世界交互。是将智能转化为行动的关键跃升。
这一演进将LLM从复杂的文本预测器,转变为初具形态的通用问题解决系统,为未来十年AI发展奠定了坚实的架构基石。在新的竞赛中,胜利属于那些最有效率、思考最深刻、行动最强大的系统。
最后欢迎大家加入我们筹备的大模型Agent交流群~
