【精选报告】上半年专题一：量子位智库：2025上半年AI核心成果及趋势报告（附PDF下载）

量子位：
《2025上半年AI核心成果及趋势报告》

（完整版.pdf ）
以下仅展示部分内容
下载方式见文末

一、序言

人工智能作为人类史上关键发明，正处于飞速发展阶段，技术突破与场景落地共同推动行业加速演进。本报告由量子位智库撰写，聚焦 2025 年上半年 AI 领域关键动态与趋势，从应用、模型、技术、行业四个维度展开分析，旨在为决策者、从业者和创新者提供前沿洞察，助力其在竞争激烈的生态中把握机遇。

二、应用趋势

（一）通用类 Agent 成应用亮点

通用类 Agent 产品深度整合工具使用，主打完成场景多样的深度研究类任务，交付内容更丰富。其核心技术涵盖 Agent Planning 框架、工具调用、记忆能力及沙盒环境等，能检索大量信息源、调用数据库获取数据，生成数千字深度报告，交付形式包括图文、视频、素材、网页、文件等，可完成数小时人类工作量，实现部分生产力自动化。同时，以视觉操作为核心的 Computer Use Agent（CUA）推向市场，通过截取屏幕图像识别 GUI 元素，借助虚拟光标和键盘交互执行操作，代表通用类 Agent 另一发展路径，正与基于文本的深度研究类 Agent 融合。

（二）垂类 Agent 加速涌现

受益于大模型在语义理解、多模态等方面的能力提升，垂直应用场景开始 Agent 化，自然语言操控成为垂类工作流的一部分。旅行领域，飞猪推出 “问一问” 功能，多个 Agent 协同处理路线制定、票务查询等需求；设计领域，LOVART 以自然语言交互为核心，整合专业设计功能，可生成生产级海报或视频；创作领域，INMAX 的视频创作 Agent 能基于简单输入生成专业内容；时尚领域，GENSMO 可通过自然语言生成穿搭并展示效果。

（三）AI 编程实现高速增长

AI 编程成为核心垂类应用领域，从源头改变软件生产方式，头部编程应用收入增长创纪录，Cursor ARR 突破 5 亿美元，验证了其价值空间。产品演化历经代码补全、单文件代码编辑、多文件同时编辑、端到端交付四个阶段，自动化程度不断提升。

（四）模型上下文协议（MCP）受关注

MCP 为大模型提供标准化接口，高效安全调用外部数据和工具，为 Agent 提供技术底座与生态支持，生态包含客户端、服务端、聚合平台三类玩家。但目前技术侧尚未成熟，客户端支持调用数量有限，服务端稳定性参差不齐，且激励机制不完善，软件供应商参与积极性不足，尚未达到规模化生产级水平。不过海内外头部互联网公司积极推动其发展，未来有望成为 AI 核心生态组件。

三、模型趋势

（一）推理能力持续提升

在思维链范式下，模型推理能力可通过堆积算力持续增强，尤其在数理类、代码类问题上提升显著。2024 年底以来，以思维链技术为核心的推理模型通用推理能力不断进步，谷歌和 OpenAI 的实验模型已能用自然语言在国际奥林匹克数学竞赛中取得金牌，在 AIME 25、Codeforce 等榜单中表现也大幅提升。

（二）工具使用能力落地

大模型逐步走向 Agentic，对工具使用进行端到端训练集成，相比仅基于文本的思维链推理有重大突破，可完成更复杂任务。具备工具使用能力的模型能在思考过程中裁剪图像、搜索网页、用 Python 编译器分析数据等，在相关榜单表现中优势明显，而未来模型有望实现自主发明新工具。

（三）多模态能力增强

大模型开始端到端融合视觉和文本，走向多模态推理，以语言为中枢解锁多模态推理的 “系统 2” 慢思考。OpenAI 的 o3 模型擅长视觉推理任务，但存在性能不稳定、幻觉问题多等不足。同时，出现 VisProg、ViperGPT、Visual Sketchpad 等多模态推理框架，在不同视觉推理场景发挥作用。

（四）图像生成能力全方位升级

大模型图像生成在文字渲染、复杂指令理解、多轮对话编辑、上下文关联、审美品味、知识理解等方面全面增强。能生成清晰文字段落、遵循多细节指令、连续编辑内容，还可学习图片风格进行创作，生成内容艺术性与知识准确性提升。

（五）视频生成能力优化

视频生成模型整合原生配音，可控性和编辑灵活度提高，生成视频的物体一致性和物理规律协调性增强，商业化和普及度进展积极。可同步生成背景音效和人物语言，实现音画同步；增强对物理运动的理解，提升内容一致性；支持精细运动控制和多样参考方式，部分模型月收入已达 1400 万美元。

（六）小模型加速普及

模型智能密度提升，厂商积极推出小模型以实现极致性价比，降低部署门槛。国内外多家企业推出不同系列小模型，涵盖通用、代码生成、推理等多个方向，支持大上下文窗口，可在低算力设备或边缘计算场景运行，输出成本低，适用于 AI 陪伴、AI 搜索等场景。

（七）评估体系加速演化

传统评估榜单快速饱和，动态更新且能在真实世界产生使用价值的任务成为重要评估方向。随着模型能力增强，静态榜单难以客观反映 AI 能力，未来评估需构建对齐现实世界专家能力的实用性任务体系，考察任务实用性、商业价值或经济产出，相关领域已推出 HealthBench、xBench 等新型基准测试。

四、技术趋势

（一）训练阶段重心变化

资源投入逐渐向后训练和强化学习倾斜，但预训练仍有优化空间，二者共同决定模型能力。预训练阶段让模型学习基础能力和世界知识，虽部分能力表现较弱，但影响后训练和推理阶段能力，投入必要性高；后训练 / RL 阶段主要激发基座模型能力，放大已有能力或激发新能力，但对智能上限的提升存在争议，可能不创造新能力。

（二）强化学习重要性凸显

强化学习的重要性持续提升，未来算力消耗或超过以自监督学习为核心的预训练，并从数学、代码等奖励清晰的领域向其他领域泛化。其关键在于奖励模型设置，在有明确答案的领域较易实现，无清晰反馈领域需专门模型评分。OpenAI 的 o1、o3 等模型落地应用强化学习，且随着模型集成工具调用等能力，对强化学习的算力要求更高。

（三）多智能体（Multi-Agent）系统成前沿范式

多智能体系统可能成为继思维链推理模型后的下一个前沿范式，可提高智能上限。单 Agent 存在上下文、工具调用、领域知识等方面的限制，而多智能体系统具有分布式并行处理、高效利用上下文、能力多样化、鲁棒性与容错性强等优势，采用领导型与执行型 Agent 结合的基本模式，Grok 4 Heavy、Claude 等产品已采用该架构。

（四）在线学习成核心突破方向

从交互经验中学习有望成为下一代模型学习方式，可使模型摆脱对人类数据的依赖，提高智能上限。当前静态大模型依赖大量人类生成数据，面临高质量数据稀缺、数据质量有上限等问题。在线学习大模型具有持续经验流、行动和观察能力、吸收现实反馈等核心特征，Google Deepmind 等机构已提出相关理念。

（五）模型架构迭代升级

Transformer 模型架构快速迭代，优化集中在注意力机制和前馈神经网络等层面，工业界有多个落地案例，如 UltraMem 优化前馈神经网络稀疏化、Dynamic Tanh 替代归一化层等。同时，Transformer 混合架构涌现，以 RNN 变体为主，出现 RWKV-7、MambaVision、Titans 等新型架构，在序列建模、视觉应用等场景表现优异。

（六）代码验证成 AI 编程突破点

由于生成和验证难度不对称，代码验证成为提升 AI 编程自动化水平的前沿方向。大模型虽加速代码生成，但在指令遵循、意图理解等方面不足，且代码验证成本高、门槛高。解决验证问题需将复杂问题拆解为易验证小问题，遵循客观事实、快速验证、可扩展验证等原则，目前 AI 编程仍需大量人类反馈和修改。

（七）系统提示词影响模型用户体验

系统提示词成为决定模型用户体验的关键技术要素，相比更新大模型更轻量化、敏捷化。其不改变模型参数，更新成本极低，可实时根据反馈调整，能提供系统级指令指导模型行为、角色和响应风格，实现高度个性化。以 Claude 模型为例，系统提示词涵盖引用指令、工具定义指令等多个方面，未来将走向个性化。

五、行业趋势

（一）模型层竞争格局变化

xAI 发布的 Grok 4 在多个领域达到 SOTA 水平，跻身全球大模型第一梯队。其成功得益于充足的资本、算力和人才支撑，以及顶尖的执行效率和特斯拉的工程支持，证明大模型业务只有高壁垒而无护城河，模型厂商需持续大量投入应对竞争。

（二）头部玩家差距缩小

OpenAI 的技术领先优势弱化，海外头部玩家水平趋同，谷歌和 xAI 在 2025 年上半年迎头赶上，其模型在多个领域达到 SOTA 水准。谷歌的 Gemini 2.5 Pro 综合推理能力优秀，xAI 的 Grok 4 在科学、工程类问题上表现突出，Anthropic 的 Claude 4 在代码能力等方面领先，头部模型公司差距进一步缩小，竞争激烈。

（三）中美大模型差距缩小

中美通用大模型技术差距缩小，中国模型公司在多模态、代码生成等领域达到世界一流水平，尤其多模态领域表现出色。在视频生成、图像生成 & 编辑、音频生成、前端代码生成等多个榜单中，中国模型均占据前列。此外，中国模型在低成本和响应速率上具有优势，相关模型的训练和推理成本低于海外头部模型。

（四）AI 编程成必争之地

AI 编程领域成为模型厂商竞争焦点，海外和国内头部玩家在模型和产品领域密集布局。海外厂商如 OpenAI、Anthropic、谷歌、xAI 等推出针对性优化的模型，开发 Codex、Claude Code 等产品，并通过并购、举办开发者大会等方式构建生态；国内厂商如阿里、字节跳动、百度等推出开源模型，打造通义灵码、Trae 等产品，多采取对标海外明星应用的策略。编程被认为是 AI 最先超越人类水平的高价值应用场景，是各模型公司路线图的核心。

（五）国内创业公司路线分化

国内大模型创业公司路线开始分化，部分厂商持续投入通用模型研发，发力 C 端或 P 端产品，追求智能上限，保持技术驱动，如 DeepSeek、Moonshot AI 等发布多款前沿模型并开源；其他厂商则转向追求行业落地和商业化，或聚焦垂直领域。DeepSeek 的出圈改变了国内竞争格局，驱动中国模型厂商采取开源战略。

【精选报告】上半年专题一：量子位智库：2025上半年AI核心成果及趋势报告（附PDF下载）图2

【精选报告】上半年专题一：量子位智库：2025上半年AI核心成果及趋势报告（附PDF下载）图3

【精选报告】上半年专题一：量子位智库：2025上半年AI核心成果及趋势报告（附PDF下载）图4

【精选报告】上半年专题一：量子位智库：2025上半年AI核心成果及趋势报告（附PDF下载）图5

【精选报告】上半年专题一：量子位智库：2025上半年AI核心成果及趋势报告（附PDF下载）图6

☟☟☟

☝

精选报告推荐：

11份清华大学的DeepSeek教程，全都给你打包好了，直接领取：

10份北京大学的DeepSeek教程

8份浙江大学的DeepSeek专题系列教程

4份51CTO的《DeepSeek入门宝典》

5份厦门大学的DeepSeek教程

10份浙江大学的DeepSeek公开课第二季专题系列教程

6份浙江大学的DeepSeek公开课第三季专题系列教程

篇幅有限，部分展示

加入会员，任意下载

资料下载方式

Download method of report materials

关注公众号后回复：HX0924

即可领取完整版资料

【精选报告】上半年专题一：量子位智库：2025上半年AI核心成果及趋势报告（附PDF下载）图7

荐：

！

【精选报告】上半年专题一：量子位智库：2025上半年AI核心成果及趋势报告（附PDF下载）图8

如需获取更多报告

扫码加入

“人工智能产业链联盟”

知识星球，任意下载相关报告！

报告部分截图

【精选报告】上半年专题一：量子位智库：2025上半年AI核心成果及趋势报告（附PDF下载）图11

声明

来源：量子位，人工智能产业链union（ID:aiyuexingqiu）推荐阅读，不代表人工智能产业链union立场，转载请注明，如涉及作品版权问题，请联系我们删除或做相关处理！

编辑：Zero

【精选报告】上半年专题一：量子位智库：2025上半年AI核心成果及趋势报告（附PDF下载）图12

文末福利

1.赠送800G人工智能资源。

获取方式：关注本公众号，回复“人工智能”。

2.「超级公开课NVIDIA专场」免费下载

获取方式：关注本公众号，回复“公开课”。

3.免费微信交流群：

人工智能行业研究报告分享群、

人工智能知识分享群、

智能机器人交流论坛、

人工智能厂家交流群、

AI产业链服务交流群、

STEAM创客教育交流群、

人工智能技术论坛、

人工智能未来发展论坛、

AI企业家交流俱乐部

雄安企业家交流俱乐部

细分领域交流群：

【智能家居系统论坛】【智慧城市系统论坛】【智能医疗养老论坛】【自动驾驶产业论坛】【智慧金融交流论坛】【智慧农业交流论坛】【无人飞行器产业论坛】【人工智能大数据论坛】【人工智能※区块链论坛】【人工智能＆物联网论坛】【青少年教育机器人论坛】【人工智能智能制造论坛】【AI/AR/VR/MR畅享畅聊】【机械自动化交流论坛】【工业互联网交流论坛】

入群方式：关注本公众号，回复“入群”