
量子位: 《2025上半年AI核心成果及趋势报告》
(完整版.pdf ) 以下仅展示部分内容
下载方式见文末
一、序言
人工智能作为人类史上关键发明,正处于飞速发展阶段,技术突破与场景落地共同推动行业加速演进。本报告由量子位智库撰写,聚焦 2025 年上半年 AI 领域关键动态与趋势,从应用、模型、技术、行业四个维度展开分析,旨在为决策者、从业者和创新者提供前沿洞察,助力其在竞争激烈的生态中把握机遇。
二、应用趋势
(一)通用类 Agent 成应用亮点
通用类 Agent 产品深度整合工具使用,主打完成场景多样的深度研究类任务,交付内容更丰富。其核心技术涵盖 Agent Planning 框架、工具调用、记忆能力及沙盒环境等,能检索大量信息源、调用数据库获取数据,生成数千字深度报告,交付形式包括图文、视频、素材、网页、文件等,可完成数小时人类工作量,实现部分生产力自动化。同时,以视觉操作为核心的 Computer Use Agent(CUA)推向市场,通过截取屏幕图像识别 GUI 元素,借助虚拟光标和键盘交互执行操作,代表通用类 Agent 另一发展路径,正与基于文本的深度研究类 Agent 融合。
(二)垂类 Agent 加速涌现
受益于大模型在语义理解、多模态等方面的能力提升,垂直应用场景开始 Agent 化,自然语言操控成为垂类工作流的一部分。旅行领域,飞猪推出 “问一问” 功能,多个 Agent 协同处理路线制定、票务查询等需求;设计领域,LOVART 以自然语言交互为核心,整合专业设计功能,可生成生产级海报或视频;创作领域,INMAX 的视频创作 Agent 能基于简单输入生成专业内容;时尚领域,GENSMO 可通过自然语言生成穿搭并展示效果。
(三)AI 编程实现高速增长
AI 编程成为核心垂类应用领域,从源头改变软件生产方式,头部编程应用收入增长创纪录,Cursor ARR 突破 5 亿美元,验证了其价值空间。产品演化历经代码补全、单文件代码编辑、多文件同时编辑、端到端交付四个阶段,自动化程度不断提升。
(四)模型上下文协议(MCP)受关注
MCP 为大模型提供标准化接口,高效安全调用外部数据和工具,为 Agent 提供技术底座与生态支持,生态包含客户端、服务端、聚合平台三类玩家。但目前技术侧尚未成熟,客户端支持调用数量有限,服务端稳定性参差不齐,且激励机制不完善,软件供应商参与积极性不足,尚未达到规模化生产级水平。不过海内外头部互联网公司积极推动其发展,未来有望成为 AI 核心生态组件。
三、模型趋势
(一)推理能力持续提升
在思维链范式下,模型推理能力可通过堆积算力持续增强,尤其在数理类、代码类问题上提升显著。2024 年底以来,以思维链技术为核心的推理模型通用推理能力不断进步,谷歌和 OpenAI 的实验模型已能用自然语言在国际奥林匹克数学竞赛中取得金牌,在 AIME 25、Codeforce 等榜单中表现也大幅提升。
(二)工具使用能力落地
大模型逐步走向 Agentic,对工具使用进行端到端训练集成,相比仅基于文本的思维链推理有重大突破,可完成更复杂任务。具备工具使用能力的模型能在思考过程中裁剪图像、搜索网页、用 Python 编译器分析数据等,在相关榜单表现中优势明显,而未来模型有望实现自主发明新工具。
(三)多模态能力增强
大模型开始端到端融合视觉和文本,走向多模态推理,以语言为中枢解锁多模态推理的 “系统 2” 慢思考。OpenAI 的 o3 模型擅长视觉推理任务,但存在性能不稳定、幻觉问题多等不足。同时,出现 VisProg、ViperGPT、Visual Sketchpad 等多模态推理框架,在不同视觉推理场景发挥作用。
(四)图像生成能力全方位升级
大模型图像生成在文字渲染、复杂指令理解、多轮对话编辑、上下文关联、审美品味、知识理解等方面全面增强。能生成清晰文字段落、遵循多细节指令、连续编辑内容,还可学习图片风格进行创作,生成内容艺术性与知识准确性提升。
(五)视频生成能力优化
视频生成模型整合原生配音,可控性和编辑灵活度提高,生成视频的物体一致性和物理规律协调性增强,商业化和普及度进展积极。可同步生成背景音效和人物语言,实现音画同步;增强对物理运动的理解,提升内容一致性;支持精细运动控制和多样参考方式,部分模型月收入已达 1400 万美元。
(六)小模型加速普及
模型智能密度提升,厂商积极推出小模型以实现极致性价比,降低部署门槛。国内外多家企业推出不同系列小模型,涵盖通用、代码生成、推理等多个方向,支持大上下文窗口,可在低算力设备或边缘计算场景运行,输出成本低,适用于 AI 陪伴、AI 搜索等场景。
(七)评估体系加速演化
传统评估榜单快速饱和,动态更新且能在真实世界产生使用价值的任务成为重要评估方向。随着模型能力增强,静态榜单难以客观反映 AI 能力,未来评估需构建对齐现实世界专家能力的实用性任务体系,考察任务实用性、商业价值或经济产出,相关领域已推出 HealthBench、xBench 等新型基准测试。
四、技术趋势
(一)训练阶段重心变化
资源投入逐渐向后训练和强化学习倾斜,但预训练仍有优化空间,二者共同决定模型能力。预训练阶段让模型学习基础能力和世界知识,虽部分能力表现较弱,但影响后训练和推理阶段能力,投入必要性高;后训练 / RL 阶段主要激发基座模型能力,放大已有能力或激发新能力,但对智能上限的提升存在争议,可能不创造新能力。
(二)强化学习重要性凸显
强化学习的重要性持续提升,未来算力消耗或超过以自监督学习为核心的预训练,并从数学、代码等奖励清晰的领域向其他领域泛化。其关键在于奖励模型设置,在有明确答案的领域较易实现,无清晰反馈领域需专门模型评分。OpenAI 的 o1、o3 等模型落地应用强化学习,且随着模型集成工具调用等能力,对强化学习的算力要求更高。
(三)多智能体(Multi-Agent)系统成前沿范式
多智能体系统可能成为继思维链推理模型后的下一个前沿范式,可提高智能上限。单 Agent 存在上下文、工具调用、领域知识等方面的限制,而多智能体系统具有分布式并行处理、高效利用上下文、能力多样化、鲁棒性与容错性强等优势,采用领导型与执行型 Agent 结合的基本模式,Grok 4 Heavy、Claude 等产品已采用该架构。
(四)在线学习成核心突破方向
从交互经验中学习有望成为下一代模型学习方式,可使模型摆脱对人类数据的依赖,提高智能上限。当前静态大模型依赖大量人类生成数据,面临高质量数据稀缺、数据质量有上限等问题。在线学习大模型具有持续经验流、行动和观察能力、吸收现实反馈等核心特征,Google Deepmind 等机构已提出相关理念。
(五)模型架构迭代升级
Transformer 模型架构快速迭代,优化集中在注意力机制和前馈神经网络等层面,工业界有多个落地案例,如 UltraMem 优化前馈神经网络稀疏化、Dynamic Tanh 替代归一化层等。同时,Transformer 混合架构涌现,以 RNN 变体为主,出现 RWKV-7、MambaVision、Titans 等新型架构,在序列建模、视觉应用等场景表现优异。
(六)代码验证成 AI 编程突破点
由于生成和验证难度不对称,代码验证成为提升 AI 编程自动化水平的前沿方向。大模型虽加速代码生成,但在指令遵循、意图理解等方面不足,且代码验证成本高、门槛高。解决验证问题需将复杂问题拆解为易验证小问题,遵循客观事实、快速验证、可扩展验证等原则,目前 AI 编程仍需大量人类反馈和修改。
(七)系统提示词影响模型用户体验
系统提示词成为决定模型用户体验的关键技术要素,相比更新大模型更轻量化、敏捷化。其不改变模型参数,更新成本极低,可实时根据反馈调整,能提供系统级指令指导模型行为、角色和响应风格,实现高度个性化。以 Claude 模型为例,系统提示词涵盖引用指令、工具定义指令等多个方面,未来将走向个性化。
五、行业趋势
(一)模型层竞争格局变化
xAI 发布的 Grok 4 在多个领域达到 SOTA 水平,跻身全球大模型第一梯队。其成功得益于充足的资本、算力和人才支撑,以及顶尖的执行效率和特斯拉的工程支持,证明大模型业务只有高壁垒而无护城河,模型厂商需持续大量投入应对竞争。
(二)头部玩家差距缩小
OpenAI 的技术领先优势弱化,海外头部玩家水平趋同,谷歌和 xAI 在 2025 年上半年迎头赶上,其模型在多个领域达到 SOTA 水准。谷歌的 Gemini 2.5 Pro 综合推理能力优秀,xAI 的 Grok 4 在科学、工程类问题上表现突出,Anthropic 的 Claude 4 在代码能力等方面领先,头部模型公司差距进一步缩小,竞争激烈。
(三)中美大模型差距缩小
中美通用大模型技术差距缩小,中国模型公司在多模态、代码生成等领域达到世界一流水平,尤其多模态领域表现出色。在视频生成、图像生成 & 编辑、音频生成、前端代码生成等多个榜单中,中国模型均占据前列。此外,中国模型在低成本和响应速率上具有优势,相关模型的训练和推理成本低于海外头部模型。
(四)AI 编程成必争之地
AI 编程领域成为模型厂商竞争焦点,海外和国内头部玩家在模型和产品领域密集布局。海外厂商如 OpenAI、Anthropic、谷歌、xAI 等推出针对性优化的模型,开发 Codex、Claude Code 等产品,并通过并购、举办开发者大会等方式构建生态;国内厂商如阿里、字节跳动、百度等推出开源模型,打造通义灵码、Trae 等产品,多采取对标海外明星应用的策略。编程被认为是 AI 最先超越人类水平的高价值应用场景,是各模型公司路线图的核心。
(五)国内创业公司路线分化
国内大模型创业公司路线开始分化,部分厂商持续投入通用模型研发,发力 C 端或 P 端产品,追求智能上限,保持技术驱动,如 DeepSeek、Moonshot AI 等发布多款前沿模型并开源;其他厂商则转向追求行业落地和商业化,或聚焦垂直领域。DeepSeek 的出圈改变了国内竞争格局,驱动中国模型厂商采取开源战略。





☟☟☟
☝
精选报告推荐:
11份清华大学的DeepSeek教程,全都给你打包好了,直接领取:
10份北京大学的DeepSeek教程
8份浙江大学的DeepSeek专题系列教程
4份51CTO的《DeepSeek入门宝典》
5份厦门大学的DeepSeek教程
10份浙江大学的DeepSeek公开课第二季专题系列教程
6份浙江大学的DeepSeek公开课第三季专题系列教程
资料下载方式
Download method of report materials


如需获取更多报告
报告部分截图

编辑:Zero

文末福利
1.赠送800G人工智能资源。
获取方式:关注本公众号,回复“人工智能”。
2.「超级公开课NVIDIA专场」免费下载
获取方式:关注本公众号,回复“公开课”。
3.免费微信交流群:
人工智能行业研究报告分享群、
人工智能知识分享群、
智能机器人交流论坛、
人工智能厂家交流群、
AI产业链服务交流群、
STEAM创客教育交流群、
人工智能技术论坛、
人工智能未来发展论坛、
AI企业家交流俱乐部
雄安企业家交流俱乐部
细分领域交流群:
【智能家居系统论坛】【智慧城市系统论坛】【智能医疗养老论坛】【自动驾驶产业论坛】【智慧金融交流论坛】【智慧农业交流论坛】【无人飞行器产业论坛】【人工智能大数据论坛】【人工智能※区块链论坛】【人工智能&物联网论坛】【青少年教育机器人论坛】【人工智能智能制造论坛】【AI/AR/VR/MR畅享畅聊】【机械自动化交流论坛】【工业互联网交流论坛】
入群方式:关注本公众号,回复“入群”

