QWEN 论文全盘点
从初代 Qwen 到 Qwen3
26 篇技术报告深度回顾
2023.09 – 2026.01 · 26 篇论文 · 2905 HF Upvotes
2023 年 9 月,阿里通义实验室在 HuggingFace 上线第一篇 Qwen 技术报告。两年多后,26 篇论文、2905 个 Upvote,Qwen 家族已成为开源领域迭代速度最快、覆盖模态最全的模型体系之一。
基座语言模型从 Qwen → Qwen2 → Qwen2.5 → Qwen3 → Qwen3.5;多模态从视觉语言→音频→全模态持续扩展;能力边界延伸至代码生成、图像生成、嵌入检索、安全护栏。
Insight:Qwen 展示了一种"系统性铺张"的竞争策略——不求单点突破,而是以密集产品线覆盖封堵竞争对手的市场缝隙。
PaperScope 精品专题
Qwen 通义千问系列 · 28 篇论文合集
PaperScope 上线了精品专题栏目,按公司、领域、热点组织的论文专区,帮你快速追踪 AI 前沿研究动态。

🔗 paperscope.ai/topics/qwen
📋 26 篇论文速览(时间倒序)
01. Qwen3-ASR:52 种语言、92ms 延迟,开源 SOTA 语音识别 36↑ · 2026-01-30
02. Qwen3-TTS:3 秒声音克隆、97ms 首包延迟,双分词器流式语音合成 69↑ · 2026-01-23
03. 多模态大模型安全评测:GPT、Gemini、Qwen3-VL 等六大系统横评 25↑ · 2026-01-16
04. Qwen3-VL-Embedding/Reranker:统一多模态表征空间,文档 / 图像 / 视频一体检索 56↑ · 2026-01-12
05. Qwen-Image-Layered:端到端图像分层生成,语义解耦的 RGBA 图层输出 66↑ · 2025-12-18
06. QwenLong-L1.5:稳定化 RL + 自适应熵控制,让长上下文真正会推理 108↑ · 2025-12-16
07. Qwen3-VL:256K 原生交错上下文,Dense + MoE 全尺寸视觉语言旗舰 159↑ · 2025-12-04
08. Qwen3Guard:流式安全护栏,119 种语言实时 Token 级安全监控 15↑ · 2025-10-17
09. Qwen3-Omni:Thinker-Talker MoE,全模态 32 项开源 SOTA 无退化 149↑ · 2025-09-23
10. Qwen-Image:突破中文文字渲染,多任务扩散基础模型 272↑ · 2025-08-05
11. Qwen3 Embedding:基于 Qwen3 LLM 的文本嵌入与重排序,GTE 系列重大升级 79↑ · 2025-06-06
12. QwenLong-L1:三阶段渐进 RL,将短上下文推理模型适配到百万长度 88↑ · 2025-05-26
13. QwenLong-CPRS:语言引导动态压缩,4K 到 2M 上下文全覆盖 43↑ · 2025-05-26
14. Qwen3 Technical Report 337↑ · 2025-05-19
15. An Empirical Study of Qwen3 Quantization 25↑ · 2025-05-07
16. Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs 37↑ · 2025-04-02
17. Qwen2.5-Omni Technical Report 170↑ · 2025-03-27
18. Qwen2.5-VL Technical Report 214↑ · 2025-02-20
19. Qwen2.5-1M Technical Report 72↑ · 2025-01-28
20. Qwen2.5 Technical Report 377↑ · 2024-12-20
21. Qwen2.5-Coder Technical Report 153↑ · 2024-09-19
22. Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution 78↑ · 2024-09-19
23. Qwen2-Audio Technical Report 64↑ · 2024-07-17
24. Qwen2 Technical Report 168↑ · 2024-07-16
25. Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models 10↑ · 2023-11-15
26. Qwen Technical Report 35↑
Qwen3 时代
01
语音识别2026-01-30 · ↑36
Qwen3-ASR:52 种语言、92ms 延迟,开源 SOTA 语音识别

52
支持语言 / 方言数
92ms
0.6B 版首 Token 时延
2000s
128 并发下单秒转录量
Qwen3-ASR 是通义实验室在 2026 年 1 月底推出的自动语音识别模型,同时发布 1.7B 和 0.6B 两个参数规模,支持多达 52 种语言与方言。该模型的核心能力直接继承自 Qwen3-Omni 的音频理解分支,并针对工业级 ASR 场景在推理效率和吞吐量上做了专项优化。
从架构角度看,Qwen3-ASR 采用端到端序列到序列设计,将 Qwen3-Omni 的音频编码器与优化后的解码器对齐,实现低延迟转录。0.6B 版本的 TTFT(首 Token 时延)低至 92ms,在 128 并发场景下单秒可转录 2000 秒语音,已达到工业级实时处理要求。
除核心 ASR 模型外,Qwen3-ASR 还随附 ForcedAligner-0.6B——一个非自回归(NAR)时间戳对齐模型,支持 11 种语言,可将转录文本与音频时间轴精确对齐,满足字幕生成、语音标注等下游任务需求。1.7B 版本在开源模型中达到 SOTA,与最强商业 ASR API 处于同等水平,并以 Apache 2.0 协议开源,是目前可商用的最强开源 ASR 选项之一。
在 CommonVoice、AISHELL、LibriSpeech 等多个多语言 ASR 基准上,Qwen3-ASR 1.7B 均超越同等参数量开源模型,并与 Whisper Large-v3、Azure STT 等商业方案持平甚至更优,验证了基于强大多模态底座的 ASR 蒸馏路线的可行性。
🔗 paperscope.ai/hf/2601.21337
02
语音合成2026-01-23 · ↑69
Qwen3-TTS:3 秒声音克隆、97ms 首包延迟,双分词器流式语音合成

500万h
训练语音数据量
97ms
12.5Hz 流式首包延迟
3s
零样本声音克隆所需参考音频
Qwen3-TTS 采用双轨语言模型(Dual-Track LM)架构,将语义理解与音频合成并行建模,实现真正意义上的实时流式语音生成。该模型训练数据涵盖 500 万小时多语言语音,支持 10 种语言,以 Apache 2.0 协议开源,是目前开源 TTS 中综合能力最强的方案之一。
架构创新集中在双分词器设计上:25Hz 分词器以语义保真为主,适合高质量离线合成;12.5Hz 分词器则将音频 token 压缩至极低码率,专为流式场景优化,首包延迟(TTFB)低至 97ms,满足实时交互场景要求。两套分词器可按场景灵活切换,兼顾音质与延迟。
在控制能力方面,Qwen3-TTS 支持仅需 3 秒参考音频的零样本声音克隆,同时允许通过自然语言描述控制音色、语调、语速等特征(描述控制),无需预定义说话人 ID。这一特性大幅降低了个性化 TTS 的门槛,在虚拟助手、有声书、配音自动化等场景有直接商业价值。
Qwen3-TTS 在 SEED-TTS-Eval、EvalSpeech 等多语言 TTS 基准上达到开源 SOTA,在英语、中文、日语、韩语等核心语言的主观 MOS 评分上与顶级商业 API 差距进一步缩小。
🔗 paperscope.ai/hf/2601.15621
03
安全2026-01-16 · ↑25
多模态大模型安全评测:GPT、Gemini、Qwen3-VL 等六大系统横评

6
参评模型系统
4
评估维度
3
覆盖模态类型
这篇安全评测报告由复旦大学研究团队发布,并非 Qwen 官方技术报告,但因其对 Qwen3-VL 进行了系统性评测而被纳入本盘点。报告在统一协议下对 6 个顶级多模态系统进行横向比较,覆盖 GPT-5.2、Gemini 3 Pro、Qwen3-VL、Doubao 1.8、Grok 4.1 Fast 和 Seedream 4.5。
评测框架设计是本报告最值得关注之处:四维评估体系——基准评测(标准化 benchmark)、对抗评测(红队攻击)、多语言评测(跨语言安全一致性)、合规评测(法规遵从),打破了以往单一维度安全评测的局限。同时,评测统一覆盖语言模态、视觉语言模态和图像生成模态,是目前最系统的多模态 AI 安全横评之一。
结果显示,Qwen3-VL 在多语言安全一致性和对抗场景下表现稳健,但各模型在不同评测维度上各有优劣,不存在全维度碾压的系统。报告的重要贡献在于为跨机构的多模态安全评测建立了可复现的标准协议,推动了该领域从"各自评测"走向"统一基准"。
🔗 paperscope.ai/hf/2601.10527
04
多模态检索2026-01-12 · ↑56
Qwen3-VL-Embedding/Reranker:统一多模态表征空间,文档 / 图像 / 视频一体检索

32k
最大输入 token 数
30+
支持语言数
2B / 8B
参数规模选项
Qwen3-VL-Embedding/Reranker 是基于 Qwen3-VL 基础模型构建的多模态嵌入与重排序系列,核心目标是在统一向量空间中表征文本、自然图像、文档图像和视频帧,打破模态之间的检索壁垒。这是对 GTE-Qwen 系列在多模态维度的重大扩展。
训练管线采用多阶段策略:首先通过大规模对比预训练(Contrastive Pre-training)建立跨模态对齐的初始表征,再通过重排序蒸馏(Reranker Distillation)进一步提升检索精度。该模型还引入 Matryoshka 表征学习(MRL),允许用户根据存储和计算预算灵活选择嵌入维度,无需重新训练即可在不同精度-效率点间切换。
技术规格上,模型支持最长 32k token 的输入上下文、30+ 种语言,提供 2B 和 8B 两种参数规模。在 BEIR、MIRACL 等文本检索基准以及 MMRet、DocRet 等多模态检索基准上,Qwen3-VL-Embedding 均处于开源前列,尤其在文档图像检索和视频帧检索这两个难度较高的场景上表现突出。
🔗 paperscope.ai/hf/2601.04720
05
图像生成2025-12-18 · ↑66
Qwen-Image-Layered:端到端图像分层生成,语义解耦的 RGBA 图层输出

RGBA
输出图层格式(含透明通道)
端到端
训练方式(无需分割后处理)
3
核心架构组件数
Qwen-Image-Layered 是通义实验室在图像生成领域的一次创新突破——它不再生成单张合并的 RGB 图,而是直接输出多个语义解耦的 RGBA 图层,每个图层对应图像中一个独立的语义对象,且自带透明通道(Alpha)。这一能力让 AI 图像生成首次具备接近专业设计软件的图层化表示,大幅降低后期编辑成本。
模型由三大组件构成:RGBA-VAE 负责将带透明通道的图层编码到潜在空间;VLD-MMDiT(可变长度分解 MMDiT)是核心扩散变换器,支持动态数量的图层并行生成;可变长度分解模块根据图像复杂度自适应决定分解为几个图层,而非固定数量。整体采用端到端训练,不依赖预训练的分割模型或后处理步骤。
从应用价值来看,Qwen-Image-Layered 生成的图层可直接导入 Photoshop、Figma 等设计工具,每个图层独立可编辑,修改某个对象不影响其他内容。这对平面设计、游戏资产制作、电商海报生成等场景具有直接商业价值,是将生成式 AI 真正融入专业设计工作流的重要一步。
🔗 paperscope.ai/hf/2512.15603
06
长上下文推理2025-12-16 · ↑108
QwenLong-L1.5:稳定化 RL + 自适应熵控制,让长上下文真正会推理

AEPO
自适应熵控制策略优化
多跳
推理目标(超越浅层检索)
RL
核心后训练范式
超长上下文窗口本身并不等于"真正理解长文档"——大多数长上下文模型的瓶颈在于,面对海量文档时只会做浅层检索,缺乏跨段落的多跳推理能力。QwenLong-L1.5 的目标正是解决这一问题:通过专门设计的后训练方案,让模型在长文档上表现出真正的深度推理行为。
论文提出了两项核心创新。第一是长上下文数据合成流水线:将真实文档自动分解为原子事实,再围绕这些事实构造需要多步推理才能回答的可验证问题,从而生成高质量的长上下文 RL 训练数据,解决了该领域"有窗口、缺数据"的核心难题。第二是 AEPO(Adaptive Entropy-controlled Policy Optimization,自适应熵控制策略优化):针对长上下文 RL 训练中容易出现的策略崩溃和奖励稀疏问题,引入动态熵正则化,在保持探索性的同时稳定训练过程。
此外,任务平衡采样机制确保不同难度、不同长度的文档在训练批次中保持合理分布,防止模型对某类样本过度拟合。实验结果显示,QwenLong-L1.5 在 HELMET、LongBench-v2 等长上下文推理基准上显著超越基于简单检索的同参数量基线,验证了"长上下文 + RL 后训练"路线的有效性。
🔗 paperscope.ai/hf/2512.12967
07
视觉语言2025-12-04 · ↑159
Qwen3-VL:256K 原生交错上下文,Dense + MoE 全尺寸视觉语言旗舰

256K
原生交错上下文长度
6
模型尺寸(Dense + MoE)
235B
最大 MoE 总参数量
Qwen3-VL 是 Qwen 系列迄今最强的视觉语言模型,也是 HF 上热度最高的 Qwen3 系列论文之一(↑159)。其最显著的技术特征是原生支持 256K token 的交错多模态上下文——文本、图像和视频帧可以任意穿插排列,不再受传统 VLM 的"先文字后图片"或"图片数量上限"的约束。
模型阵容覆盖 Dense(2B/4B/8B/32B)和 MoE(30B-A3B / 235B-A22B)六个尺寸,为不同算力场景提供灵活选择。架构创新集中在三处:增强 interleaved-MRoPE(改进跨模态位置编码,提升长序列中视觉-文本对齐精度)、DeepStack 多层 ViT 融合(从 ViT 多个中间层提取特征并融合,获取更丰富的视觉表征)、以及文本-时间对齐(视频理解中将字幕、对话文本与帧时间戳精确对齐)。
三大能力支柱为:纯文本理解增强(确保多模态能力提升不以牺牲文本性能为代价)、长上下文多模态理解(实际可处理超长视频和多图文档)、高级多模态推理(MMMU、MathVista、MathVision 等推理密集型基准均处于开源前列)。
🔗 paperscope.ai/hf/2511.21631
08
安全护栏2025-10-17 · ↑15
Qwen3Guard:流式安全护栏,119 种语言实时 Token 级安全监控

119
支持语言 / 方言数
2
模式(Generative + Stream)
3
参数规模(0.6B / 4B / 8B)
Qwen3Guard 是 Qwen3 系列配套的多语言安全护栏模型,专为生产级 LLM 部署场景设计。与大多数安全过滤器仅做事后审核不同,Qwen3Guard 提供了两种完全不同的运作模式,以适配不同的工程约束。
Generative Qwen3Guard 基于自回归语言模型,对完整的模型输入/输出进行三分类判定:安全(safe)、有争议(borderline)、不安全(unsafe),并可生成可解释的拒绝理由,适合对准确率要求高、可接受额外延迟的场景。Stream Qwen3Guard 则在解码器顶端附加轻量级分类头,在模型生成每个 token 时同步判断安全性,实现零额外延迟的流式实时安全监控,可在检测到不安全内容时立即中断生成。
模型覆盖 119 种语言与方言,提供 0.6B / 4B / 8B 三种参数规模,可根据服务器算力灵活部署。在 WildGuard、HarmBench、XSTest 等安全基准上,Qwen3Guard 系列超越同类开源护栏模型(如 LlamaGuard 系列),尤其在多语言场景下的安全一致性上优势明显。
🔗 paperscope.ai/hf/2510.14276
09
全模态2025-09-23 · ↑149
Qwen3-Omni:Thinker-Talker MoE,全模态 32 项开源 SOTA 无退化

32 / 36
音视频基准开源 SOTA
119
文本理解语言数
40min
单实例最长音频处理
Qwen3-Omni 是 Qwen 系列迄今全模态覆盖最广的模型,核心成就是首次在文本、图像、音频、视频四个模态上同时保持 SOTA 级别性能,且任意模态均未出现退化——这在全模态模型领域极为罕见。在 36 个音频 / 音视频基准中,Qwen3-Omni 夺得 32 项开源 SOTA 和 22 项整体 SOTA(含闭源商业模型),在 ASR 上超越 Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe。
架构核心是 Thinker-Talker MoE 设计:Thinker 是标准的大参数语言推理模块,负责多模态理解和生成内容决策;Talker 是轻量级流式音频解码器,专注于将 Thinker 的输出实时转化为语音流,两者通过专用接口解耦,既保证推理深度又兼顾语音输出的低延迟。MoE 稀疏激活机制进一步提升了计算效率,使得超大参数规模下的实时多模态交互成为可能。
多语言支持方面,文本理解覆盖 119 种语言、语音理解支持 19 种语言、语音生成支持 10 种语言,单实例最长可处理 40 分钟连续音频,为长会议转录、实时翻译等场景提供了端到端解决方案。
🔗 paperscope.ai/hf/2509.17765
10
图像生成2025-08-05 · ↑272
Qwen-Image:突破中文文字渲染,多任务扩散基础模型

3
联合训练任务数(T2I/TI2I/I2I)
渐进式
文字渲染训练策略
272
HF Upvotes(图像生成系列最高)
Qwen-Image 是 Qwen 系列在图像生成领域的第一个基础模型,以 272 upvotes 成为 Qwen 图像生成方向热度最高的论文。其核心突破集中在两个长期困扰扩散模型的难题:复杂文字渲染和精确图像编辑。
文字渲染是现有图像生成模型的阿喀琉斯之踵——大多数模型在英文单词上已有基本能力,但面对汉字、日文假名、韩文等表意/拼音文字时往往产生混乱笔画。Qwen-Image 通过渐进训练策略系统解决了这一问题:训练分阶段进行,先在不含文字的图像上建立通用生成能力,再逐步引入简单拉丁文字,最后处理结构复杂的中文等表意文字,让模型循序渐进地习得精确笔画控制。
多任务联合训练是另一关键设计:模型同时学习 T2I(文本生成图像)、TI2I(文本+图像生成图像)和 I2I(图像到图像重建)三类任务,共享同一套参数。这不仅提升了模型对指令的理解深度,也使图像编辑能力与生成能力相互促进。同时,Qwen-Image 将 Qwen2.5-VL 的视觉编码器与 MMDiT 的潜表征空间对齐,实现了语言模型语义理解能力的有效迁移。
🔗 paperscope.ai/hf/2508.02324
11
文本嵌入2025-06-06 · ↑79
Qwen3 Embedding:基于 Qwen3 LLM 的文本嵌入与重排序,GTE 系列重大升级

3
训练阶段(预训练+SFT+合并)
0.6B~8B
参数规模范围
MTEB
开源前列基准
Qwen3 Embedding 系列是 GTE-Qwen(General Text Embeddings)系列的重大换代升级,将底座从早期 Qwen2.5 系列切换至 Qwen3 LLM,从基础语言能力上获得显著增益。该系列同时包含嵌入(Embedding)和重排序(Reranker)两个方向,以 0.6B / 4B / 8B 三种参数规模覆盖不同部署需求。
训练管线采用三阶段策略:首先进行大规模无监督对比预训练,从海量无标注文本对中学习通用语义相似度;其次引入高质量标注数据进行监督微调,提升特定检索任务的精度;最后通过模型合并(Model Merging)将不同阶段或不同任务的检查点融合,增强模型的跨任务鲁棒性并减少遗忘。这一模型合并策略是 Qwen3 Embedding 相较于同类工作的重要方法论创新。
在 MTEB(Massive Text Embedding Benchmark)英语和多语言榜单上,Qwen3 Embedding 系列均处于开源模型前列,尤其在检索(Retrieval)、重排序(Reranking)和双语语义相似度(Bitext Mining)任务上优势显著。对于需要在本地部署高质量 RAG 或语义搜索系统的团队,Qwen3 Embedding 0.6B 提供了迄今最优的"性能-参数量"比。
🔗 paperscope.ai/hf/2506.05176
12
长上下文推理2025-05-26 · ↑88
QwenLong-L1:三阶段渐进 RL,将短上下文推理模型适配到百万长度

3
渐进训练阶段
课程式
长度增长策略
通用
可适配任意 LRM 基座
QwenLong-L1 解决的是一个长期困扰长上下文 AI 社区的迁移问题:如何将经过强化学习训练、已具备良好短上下文推理能力的 LRM(Language Reasoning Model),平滑地扩展到极长上下文场景而不损失推理质量?直接的 RL 扩展往往导致训练不稳定,奖励稀疏,推理行为退化。
QwenLong-L1 提出三阶段渐进式方案。第一阶段(热身 SFT):先用精心筛选的长上下文监督数据进行短暂的有监督微调,让模型对长文档格式建立基本认知,避免 RL 阶段从零摸索。第二阶段(课程引导分阶段 RL):采用课程学习思路,按上下文长度从短到长逐渐增加训练难度,每个阶段的 RL 策略在前一阶段基础上稳定迭代。第三阶段(难度感知回顾采样):定期从历史训练数据中采样难度较高的样本重新训练,防止在长序列上出现的"遗忘简单多跳推理"问题。
这一框架的重要价值在于通用性:任何已完成 RL 后训练的短上下文推理模型都可以通过 QwenLong-L1 流程适配到长上下文,而无需从头重新训练,大幅降低了长上下文推理模型的研发成本。
🔗 paperscope.ai/hf/2505.17667
13
上下文压缩2025-05-26 · ↑43
QwenLong-CPRS:语言引导动态压缩,4K 到 2M 上下文全覆盖

4K~2M
支持上下文长度范围
4
核心技术创新点
动态
语言指令引导压缩率
QwenLong-CPRS(Context Compression and Retrieval System)从另一个维度应对长上下文挑战——不是让模型直接处理全量长文档,而是在推理前动态压缩上下文,仅保留与当前问题高度相关的信息片段,从而同时解决 prefill 阶段的计算开销过大和"中间丢失(Lost-in-the-Middle)"两大顽疾。
CPRS 的核心设计是自然语言指令引导的动态优化:用户无需设置固定的压缩率或检索窗口,而是通过自然语言描述查询意图,模型根据指令内容自适应决定保留哪些上下文片段。这一设计让压缩过程对用户透明且可控。四大技术创新支撑这一能力:语言引导动态优化(按指令动态调整保留策略)、双向推理层(兼顾全局上下文感知与局部细节提取)、Token Critic 机制(对每个 token 的保留价值进行打分,实现精细粒度压缩)、窗口并行推理(将超长文档切分为窗口并行处理,再合并结果,突破单次前向的长度上限)。
CPRS 支持从 4K 到 2M token 的全范围上下文,覆盖从普通 RAG 到超长文档摘要的完整应用谱系。与 QwenLong-L1 形成互补:L1 侧重训练时的推理能力扩展,CPRS 侧重推理时的上下文管理效率——两者结合构成 Qwen 长上下文解决方案的完整闭环。
🔗 paperscope.ai/hf/2505.18092
14
基座语言模型2025-05-19 · ↑337
Qwen3 Technical Report

0.6B–235B
参数规模
Dense + MoE
架构类型
统一框架
思考/非思考模式
Qwen3 系列覆盖 0.6B 到 235B(Dense + MoE),将 思考模式与非思考模式统一到同一框架,无需切换模型即可兼顾深度推理与快速响应。核心创新是思考预算机制:用户可根据任务复杂度自适应分配推理算力,简单问题轻量作答,复杂推理充分展开思维链。通过利用旗舰模型的蒸馏知识降低小模型训练成本,在代码、数学、推理基准上全面达到 SOTA。
🔗 paperscope.ai/hf/2505.09388
15
量化2025-05-07 · ↑25
An Empirical Study of Qwen3 Quantization

5 种
PTQ 技术评估
1–8 bit
量化范围
北航 + ETH
合作机构
北京航空航天大学与 ETH Zurich 联合开展的系统性研究,对 Qwen3 系列 5 种经典后训练量化(PTQ)技术进行了 1–8 bit 全范围评估。研究发现:中等位宽(4–6 bit)可保持竞争力,但在线性化场景下模型退化明显。该研究为 Qwen3 实际部署的精度与效率权衡提供了系统参考。
🔗 paperscope.ai/hf/2505.02214
Qwen2/2.5 时代
16
多模态预训练2025-04-02 · ↑37
Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs

220 小时
A100-40G GPU
29M
图文对训练数据
0.36%
相比官方预训练 Token 比
UCSB、字节跳动、Nvidia 联合提出的 完全开源 2B 多模态 LLM。仅用 220 A100-40G GPU 小时、29M 图文对,以 Qwen2-VL 官方预训练 token 数量的 0.36% 就超越了 Qwen2-VL-2B 的性能。核心技术包括低-高动态分辨率渐进训练策略与多模态序列打包,大幅提升了计算效率。
🔗 paperscope.ai/hf/2504.00595
17
全模态2025-03-27 · ↑170
Qwen2.5-Omni Technical Report

Thinker
文本生成模块
Talker
语音生成模块
TMRoPE
时间对齐位置编码
端到端 全模态模型:感知文本、图像、音频、视频,同步生成文本与语音。创新的 Thinker-Talker 双模块架构 分工明确——Thinker 负责文本推理与生成,Talker 实时转化为自然语音。流式处理机制通过音视频编码器分块感知,支持低延迟的实时对话。TMRoPE(时间对齐多模态 RoPE) 统一了跨模态的时序位置编码,显著提升了音视频理解中的时序一致性。
🔗 paperscope.ai/hf/2503.20215
18
视觉语言2025-02-20 · ↑214
Qwen2.5-VL Technical Report

绝对时间编码
视频时序定位
Window Attention
原生 ViT 训练
秒级事件定位
长视频理解
视觉语言旗舰,在视觉识别、目标定位、文档解析、长视频理解四个维度全面升级。创新采用动态分辨率 + 绝对时间编码,支持处理数小时超长视频并进行秒级事件精准定位。原生 ViT 从头训练结合 Window Attention,大幅提升对高分辨率图像的处理效率。结构化数据提取能力显著增强,可解析发票、表格、图表等复杂文档。
🔗 paperscope.ai/hf/2502.13923
19
长上下文2025-01-28 · ↑72
Qwen2.5-1M Technical Report

1M Token
上下文窗口
4× 免训练
长度外推能力
稀疏注意力
推理效率优化
将上下文窗口扩展至 100 万 token,通过长数据合成、渐进预训练与多阶段 SFT 协同完成。提出的长度外推方法可免训练扩展 4 倍以上,同时推理侧引入稀疏注意力、分块预填充与稀疏度精化三项优化,大幅降低超长序列推理的显存与延时开销。配套开源推理框架,方便社区直接部署。
🔗 paperscope.ai/hf/2501.15383
20
基座语言模型2024-12-20 · ↑377
Qwen2.5 Technical Report

18T Token
预训练数据
100万+
SFT 样本
DPO + GRPO
多阶段 RL
Qwen2.5 将预训练数据从 7T 扩大至 18T token,结合 100 万+ 样本的精细 SFT 与多阶段强化学习(离线 DPO + 在线 GRPO)。覆盖 0.5B 到 72B 的完整系列,在长文本生成、结构化数据分析与指令跟随能力上显著增强。以 HF 全系列最高票 377↑ 成为整个 Qwen 生态的里程碑。
🔗 paperscope.ai/hf/2412.15115
21
代码2024-09-19 · ↑153
Qwen2.5-Coder Technical Report

5.5T Token
代码持续预训练
6 款
全尺寸系列(0.5B–32B)
10+ 基准
代码 SOTA
代码专用旗舰,以 5.5T token 代码持续预训练构建,覆盖 0.5B / 1.5B / 3B / 7B / 14B / 32B 全系列。在代码生成、补全、推理、修复 10 余项基准上达到 SOTA。通过数据清洗、可扩展合成数据与平衡混合策略,同时保留了通用理解与数学推理能力,实现代码专精与通用能力的双向平衡。
🔗 paperscope.ai/hf/2409.12186
22
视觉语言2024-09-19 · ↑78
Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution

Naive Dynamic
动态分辨率处理
M-RoPE
多模态位置编码
2B / 8B / 72B
三档规模
提出 Naive Dynamic Resolution 机制,可动态处理任意分辨率图像而无需裁剪或填充。M-RoPE(多模态 RoPE) 统一了文本、图像、视频三种模态的位置编码,实现真正的图像视频一体化处理范式。旗舰 Qwen2-VL-72B 性能媲美 GPT-4o 等领先商业模型。
🔗 paperscope.ai/hf/2409.12191
23
音频2024-07-17 · ↑64
Qwen2-Audio Technical Report

语音聊天
对话模式
音频分析
理解模式
无系统提示
自动模式切换
通过自然语言提示简化预训练流程,以此替代传统的标签体系。支持语音聊天模式(自然对话交互)与音频分析模式(声音、音乐、场景理解)无需系统提示即可自动切换。能够同时理解环境声音、多人对话和语音命令,在统一模型中整合了多维度音频感知能力。
🔗 paperscope.ai/hf/2407.10759
24
基座语言模型2024-07-16 · ↑168
Qwen2 Technical Report
0.5B–72B + MoE
参数规模
MMLU 84.2
旗舰 72B 得分
多语言
编码 / 数学 / 推理
Qwen2 覆盖 0.5B 到 72B 及 MoE 架构,超越大多数同规模开源权重模型。旗舰 Qwen2-72B 在 MMLU 上达到 84.2,在多语言理解、编程、数学和推理任务上全面领先。作为 Qwen2/2.5 时代的开篇之作,奠定了后续持续迭代的技术基座。
🔗 paperscope.ai/hf/2407.10671
Qwen 初代
25
音频2023-11-15 · ↑10
Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

30+ 任务
音频理解范围
层级标签
多任务训练框架
通用预训练
首个统一音频模型
Qwen 音频的第一代工作,也是 Qwen 系列首个通用音频理解预训练模型。覆盖 30+ 任务,包括人声识别、自然声分类、音乐分析与歌曲理解。提出层级标签多任务训练框架,通过共享标签与专用标签的组合解决多任务间的一对多干扰问题,为后续 Qwen2-Audio 与 Qwen2.5-Omni 奠定了音频理解基础。
🔗 paperscope.ai/hf/2311.07919
26
?2023-09 · ↑35
Qwen Technical Report

基座 LM
+ RLHF 对齐
工具使用
+ 规划能力
2023-09
Qwen 起点
整个 Qwen 家族的起点。这篇 2023 年 9 月发布的技术报告确立了 Qwen 的核心路线:预训练基座语言模型 + RLHF 对齐,并在初代就引入了工具使用和规划能力。正是这份初稿,奠定了从 Qwen 到 Qwen3、从文本到全模态这条 28 个月持续演进之路的起点。
🔗 paperscope.ai/hf/2309.16609
26 篇论文,从 1.7B ASR 到 235B 全模态 MoE
Qwen 的故事还在继续 📖
如果这篇盘点对你有帮助
点赞 👍 在看 👀 转发 🔁 三连走起~
给 机智流 加个 星标 ⭐ 不迷路
完整深度解读见 ai-insight.org/reports/qwen-papers-review
更多精品论文专题见 paperscope.ai/topics · 下篇见 👋
© 2026 AI Insight · 机智流
本文由 Intern-S1-Pro 等 AI 生成,可能有误