大家好,我是刘聪NLP。
7月的最后一天,给大家盘点了7月国内的开源大模型!
咱们8月也不例外,最后一天看看国内都开源了哪些大模型,
看看哪些你知道,哪些你不知道,是时候在明天上班前查缺补漏了,
别领导一问,你不知道就尴尬了,哈哈哈~
整个8月,大模型开源社区依旧很卷,除了很火的Qwen-Image、GLM4.5V、MiniCPM-V 4.5、DeepSeek-V3.1,
还有很多其他的模型值得注意,比如小红书的dots.vlm1、书生InternVL-3.5系列模型、万相Wan2.2-S2V-14B,
今天美团也是压线开源LongCat模型。
一字卷~
PS:觉得不错,给博主来个免费的三连吧!你的支持,是我更新的动力,冲冲冲。
详细如下:
8月1日,问小白开源XBai-o4,o4 代表第四代开源大模型技术,XBai-o4 在复杂推理能力方面表现出色,全面超越 OpenAI-o3-mini。模型大小32B,基于Qwen3-32B增量训练的来。

8月4日,腾讯混元开源4个尺寸的小模型,包括,0.5B、1.8B、4B、7B,对标Qwen3系列小模型,腾讯HunYuan跟阿里Qwen在开源上干起来了?

8月4日,通义千问开源首款文生图模型 Qwen-Image,文本渲染能力十分出众,支持多行布局、段落级文本生成以及细粒度细节呈现。

8月4日,小米开源音频大模型 MiDashengLM-7B,在多个关键音频理解任务上超越了Qwen2.5-Omni-7B和Kimi-Audio-Instruct-7B。

8月6日,OpenAI开源GPT-OSS模型,本来分享国内开源大模型不应该有OSS,但毕竟是OpenAI,还是尊重一手,但效果反正中文效果不太理想。GPT-OSS-20B和Qwen3 30B-A3B,要选哪一个?实测对比告诉你!

8月6日,小红书开源dots.vlm1模型,采用全自研的12亿参数NaViT视觉编码器和DeepSeek V3的大语言模型构建,在视觉的理解和推理任务上均有不俗的表现。

8月7日,通义千问,又更新Qwen3的4B级别Dense小模型,Qwen3-4B-Instruct-2507 和 Qwen3-4B-Thinking-2507。

8月8日,面壁智能开源MiniCPM-V-4,4B大小,能在手机、PC 等端侧丝滑、流畅的完成实时视频理解、图像理解等任务。

8月11日,百川开源最新32B的医疗领域模型 Baichuan-M2-32B,细节决定成败!深耕医疗的Baichuan-M2用了哪些黑科技

8月11日,智谱开源GLM4.5-V模型,总参数 106B,激活参数 12B,沿用GLM-4.1V-Thinking的结构,同时是混合推理模型,可通过“思考模式”开关选择快速响应或深度推理。智谱开源的GLM4.5V到底行不行?掏出祖传多模态理解测试

8月12日,上海人工智能实验室开源Lumina-mGPT 2.0,一个仅使用解码器的自回归模型,统一了包括文生图、图像对生成、主体驱动生成、多轮图像编辑、可控生成等任务。

8月12日,快手开源8B推理模型Klear-Reasoner-8B。

8月13日,阶跃开源定理证明模型 StepFun-Prover-Preview-32B。

8月14日, 腾讯推出Hunyuan-GameCraft,基于HunyuanVideo底模的高动态交互式游戏视频生成框架,输入一张图 + 文字描述+动作指令 就能 输出高清动态游戏视频

8月18日,阶跃开源NextStep-1系列模型,一个 14B 自回归模型,一个图像生成和编辑模型。

8月19日,通义千问开源图像编辑模型 Qwen-Image-Edit,基于 20B Qwen-Image 模型构建,扩展了 Qwen-Image 的文本渲染能力至图像编辑任务,支持精确的文本编辑。

8月20日,DeepSeek-V3.1开源,代码能力提高,但文本能力并没提高,甚至有些下降。DeepSeek更新版本v3.1,有效果提升吗?附实测对比

8月21日,字节开源Seed-OSS模型,大小为36B,但没有专门训练中文。字节开源Seed-OSS模型,36B的理想尺寸,但中文好像不行

8月23日,上海人工智能实验室推出了 Intern-S1的轻量化版本 Intern-S1-mini,8B大小,在科学任务上效果出众。

8月26日,面壁开源MiniCPM-V 4.5模型,8B大小,主打高刷视频理解。最强开源8B级VLM模型!高刷视频理解的有救了~

8月26日,上海人工智能实验室开源书生InternVL-3.5系列模型,共9个模型,Dense模型有1B、2B、4B、8B、14B、38B,MoE模型有InternVL3.5-20B-A4B、InternVL3.5-30B-A3B InternViT-300M、InternVL3.5-241B-A28B

8月26日,通义万相开源Wan2.2-S2V-14B模型,一个音频驱动的14B视频模型,仅需一张图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频。

8月28日,腾讯混元宣布开源端到端视频音效生成模型HunyuanVideo-Foley,只需输入视频和文字,就能为视频匹配电影级音效。

8月28日,字节开源USO模型,一个统一的风格和主体驱动图片生成框架。

8月31日,美团开源LongCat模型,一个 560B参数的 MoE模型,模型采用动态计算机制,可根据上下文需求激活 18.6B∼31.3B参数。
这个LongCat蛮有意思的,我还在评测中,敬请期待!

个人整理,也许有遗漏的国内开源大模型,欢迎评论区补充!
-- 完 --
机智流推荐阅读:
2. 开源多模态大模型新突破,书生·万象3.5发布,通用能力、推理能力与部署效率全面升级
3. 工具调用推理只是花瓶,还是真的让大模型更聪明?腾讯清华团队揭秘工具集成推理的奥秘
4. CVPR2025 | g3D-LF让机器人“看懂”3D空间、“听懂”复杂语言,无需LLM,但导航、问答一气呵成
关注机智流并加入 AI 技术交流群,不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流,同时还有HuggingFace每日精选论文与顶会论文解读、Talk分享、通俗易懂的Agent知识与项目、前沿AI科技资讯、大模型实战教学活动等。
cc | 大模型技术交流群 hf | HuggingFace 高赞论文分享群 具身 | 具身智能交流群 硬件 | AI 硬件交流群 智能体 | Agent 技术交流群