新闻资讯

DeepSeek V3.1 发布

官方通知上下文长度拓展至128K（虽然 Huggingface 上 DeepSeek V3 的模型卡上写着上下文长度 128K）。同时 DeepSeek 官网悄悄去掉了 R1 标签，所有入口默认指向 V3.1，看上像同一个模型同时整合了非思考和思考功能。

https://chat.deepseek.com/

Qwen 上线 Qwen-Image-Edit：革新AI图像编辑技术

阿里巴巴的Qwen团队推出了Qwen-Image-Edit，这是一个基于20B参数Qwen-Image基础模型的专用图像编辑工具。该模型在语义和外观编辑方面表现出色，用户可以通过文本提示进行精确修改，比以往模型质量更高、效率更快。主要功能包括物体移除、风格转移和内容生成，同时保留原始细节。它利用先进的扩散技术和多样化数据集微调，减少了伪影并提升了真实感。目前已在Hugging Face等平台上线，有望惠及图形设计、电子商务和娱乐领域的创作者。这一发布突显了Qwen在多模态AI领域的快速创新，让非专业人士也能轻松进行复杂编辑。

https://qwenlm.github.io/blog/qwen-image-edit/

谷歌正式宣布Imagen 4系列进入全面可用（GA）阶段

谷歌已正式将最新AI图像生成系列Imagen 4推进到全面可用（GA）阶段，这标志着开发者与用户的一个重要里程碑。Imagen 4家族，包括Imagen 4 Fast等变体，提供卓越的文本到图像合成能力，具有更高的质量、速度和安全特性。集成到Gemini API和Google AI Studio中，支持高分辨率输出、多样风格以及更好的提示遵守。此次发布包含了对有害内容的防护措施，并优化了实时应用的效率。谷歌的公告强调其在广告、教育等行业赋能创意工作流的作用。GA状态意味着从付费预览转向全面生产使用，有望加速云端AI服务的采用。

https://developers.googleblog.com/en/announcing-imagen-4-fast-and-imagen-4-family-generally-available-in-the-gemini-api/

Open ASR 支持多种语言：Hugging Face上的多语种语音识别排行榜扩展

Hugging Face上的Open ASR（自动语音识别）排行榜已更新，支持多种语言，构建了一个全球性的语音到文本模型基准。该平台评估开源ASR系统在多样数据集上的表现，现涵盖英语、西班牙语、法语、普通话等多种语言，指标包括词错误率和实时因子。它鼓励社区贡献和比较，突出多语种场景下的顶级模型。最近的增强聚焦于低资源语言，提高了非英语使用者的可及性。开发者可提交模型进行测试，促进语音AI技术的透明度和创新。这一由Hugging Face推动的举措有助于全球公平且包容的语音识别工具发展。

https://huggingface.co/spaces/hf-audio/open_asr_leaderboard

谷歌开源Gemma 3 270M：边缘AI的轻量级强者

谷歌发布了Gemma 3 270M作为开源模型，这是Gemma 3系列中最小的版本，专为智能手机等资源受限设备设计。只有2.7亿参数的它，在文本生成、摘要和指令跟随任务中表现出色，在基准测试中媲美更大模型。优化了低功耗推理，支持微调用于特定应用，同时保持高准确性。目前可在Hugging Face和谷歌平台获取，该模型强调能效和可及性，实现无云依赖的设备端AI。谷歌此举旨在激发移动AI创新，从聊天机器人到个性化助手，弥合体积小与能力强的差距。

https://developers.googleblog.com/en/introducing-gemma-3-270m/

Meta的DINOv3发布：自监督学习扩展视觉任务新高度

Meta AI推出了DINOv3，这是一个突破性的自监督视觉模型，在生成高分辨率图像特征方面达到了前所未有的规模。该模型无需标签，在海量数据集上训练，产生通用视觉骨干网络，在物体检测、分割和分类等任务中超越以往模型。DINOv3利用先进的自监督学习技术，创建密集且语义丰富的表示，在基准测试中刷新了最先进结果。开源供研究使用，支持微调应用于计算机视觉的自定义场景，从医疗成像到自动驾驶。这一发布展示了Meta在高效、可扩展AI领域的领导力，有望转变视觉数据在现实场景中的处理和理解方式。

https://ai.meta.com/blog/dinov3-self-supervised-vision-model/

小工具

Parlant项目：专为控制设计的LLM代理框架

Parlant是一个由Emcie团队开发的AI代理框架，专注于构建可控的LLM代理，适用于真实世界场景，并在几分钟内部署。该框架解决了AI代理常见问题，如忽略系统提示、幻觉响应和边缘案例处理不一致，通过保证遵守定义指南来提升可靠性。主要功能包括对话旅程引导用户逐步实现目标、动态指南匹配、可靠的工具集成（如API、数据库和外部服务）、对话分析提供代理行为洞察、迭代优化响应、内置护栏防止幻觉和偏题，以及React小部件用于网页应用的聊天UI。它支持金融服务、医疗保健、电子商务和法律科技等行业，提供合规优先设计、HIPAA就绪代理和订单处理自动化。技术基于Python 3.10+，安装简单通过pip install parlant。示例代码展示了如何创建天气助手代理，使用自然语言定义行为并集成工具。该项目开源于Apache 2.0许可，已有超过5000名开发者使用，促进商业项目中的AI创新。

https://github.com/emcie-co/parlant

-- 完 --

2. 细数CUTLASS 3.x中的内核设计抽象‍‍

3. GUI-Agent 领域新作！蚂蚁集团发布 UI-Venus，以截图驱动的智能交互，刷新行业标杆！

4. 本地也能玩转AI图片创作？腾讯3B开源模型实测：精准又轻便，统一生成理解，手把手教你部署

关注机智流并加入 AI 技术交流群，不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流，同时还有HuggingFace每日精选论文与顶会论文解读、Talk分享、通俗易懂的Agent知识与项目、前沿AI科技资讯、大模型实战教学活动等。

在「机智流」公众号后台回复下方标红内容即可加入对应群聊：

cc | 大模型技术交流群
hf | HuggingFace 高赞论文分享群
具身 | 具身智能交流群
硬件 | AI 硬件交流群
智能体 | Agent 技术交流群