全文约 1600 字,预计阅读时间 5 分钟
新闻资讯
DeepSeek V3.1 发布

官方通知上下文长度拓展至128K(虽然 Huggingface 上 DeepSeek V3 的模型卡上写着上下文长度 128K)。同时 DeepSeek 官网悄悄去掉了 R1 标签,所有入口默认指向 V3.1,看上像同一个模型同时整合了非思考和思考功能。
https://chat.deepseek.com/
Qwen 上线 Qwen-Image-Edit:革新AI图像编辑技术

阿里巴巴的Qwen团队推出了Qwen-Image-Edit,这是一个基于20B参数Qwen-Image基础模型的专用图像编辑工具。该模型在语义和外观编辑方面表现出色,用户可以通过文本提示进行精确修改,比以往模型质量更高、效率更快。主要功能包括物体移除、风格转移和内容生成,同时保留原始细节。它利用先进的扩散技术和多样化数据集微调,减少了伪影并提升了真实感。目前已在Hugging Face等平台上线,有望惠及图形设计、电子商务和娱乐领域的创作者。这一发布突显了Qwen在多模态AI领域的快速创新,让非专业人士也能轻松进行复杂编辑。
https://qwenlm.github.io/blog/qwen-image-edit/
谷歌正式宣布Imagen 4系列进入全面可用(GA)阶段

谷歌已正式将最新AI图像生成系列Imagen 4推进到全面可用(GA)阶段,这标志着开发者与用户的一个重要里程碑。Imagen 4家族,包括Imagen 4 Fast等变体,提供卓越的文本到图像合成能力,具有更高的质量、速度和安全特性。集成到Gemini API和Google AI Studio中,支持高分辨率输出、多样风格以及更好的提示遵守。此次发布包含了对有害内容的防护措施,并优化了实时应用的效率。谷歌的公告强调其在广告、教育等行业赋能创意工作流的作用。GA状态意味着从付费预览转向全面生产使用,有望加速云端AI服务的采用。
https://developers.googleblog.com/en/announcing-imagen-4-fast-and-imagen-4-family-generally-available-in-the-gemini-api/
Open ASR 支持多种语言:Hugging Face上的多语种语音识别排行榜扩展

Hugging Face上的Open ASR(自动语音识别)排行榜已更新,支持多种语言,构建了一个全球性的语音到文本模型基准。该平台评估开源ASR系统在多样数据集上的表现,现涵盖英语、西班牙语、法语、普通话等多种语言,指标包括词错误率和实时因子。它鼓励社区贡献和比较,突出多语种场景下的顶级模型。最近的增强聚焦于低资源语言,提高了非英语使用者的可及性。开发者可提交模型进行测试,促进语音AI技术的透明度和创新。这一由Hugging Face推动的举措有助于全球公平且包容的语音识别工具发展。
https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
谷歌开源Gemma 3 270M:边缘AI的轻量级强者

谷歌发布了Gemma 3 270M作为开源模型,这是Gemma 3系列中最小的版本,专为智能手机等资源受限设备设计。只有2.7亿参数的它,在文本生成、摘要和指令跟随任务中表现出色,在基准测试中媲美更大模型。优化了低功耗推理,支持微调用于特定应用,同时保持高准确性。目前可在Hugging Face和谷歌平台获取,该模型强调能效和可及性,实现无云依赖的设备端AI。谷歌此举旨在激发移动AI创新,从聊天机器人到个性化助手,弥合体积小与能力强的差距。
https://developers.googleblog.com/en/introducing-gemma-3-270m/
Meta的DINOv3发布:自监督学习扩展视觉任务新高度

Meta AI推出了DINOv3,这是一个突破性的自监督视觉模型,在生成高分辨率图像特征方面达到了前所未有的规模。该模型无需标签,在海量数据集上训练,产生通用视觉骨干网络,在物体检测、分割和分类等任务中超越以往模型。DINOv3利用先进的自监督学习技术,创建密集且语义丰富的表示,在基准测试中刷新了最先进结果。开源供研究使用,支持微调应用于计算机视觉的自定义场景,从医疗成像到自动驾驶。这一发布展示了Meta在高效、可扩展AI领域的领导力,有望转变视觉数据在现实场景中的处理和理解方式。
https://ai.meta.com/blog/dinov3-self-supervised-vision-model/
小工具
Parlant项目:专为控制设计的LLM代理框架

Parlant是一个由Emcie团队开发的AI代理框架,专注于构建可控的LLM代理,适用于真实世界场景,并在几分钟内部署。该框架解决了AI代理常见问题,如忽略系统提示、幻觉响应和边缘案例处理不一致,通过保证遵守定义指南来提升可靠性。主要功能包括对话旅程引导用户逐步实现目标、动态指南匹配、可靠的工具集成(如API、数据库和外部服务)、对话分析提供代理行为洞察、迭代优化响应、内置护栏防止幻觉和偏题,以及React小部件用于网页应用的聊天UI。它支持金融服务、医疗保健、电子商务和法律科技等行业,提供合规优先设计、HIPAA就绪代理和订单处理自动化。技术基于Python 3.10+,安装简单通过pip install parlant。示例代码展示了如何创建天气助手代理,使用自然语言定义行为并集成工具。该项目开源于Apache 2.0许可,已有超过5000名开发者使用,促进商业项目中的AI创新。
https://github.com/emcie-co/parlant
-- 完 --
机智流推荐阅读:
1. WE-MATH2.0解锁数学推理新高度!北京邮电大学与腾讯WeChat Vision联手打造从小学到大学的多层级数学推理知识体系
3. GUI-Agent 领域新作!蚂蚁集团发布 UI-Venus,以截图驱动的智能交互,刷新行业标杆!
4. 本地也能玩转AI图片创作?腾讯3B开源模型实测:精准又轻便,统一生成理解,手把手教你部署
关注机智流并加入 AI 技术交流群,不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流,同时还有HuggingFace每日精选论文与顶会论文解读、Talk分享、通俗易懂的Agent知识与项目、前沿AI科技资讯、大模型实战教学活动等。
cc | 大模型技术交流群 hf | HuggingFace 高赞论文分享群 具身 | 具身智能交流群 硬件 | AI 硬件交流群 智能体 | Agent 技术交流群