0819资讯:DeepSeek V3.1开源|Qwen 上线Qwen-Image-Edit|谷歌强势开源Gemma 3 270M

机智流 2025-08-19 23:30

资讯配图

全文约 1600 字,预计阅读时间 5 分钟

新闻资讯

DeepSeek V3.1 发布

资讯配图

官方通知上下文长度拓展至128K(虽然 Huggingface 上 DeepSeek V3 的模型卡上写着上下文长度 128K)。同时 DeepSeek 官网悄悄去掉了 R1 标签,所有入口默认指向 V3.1,看上像同一个模型同时整合了非思考和思考功能。

https://chat.deepseek.com/

Qwen 上线 Qwen-Image-Edit:革新AI图像编辑技术

资讯配图

阿里巴巴的Qwen团队推出了Qwen-Image-Edit,这是一个基于20B参数Qwen-Image基础模型的专用图像编辑工具。该模型在语义和外观编辑方面表现出色,用户可以通过文本提示进行精确修改,比以往模型质量更高、效率更快。主要功能包括物体移除、风格转移和内容生成,同时保留原始细节。它利用先进的扩散技术和多样化数据集微调,减少了伪影并提升了真实感。目前已在Hugging Face等平台上线,有望惠及图形设计、电子商务和娱乐领域的创作者。这一发布突显了Qwen在多模态AI领域的快速创新,让非专业人士也能轻松进行复杂编辑。

https://qwenlm.github.io/blog/qwen-image-edit/

谷歌正式宣布Imagen 4系列进入全面可用(GA)阶段

资讯配图

谷歌已正式将最新AI图像生成系列Imagen 4推进到全面可用(GA)阶段,这标志着开发者与用户的一个重要里程碑。Imagen 4家族,包括Imagen 4 Fast等变体,提供卓越的文本到图像合成能力,具有更高的质量、速度和安全特性。集成到Gemini API和Google AI Studio中,支持高分辨率输出、多样风格以及更好的提示遵守。此次发布包含了对有害内容的防护措施,并优化了实时应用的效率。谷歌的公告强调其在广告、教育等行业赋能创意工作流的作用。GA状态意味着从付费预览转向全面生产使用,有望加速云端AI服务的采用。

https://developers.googleblog.com/en/announcing-imagen-4-fast-and-imagen-4-family-generally-available-in-the-gemini-api/

Open ASR 支持多种语言:Hugging Face上的多语种语音识别排行榜扩展

资讯配图

Hugging Face上的Open ASR(自动语音识别)排行榜已更新,支持多种语言,构建了一个全球性的语音到文本模型基准。该平台评估开源ASR系统在多样数据集上的表现,现涵盖英语、西班牙语、法语、普通话等多种语言,指标包括词错误率和实时因子。它鼓励社区贡献和比较,突出多语种场景下的顶级模型。最近的增强聚焦于低资源语言,提高了非英语使用者的可及性。开发者可提交模型进行测试,促进语音AI技术的透明度和创新。这一由Hugging Face推动的举措有助于全球公平且包容的语音识别工具发展。

https://huggingface.co/spaces/hf-audio/open_asr_leaderboard

谷歌开源Gemma 3 270M:边缘AI的轻量级强者

资讯配图

谷歌发布了Gemma 3 270M作为开源模型,这是Gemma 3系列中最小的版本,专为智能手机等资源受限设备设计。只有2.7亿参数的它,在文本生成、摘要和指令跟随任务中表现出色,在基准测试中媲美更大模型。优化了低功耗推理,支持微调用于特定应用,同时保持高准确性。目前可在Hugging Face和谷歌平台获取,该模型强调能效和可及性,实现无云依赖的设备端AI。谷歌此举旨在激发移动AI创新,从聊天机器人到个性化助手,弥合体积小与能力强的差距。

https://developers.googleblog.com/en/introducing-gemma-3-270m/

Meta的DINOv3发布:自监督学习扩展视觉任务新高度

资讯配图

Meta AI推出了DINOv3,这是一个突破性的自监督视觉模型,在生成高分辨率图像特征方面达到了前所未有的规模。该模型无需标签,在海量数据集上训练,产生通用视觉骨干网络,在物体检测、分割和分类等任务中超越以往模型。DINOv3利用先进的自监督学习技术,创建密集且语义丰富的表示,在基准测试中刷新了最先进结果。开源供研究使用,支持微调应用于计算机视觉的自定义场景,从医疗成像到自动驾驶。这一发布展示了Meta在高效、可扩展AI领域的领导力,有望转变视觉数据在现实场景中的处理和理解方式。

https://ai.meta.com/blog/dinov3-self-supervised-vision-model/

小工具

Parlant项目:专为控制设计的LLM代理框架

资讯配图

Parlant是一个由Emcie团队开发的AI代理框架,专注于构建可控的LLM代理,适用于真实世界场景,并在几分钟内部署。该框架解决了AI代理常见问题,如忽略系统提示、幻觉响应和边缘案例处理不一致,通过保证遵守定义指南来提升可靠性。主要功能包括对话旅程引导用户逐步实现目标、动态指南匹配、可靠的工具集成(如API、数据库和外部服务)、对话分析提供代理行为洞察、迭代优化响应、内置护栏防止幻觉和偏题,以及React小部件用于网页应用的聊天UI。它支持金融服务、医疗保健、电子商务和法律科技等行业,提供合规优先设计、HIPAA就绪代理和订单处理自动化。技术基于Python 3.10+,安装简单通过pip install parlant。示例代码展示了如何创建天气助手代理,使用自然语言定义行为并集成工具。该项目开源于Apache 2.0许可,已有超过5000名开发者使用,促进商业项目中的AI创新。

https://github.com/emcie-co/parlant


-- 完 --


机智流推荐阅读

1. WE-MATH2.0解锁数学推理新高度!北京邮电大学与腾讯WeChat Vision联手打造从小学到大学的多层级数学推理知识体系

2. 细数CUTLASS 3.x中的内核设计抽象

3. GUI-Agent 领域新作!蚂蚁集团发布 UI-Venus,以截图驱动的智能交互,刷新行业标杆!

4. 本地也能玩转AI图片创作?腾讯3B开源模型实测:精准又轻便,统一生成理解,手把手教你部署



关注机智流并加入 AI 技术交流群,不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流,同时还有
HuggingFace每日精选论文顶会论文解读Talk分享通俗易懂的Agent知识与项目前沿AI科技资讯大模型实战教学活动等。
在「机智流」公众号后台回复下方标红内容即可加入对应群聊:
  • cc | 大模型技术交流群
  • hf | HuggingFace 高赞论文分享群
  • 具身 | 具身智能交流群
  • 硬件 | AI 硬件交流群
  • 智能体 | Agent 技术交流群

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
《黑神话》新作亮相/DeepSeek开源新模型,R2还没来/李想:只有我和雷军能做超级产品
谷歌版小钢炮开源!0.27B大模型,4个注意力头,专为终端而生
实测Perplexity Pro平替模型,免费开源仅4B
英伟达开源9B参数小模型,比Qwen3快6倍
吞下17亿图片,Meta最强巨兽DINOv3开源!重新定义CV天花板
字节Seed开源长线记忆多模态Agent,像人一样能听会看
谷歌发布超小型高效开源 AI 模型 Gemma 3 2.7亿参数,可在智能手机上运行
RSS'25开源 | 破解机器人柔性物体抓取的难题!
全面优于π0!星海图开源端到端双系统VLA模型G0:基于500小时真机数据预训练
炸了!ML开源
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号