谷歌发布超小型高效开源 AI 模型 Gemma 3 2.7亿参数,可在智能手机上运行

智能情报所 2025-08-16 12:18

谷歌发布超小型高效开源 AI 模型 Gemma 3 270M,可在智能手机上运行

资讯配图

核心要点:

  • 总计 2.7 亿参数:由于词汇表规模较大,其中 1.7 亿为嵌入参数,另外 1 亿用于 Transformer 模块。
  • 这款新模型的一个突出特点是其高能效。
  • 在 Pixel 9 Pro SoC 上,经过 INT4 量化的模型在进行 25 次对话后,仅消耗了 0.75% 的电量。
  • 谷歌将 Gemma 3 270M 定位为处理大批量、明确定义的任务的理想选择,例如情感分析、实体提取和创意写作。
  • 尽管体积小巧,但它能够处理复杂的领域特定任务,并且只需几分钟即可针对企业或个人项目完成微调。它甚至可以在浏览器、树莓派 (Raspberry Pi) 上运行,正如谷歌的 Omar Sanseviero 开玩笑说的那样,它还能“在你的烤面包机里运行”。
  • 在 IFEval 基准测试中,其指令微调版本得分率为 51.2%,超过了 SmolLM2 135M Instruct 和 Qwen 2.5 0.5B Instruct 等其他小型模型,但低于 Liquid AI 的 LFM2-350M(65.12%)。
  • 该模型提供预训练 (pretrained) 和指令微调 (instruction-tuned) 两种版本,并带有用于高效 INT4 精度的 QAT (Quantization Aware Training,量化感知训练) 检查点。谷歌的定位是,对于情感分析、实体提取、查询路由和创意写作等任务,专门的小型模型通常能胜过大型模型。
  • 一个名为“睡前故事生成器”的演示应用展示了它如何利用用户自定义的角色、背景、情节转折、主题和长度等输入,在浏览器中离线创作互动故事。
  • Gemma 3 270M 根据 Gemma 使用条款发布,只要遵守许可条款,允许在有一定限制的情况下进行商业使用。企业对其产出内容拥有完全的所有权。它并非完全开源 (open-source),但支持广泛的商业部署。

Claude Code 新增 /model 选项:用于计划模式的 Opus 模型

资讯配图

Claude Code 全新的“计划模式”非常实用。

你只需说明需要完成的任务,它就会为你生成一个计划。

你可以根据需要任意调整计划,然后切换到编码模式,让它根据该计划构建所有内容。

Opus 计划模式是 Claude Code 中的一个路由选项,在此模式下,规划任务将在只读分析的计划模式中运行。

当你希望在接触代码库之前进行周密的设计或审查时,可以使用此模式,例如在进行大规模重构、数据迁移、安全审查或编写实施计划等场景下。

Anthropic 的 SDK 页面甚至特别指出,计划模式对于代码审查和变更规划非常有用,因为它禁止编辑代码和执行命令。

要试用此功能,请在模型选择器 (/model) 中选择“Opus 计划模式”。这样,你既能利用 Opus 4.1 的智能进行规划,又能享受 Sonnet 4 的高速(以及更低成本)来执行任务。

你可以使用 Shift+Tab 组合键在不同模式(默认、自动接受和计划)之间切换。所有拥有 Opus 访问权限的 Claude Code 用户,在最新版本的 Claude Code 更新中均可使用此设置。

Meta AI 发布 DINOv3:一款通过自监督学习训练的顶尖计算机视觉模型,可生成高分辨率图像特征

资讯配图

DINOv3 具有革命性意义:它是一个全新的顶尖视觉骨干网络,经过训练可生成丰富而密集的图像特征。我非常喜欢他们的演示视频,因此决定重新创建他们的可视化工具。

  • 自监督视觉基础模型领域的一次重大飞跃。
  • 在 17 亿张无标注的精选图像上进行训练。
  • 格拉姆锚定 技术解决了模型过大、训练时间过长导致的特征图退化问题。
  • 它包含高分辨率的密集特征,重新定义了视觉任务的可能性。
  • DINOv3 表明,单一的自监督视觉骨干网络在各项基准测试中,都能在密集任务上稳定地超越专业模型。

自监督学习指的是模型在没有标签的情况下,通过预测不同视图之间的一致性来从原始图像中学习。视觉骨干网络是一个特征提取器,它将每张图像转化为下游任务头可以使用的数值。冻结意味着在训练微小的任务头时,骨干网络的权重保持不变。

这里的关键在于规模化。该团队使用一种无标签方案,在仅 17 亿张图像上训练了一个 70 亿参数的模型,从而获得了能够详细描述每个像素的高分辨率特征。

由于这些特征非常丰富,只需使用小型的适配器甚至一个简单的线性头,就能用少量标注数据解决各种任务。

DINOv3 解决了自监督视觉领域的一个核心问题:它能在高分辨率下保持逐像素特征的清晰度和细节。

密集特征图是骨干网络输出的逐像素描述符。深度估计、3D 匹配、检测和分割等任务,不仅要求这些特征图在语义上智能,更依赖于其在几何上的清晰度。如果特征图质量高,微小的任务头几乎无需后处理即可开箱即用。

在海量图像上训练的大型模型,其学习重点常常会偏向于高层级的理解。这会“冲淡”局部细节,导致密集特征图“坍塌”并丢失几何信息。更长的训练时间可能会使这一问题恶化。

DINOv3 引入了格拉姆锚定技术。通俗地讲,它在模型学习全局语义的同时,约束了特征通道之间的关系,从而保持了局部模式的多样性和结构性。即使在训练时间长、模型规模大的情况下,这也成功地平衡了全局识别能力与像素级质量。

其结果是,DINOv3 生成了比 DINOv2 更强大的密集特征图,在高分辨率下依然清晰,这直接提升了下游几何任务的性能,并使得冻结骨干网络的工作流变得更加实用。

参考资料:https://developers.googleblog.com/en/introducing-gemma-3-270m/

https://docs.anthropic.com/en/docs/claude-code/sdk#using-plan-mode

https://ai.meta.com/blog/dinov3-self-supervised-vision-model/


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 开源 智能手机
more
月之暗面又开源了!杨植麟合著提出新Agent框架,旗舰模型得分超GPT-4o
模仿人类推理修正过程,阶跃星辰提出形式化证明新范式 | 开源
本周智元动作不断:拿订单、入股玉树智能、推出世界模型开源平台、计划开售机器人
谷歌发布超小型高效开源 AI 模型 Gemma 3 2.7亿参数,可在智能手机上运行
全球首个AI-Native SCADA平台,工业智能“开源”炸场!
谷歌最新「0.27B」Gemma 3开源!身板小却猛如虎,开发者直呼救命稻草
4万星开源项目被指造假!MemGPT作者开撕Mem0:为营销随便造数据,净搞没有意义的测试!
o3 Gemini 都翻车?首个可验证长链 GUI 数据集 VeriGUI 重磅开源,探索通用 Agent 能力边界
快讯|400亿A股上市龙头赴港IPO ;日媒:中国AI迅猛追赶,资本涌向人形机器人企业;智元发布行业首个机器人世界模型开源平台等
量智融合!量子神经网络开发套件正式开源
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号