谷歌发布超小型高效开源 AI 模型 Gemma 3 270M,可在智能手机上运行
核心要点:
总计 2.7 亿参数:由于词汇表规模较大,其中 1.7 亿为嵌入参数,另外 1 亿用于 Transformer 模块。 这款新模型的一个突出特点是其高能效。 在 Pixel 9 Pro SoC 上,经过 INT4 量化的模型在进行 25 次对话后,仅消耗了 0.75% 的电量。 谷歌将 Gemma 3 270M 定位为处理大批量、明确定义的任务的理想选择,例如情感分析、实体提取和创意写作。 尽管体积小巧,但它能够处理复杂的领域特定任务,并且只需几分钟即可针对企业或个人项目完成微调。它甚至可以在浏览器、树莓派 (Raspberry Pi) 上运行,正如谷歌的 Omar Sanseviero 开玩笑说的那样,它还能“在你的烤面包机里运行”。 在 IFEval 基准测试中,其指令微调版本得分率为 51.2%,超过了 SmolLM2 135M Instruct 和 Qwen 2.5 0.5B Instruct 等其他小型模型,但低于 Liquid AI 的 LFM2-350M(65.12%)。 该模型提供预训练 (pretrained) 和指令微调 (instruction-tuned) 两种版本,并带有用于高效 INT4 精度的 QAT (Quantization Aware Training,量化感知训练) 检查点。谷歌的定位是,对于情感分析、实体提取、查询路由和创意写作等任务,专门的小型模型通常能胜过大型模型。 一个名为“睡前故事生成器”的演示应用展示了它如何利用用户自定义的角色、背景、情节转折、主题和长度等输入,在浏览器中离线创作互动故事。 Gemma 3 270M 根据 Gemma 使用条款发布,只要遵守许可条款,允许在有一定限制的情况下进行商业使用。企业对其产出内容拥有完全的所有权。它并非完全开源 (open-source),但支持广泛的商业部署。
Claude Code 新增 /model 选项:用于计划模式的 Opus 模型
Claude Code 全新的“计划模式”非常实用。
你只需说明需要完成的任务,它就会为你生成一个计划。
你可以根据需要任意调整计划,然后切换到编码模式,让它根据该计划构建所有内容。
Opus 计划模式是 Claude Code 中的一个路由选项,在此模式下,规划任务将在只读分析的计划模式中运行。
当你希望在接触代码库之前进行周密的设计或审查时,可以使用此模式,例如在进行大规模重构、数据迁移、安全审查或编写实施计划等场景下。
Anthropic 的 SDK 页面甚至特别指出,计划模式对于代码审查和变更规划非常有用,因为它禁止编辑代码和执行命令。
要试用此功能,请在模型选择器 (/model
) 中选择“Opus 计划模式”。这样,你既能利用 Opus 4.1 的智能进行规划,又能享受 Sonnet 4 的高速(以及更低成本)来执行任务。
你可以使用 Shift+Tab
组合键在不同模式(默认、自动接受和计划)之间切换。所有拥有 Opus 访问权限的 Claude Code 用户,在最新版本的 Claude Code 更新中均可使用此设置。
Meta AI 发布 DINOv3:一款通过自监督学习训练的顶尖计算机视觉模型,可生成高分辨率图像特征
DINOv3 具有革命性意义:它是一个全新的顶尖视觉骨干网络,经过训练可生成丰富而密集的图像特征。我非常喜欢他们的演示视频,因此决定重新创建他们的可视化工具。
自监督视觉基础模型领域的一次重大飞跃。 在 17 亿张无标注的精选图像上进行训练。 格拉姆锚定 技术解决了模型过大、训练时间过长导致的特征图退化问题。 它包含高分辨率的密集特征,重新定义了视觉任务的可能性。 DINOv3 表明,单一的自监督视觉骨干网络在各项基准测试中,都能在密集任务上稳定地超越专业模型。
自监督学习指的是模型在没有标签的情况下,通过预测不同视图之间的一致性来从原始图像中学习。视觉骨干网络是一个特征提取器,它将每张图像转化为下游任务头可以使用的数值。冻结意味着在训练微小的任务头时,骨干网络的权重保持不变。
这里的关键在于规模化。该团队使用一种无标签方案,在仅 17 亿张图像上训练了一个 70 亿参数的模型,从而获得了能够详细描述每个像素的高分辨率特征。
由于这些特征非常丰富,只需使用小型的适配器甚至一个简单的线性头,就能用少量标注数据解决各种任务。
DINOv3 解决了自监督视觉领域的一个核心问题:它能在高分辨率下保持逐像素特征的清晰度和细节。
密集特征图是骨干网络输出的逐像素描述符。深度估计、3D 匹配、检测和分割等任务,不仅要求这些特征图在语义上智能,更依赖于其在几何上的清晰度。如果特征图质量高,微小的任务头几乎无需后处理即可开箱即用。
在海量图像上训练的大型模型,其学习重点常常会偏向于高层级的理解。这会“冲淡”局部细节,导致密集特征图“坍塌”并丢失几何信息。更长的训练时间可能会使这一问题恶化。
DINOv3 引入了格拉姆锚定技术。通俗地讲,它在模型学习全局语义的同时,约束了特征通道之间的关系,从而保持了局部模式的多样性和结构性。即使在训练时间长、模型规模大的情况下,这也成功地平衡了全局识别能力与像素级质量。
其结果是,DINOv3 生成了比 DINOv2 更强大的密集特征图,在高分辨率下依然清晰,这直接提升了下游几何任务的性能,并使得冻结骨干网络的工作流变得更加实用。
参考资料:https://developers.googleblog.com/en/introducing-gemma-3-270m/
https://docs.anthropic.com/en/docs/claude-code/sdk#using-plan-mode
https://ai.meta.com/blog/dinov3-self-supervised-vision-model/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!