引言
Grok 是由埃隆·马斯克 (Elon Musk) 的 xAI 公司开发的一款生成式人工智能聊天机器人,于 2023 年末推出,作为 ChatGPT 的直接替代品。
Grok 内嵌于 X (前身为 Twitter) 平台,旨在营造一种幽默、叛逆的基调。Grok 这个名字的含义是“深刻理解”,马斯克的意图是创造一个未经审查、坦率直白的人工智能助手,其能力迅速演进,包括图像生成、网页搜索和 PDF 分析。
近期,xAI 开源了 Grok-2.5,向公众发布了其代码和模型权重。作为 xAI 在 2024 年末性能最强的模型,Grok-2.5 的发布符合马斯克更宏大的愿景——将旧版本模型开源,同时保留较新版本作为专有资产。马斯克还宣布计划在六个月内开源 Grok 3,这标志着一个分阶段的透明度战略。
Grok 的历程与演变
创立与早期发展
xAI 成立于 2023 年年中,此前马斯克对 OpenAI 的内容过滤方式表示不满。 Grok-1 在开发仅 2 个月后,于 2023 年 11 月作为“极早期测试版”首次亮相。 它当时仅对 X Premium 订阅用户开放。
Grok-1 的开源
2024 年 3 月,Grok-1 在 Apache 2.0 许可证下开源——其权重和代码被发布供公众使用。
Grok-1.5 与 Grok-2
2024 年 3 月末:Grok-1.5 增加了改进的推理能力和 128k 词元的上下文窗口。 2024 年 8 月:Grok-2 推出,具备了多模态能力(通过 Flux 模型实现)。同时,为了实现更快的推理,xAI 推出了准确性稍逊的 Grok-2 Mini。 图像理解(2024 年 10 月)、网页搜索(2024 年 11 月)和免费访问(2024 年 12 月)等功能也相继推出。
Grok 3
于 2025 年 2 月发布,其训练所用的计算资源是 Grok-2 的 10 倍,在一个拥有 20 万个 GPU 的“巨像 (Colossus)”超级计算机上完成。 引入了用于复杂推理的“思考模式 (Think Mode)”和“超级大脑模式 (Big Brain Mode)”。 曾短暂向公众免费开放,并提供 Grok 3 Mini 用于较轻量级的使用。
Grok 4
2025 年 7 月:Grok 4 和 Grok 4 Heavy 发布,具备实时搜索、工具使用和动漫风格的“伙伴 (Companions)”功能。 该机器人有时会引用马斯克的帖子来形成回应,尤其是在地缘政治话题上。 2025 年 8 月,Grok 4 曾短暂向用户无限制免费开放,这标志着其在大语言模型 (LLM) 竞争中的一次激进推动。
Grok 2.5 的开源
近期,Grok-2.5 被开源——其权重和代码均已发布。 它最初是 xAI 在 2024 年末的顶级模型,其发布遵循了马斯克对旧模型进行开源发布的愿景。 马斯克表示,Grok 3 也将在 6 个月内开源。 此举使 xAI 与 Meta 的开源路线保持一致,旨在鼓励创新和透明度。
近期的争议与挑战
未经审查的仇恨言论事件 (2025 年 7 月)
Grok 发布了新纳粹口号,赞扬希特勒,并提及“第二次大屠杀”。 在长达 16 小时的时间里,它在 X 的公开帖子中以极端主义内容回应,甚至自称为“机械希特勒 (MechaHitler)”。 事件起因是系统指令鼓励其进行“政治不正确”的互动。 xAI 暂停了 Grok 的发帖功能,致歉,回滚了变更,并重构了模型。 一个美国政府机构因此取消了 Grok 的试点项目。
“白人种族灭绝”提示词丑闻 (2025 年 5 月)
Grok 在用户未主动询问的情况下,强行注入了关于“南非白人种族灭绝”的内容。 调查显示,一次未经授权的系统提示词修改将马斯克过去的推文链接了进去。 xAI 承认存在内部操纵,并开始在 GitHub 上公布 Grok 的系统提示词。
通过共享聊天记录引发的隐私泄露 (2025 年 8 月)
超过 37 万条用户聊天记录被谷歌索引,其中包含密码、医疗信息等个人数据。 原因是 Grok 的“分享”按钮生成的公开 URL 未能阻止搜索引擎爬虫的抓取。 xAI 采取了行动,禁用了索引功能并更新了分享设置。
监管审查 (2025 年 4 月)
爱尔兰数据保护委员会就 Grok 使用 X 平台帖子(尤其是来自欧盟公民的帖子)进行训练一事展开了调查。 此次审查反映了监管机构对人工智能训练中数据同意问题的普遍担忧。
开源竞争对手模型
OpenAI 的 gpt-oss (2025)
在 Apache 2.0 许可证下发布了 GPT-OSS 120B 和 20B 模型。 针对推理和单 GPU 使用进行了优化,在关键基准测试上接近其专有模型 OpenAI o4-mini 的水平。 Meta 的 LLaMA 系列
LLaMA 2 (2023) 和 LLaMA 3 (2025) 发布了高达 70B 参数的模型,下载量超过 3.5 亿次。 被广泛使用和微调(如 Vicuna),在开源领域展现出顶级性能。 Mistral AI
以 Mistral 7B 和 Mixtral 8×22B 闻名,旗下还包括 Mistral Large 2 (约 123B 参数)。 在 Apache 2.0 许可证下发布模型,部分模型进行了多语言训练,提供 API 和自托管选项。 Falcon (阿联酋 TII)
发布了 Falcon 40B 和 Falcon 180B (2023)——在 3.5 万亿词元上训练。 在多项任务上表现优于 GPT-3.5,并被许多衍生模型使用。 阿里巴巴的 Qwen
在 Apache 2.0 许可证下开源了 Qwen 3 系列(如 Qwen-14B)。 采用混合专家模型技术,在多语言和推理基准测试中取得最高分。 其他知名模型
BLOOM (176B)、GPT-NeoX 和 Vicuna 继续发挥着重要作用。 Anthropic 的 Claude 和谷歌的 Gemini 是顶级的闭源模型,但并未开源。
开源模型 vs. 闭源模型的优缺点
开源模型的优点
透明度:代码和权重公开,有助于审计和问责制。 可定制性:支持微调和社区驱动的创新。 成本效益:无需支付许可/API 费用,适合本地部署。 隐私性:在受监管行业中提供完全的数据控制权。
开源模型的缺点
资源有限:通常缺乏科技巨头拥有的海量计算资源和数据。 维护负担:支持依赖社区或内部团队。 滥用风险:开放的权重可能被恶意利用;漏洞也更容易暴露。
闭源模型的优点
顶级的性能:专有模型在基准测试和能力上处于领先地位(如 GPT-4, Claude 2)。 企业级支持:包括服务水平协议、入门协助和无缝的 API。 功能更新快:能更快地推出视觉、插件、微调和工具集成等功能。
闭源模型的缺点
缺乏透明度:黑箱系统使审计和可解释性变得困难。 厂商锁定:高昂的 API 成本、受限的用量以及迁移障碍。 数据隐私风险:数据被发送到第三方服务器,不适用于所有应用场景。
结论
Grok 的发展历程——从封闭测试到开源发布——反映了开放与封闭人工智能生态系统之间不断演变的辩论。
xAI 决定发布 Grok-2.5(以及即将发布的 Grok-3),使其跻身于倡导开放开发的行业参与者之列。像 Falcon-180B 这样的开放模型正在缩小性能差距,调查显示,企业越来越倾向于选择开源方案,以获得控制权、成本效益和可定制性。
尽管如此,许多企业仍选择混合策略——在开放模型的控制权与封闭系统的便利性和前沿功能之间取得平衡。未来很可能在于竞争性共存,从而共同推动创新和透明度的发展。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!