把1万份Markdown"吃"进AI大脑，YC掌门人开源的 GBrain 是什么？图1

> 作者：北辰

Garry Tan（YC CEO）最近开源了他的个人 AI 大脑 — GBrain，核心思路简单粗暴：把你人生中所有的会议、邮件、推文、日历、笔记全部灌进一个知识库，让 Agent 每次回答之前先"读脑"。

把1万份Markdown"吃"进AI大脑，YC掌门人开源的 GBrain 是什么？图2

Karpathy 预言

十天前，Andrej Karpathy（前 OpenAI / Tesla AI 负责人）发了一个叫 LLM Wiki^[1] 的 idea file，迅速获得 5000+ ⭐️ ，核心观点只有一句话：

别再用 RAG 了。让 LLM 增量式地构建一个 persistent wiki — 知识被编译过一次，然后持续维护，而不是每次查询都从头推导。

把1万份Markdown"吃"进AI大脑，YC掌门人开源的 GBrain 是什么？图3

Karpathy 的意思是：现在多数人使用 LLM 和文档的方式，本质上还是 RAG。你把一堆文件丢进去，模型在查询时临时检索、临时拼装答案。这个方式能用，但有一个明显问题：

知识不会积累。

每次回答，模型都像重新开工一次。它可以找到相关 chunk，但它不会在这个过程中逐渐形成一个稳定、持续演化的知识结构。

Karpathy 主张在原始文档和问答之间，加一个由 LLM 持续维护的 wiki 层，新资料进来，不只是被索引，而是会被整合进已有知识结构：

人物页更新
主题页更新
旧结论被修正
新矛盾被标记

整个知识库随着输入持续演化。

这是一个非常漂亮的模式设计。如果 Karpathy 的 LLM Wiki 是"论文"，GBrain^[2] 就是"工程实现"，而且实现得相当硬核。

GBrain 到底干了什么？

一句话：给你的 AI Agent 装一个长期记忆。

Garry Tan 在搭建自己的 OpenClaw^[3] / Hermes Agent^[4] 时，开始用 markdown 文件记录一切：每个人一页、每家公司一页。页面结构非常简单但讲究：

上半部分（横线以上）
Compiled Truth — 当前对这个人/公司最准确的认知。每次有新信息，直接重写这部分。
下半部分（横线以下）
Timeline — 只追加、不修改的时间线日志。每个条目记录日期、来源、发生了什么。

当 Agent 被询问：

"现在什么情况？"→ 读上半部分。
"之前发生了什么？"→ 读下半部分。

一周之内，他的"大脑"就有了：

📄 10,000+ 个 markdown 文件
👤 3,000+ 个人物档案（含完整 dossier）
📅 13 年日历数据（全部导入可搜索）
📝 5,800+ 条 Apple Notes
🎙️ 280+ 场会议录音
💡 300+ 条原创想法

然后他把这套系统开源了，就是 GBrain。

架构拆解：三个层次

GBrain 的架构照相比很多记忆系统，十分的简洁：

┌──────────────────┐    ┌───────────────┐    ┌──────────────────┐
│   Brain Repo     │    │    GBrain     │    │    AI Agent      │
│   (git)          │    │  (retrieval)  │    │  (read/write)    │
│                  │    │               │    │                  │
│  markdown 文件   │───>│  Postgres +   │<──>│  每条消息先读脑   │
│  = 事实来源      │    │  pgvector     │    │  再写回新知识     │
│                  │<───│  混合搜索      │    │                  │
│  人能直接编辑     │    │  (向量+关键词)  │    │  实体检测、补全   │
└──────────────────┘    └───────────────┘    └──────────────────┘

Brain Repo（Markdown 文件）
人类可读的事实来源，你可以用任何编辑器直接改。这是 source of truth。
GBrain（检索层）
内置 PGLite（嵌入式 Postgres + pgvector），做向量搜索、关键词搜索、混合排序（RRF）。零配置，2 秒就绪，不需要装数据库。
AI Agent（读写层）
每次对话先 gbrain search 查上下文，对话结束后检测新实体并写回。越用越聪明。

关键设计：人永远有最终控制权。 你直接改 markdown → gbrain sync 同步。Agent 写的东西你看得懂、改得动。

最酷的部分：“梦境循环”

GBrain 最有想象力的功能是 Dream Cycle（梦境循环）。

Agent 在你睡觉时自动执行：

梦境循环：
  Phase 1: 实体扫描
    → 扫描当天所有对话
    → 检测新出现的人名、公司名、想法
    → 没有页面的 → 创建 + 补全信息
    → 页面太薄的 → 自动 enrichment

  Phase 2: 引用修复
    → 找到断裂的交叉引用
    → 修复或标记

  Phase 3: 记忆整合
    → 碎片信息合并到对应页面
    → 更新 Compiled Truth

Garry 的原话：

“I wake up and the brain is smarter than when I went to sleep.”

配套还有 20+ 个定时任务（cron jobs），覆盖邮件监控、Twitter 收集、会议同步、日历导入……整个系统像一个有生命的器官，24 小时不停运转。

记忆机制比较：各有千秋

在开始使用 GBrain 之前，得先搞清楚 OpenClaw 和 Hermes 自带的记忆系统是什么样的。因为 GBrain 的定位不是替代它们，而是在它们之上叠加一层世界知识。

OpenClaw 的记忆：Markdown 文件 + 自动整理

OpenClaw 的记忆系统非常直觉 — 就是文件：

文件	用途	加载时机
`MEMORY.md`	长期记忆：事实、偏好、决策	每次对话开始
`memory/YYYY-MM-DD.md`	每日笔记：上下文、观察	自动加载今天+昨天
`DREAMS.md` （实验性）	梦境日记：后台整理的摘要	人工审阅

Agent 有两个工具操作记忆：memory_search（语义搜索，即使措辞不同也能找到）和 memory_get（读取特定文件）。

搜索支持混合模式 — 向量相似度（语义）+ 关键词匹配（精确术语如 ID、代码符号）。只要配了 OpenAI / Gemini / Voyage 等任一 embedding key 就自动启用。

更厉害的是 OpenClaw 的 Memory Wiki 插件 — 把持久记忆编译成一个知识库 wiki，包含：

结构化的 claims 和 evidence
矛盾检测和新鲜度追踪
生成仪表盘和编译摘要
wiki_search、wiki_get、wiki_apply、wiki_lint等专用工具

还有自动记忆冲洗（Flush）：在对话被压缩（compaction）之前，自动提醒 Agent 把重要上下文写入文件，防止上下文丢失。

梦境系统（刚刚实验性引入）：后台扫描短期信号，评分后将合格项提升到长期记忆。支持阈值过滤、频率门控、多样性检查，结果写入 DREAMS.md 供人工审阅。

Hermes 的记忆：精简但自进化

Hermes 的记忆哲学不同 — 有意识地限制容量，迫使 Agent 只记住最重要的东西，这防止了记忆内容随着使用时间越来越长，占用 LLM 上下文：

文件	用途	字符限制
`MEMORY.md`	Agent 的个人笔记：环境、约定、经验教训	2,200 字符（~800 tokens）
`USER.md`	用户画像：偏好、沟通风格、期望	1,375 字符（~500 tokens）

存储在 ~/.hermes/memories/，每次会话开始时作为冻结快照注入系统提示词。Agent 在会话中可以增删改记忆（通过 memory 工具的 add / replace / remove），修改立即持久化到磁盘，但要到下次会话才会出现在系统提示词中。

容量限制是刻意的 — 记忆满了，Agent 就得整合或替换旧条目，给新信息腾位置。这迫使记忆始终保持高信噪比。

与 Openclaw 相比，Hermes 将 Skills 拓展成了一种程序性记忆。Agent 在完成复杂任务后会自主创建技能，使用过程中自我改进。搭配 FTS5 会话搜索（跨历史对话检索 + LLM 摘要），以及 Honcho 辩证用户建模，形成一个自我进化的学习闭环。

三种记忆的对比

差异总结：

OpenClaw
的记忆像一个勤奋的秘书 — 帮你记笔记、整理文件、自动冲洗
Hermes
的记忆像一个精明的学徒 — 记得少但记得准，而且会自己学新技能
GBrain
的记忆像一个全知的百科全书 — 关于你认识的所有人、所有事，它都知道

维度	OpenClaw	Hermes	GBrain
定位	操作记忆（我是谁、怎么干活）	精简记忆 + 程序性进化	世界知识库（人、公司、事件）
存储形式	Markdown 文件	Markdown 文件（有容量限制）	Markdown 文件 + Postgres 索引
搜索方式	混合搜索（向量+关键词）	冻结快照注入 + 会话搜索	混合搜索（向量+关键词+RRF）
容量策略	无硬限制，靠整理	严格字符上限，逼迫精简	无限制，10,000+ 文件
自动整理	✅ 梦境系统（实验性）	✅ 技能自创建 + 自改进	✅ 梦境循环（实体扫描+补全）
外部数据	需手动或第三方集成	需手动或 Skills	内建 6 种集成 recipe
知识类型	偏好、决策、操作配置	偏好 + 可执行技能	人/公司/会议/想法/媒体
安装复杂度	开箱即用	开箱即用	~30 分钟配置

GBrain 在其中的角色：外挂大脑

GBrain 并不是来替代 Agent 原生记忆的。它是一个额外的层次：

层	存什么	谁提供
GBrain	人、公司、会议、想法、媒体（世界知识）	GBrain（需要额外安装）
Agent Memory	偏好、决策、操作配置（我是谁）	OpenClaw / Hermes 内建
Session	当前对话上下文（在聊什么）	自动

三层各管各的，Agent 调用时全部检查：

先查 GBrain — 有关于这个人的事实吗？
再查 Memory — 我之前做过什么决定？
最后看 Session — 当前对话的上下文是什么？

使用示例

假设你在 OpenClaw / Hermes 中配置了 GBrain，以下是真实的一天：

🌅 早上 8:00 — 晨间简报

Agent 自动运行，检查你的日历：

gbrain search "Jordan meeting" --type people
gbrain query "最近跟 Jordan 相关的讨论"

然后给你推送：

“今天 10:00 有和 Jordan 的会议。上次聊的是 A 轮融资条款，他当时对估值有些保留意见。建议今天先确认他的最新想法。”

📧 上午 — 邮件进来

邮件同步（每 30 分钟一次）自动运行：

邮件来源: alex@fund.vc
→ gbrain search "alex@fund.vc"
→ 找到: Alex Chen, Partner at FundVC
→ 更新: 人物页面 timeline 添加新条目
→ 检测: 邮件提到了 "DeepMind" 
→ 联动: 更新 DeepMind 公司页面

🎙️ 下午 — 开完会

会议结束，Agent 自动处理：

1. 拉取会议转录（Circleback / 其他工具）
2. 检测参会人 → 更新各个人物页面
3. 提取关键决策 → 写入相关项目的 Open Threads
4. 检测新提及的实体 → 创建新页面或补全

🌙 晚上 — 梦境循环

你睡了，Agent 没睡：

gbrain dream-cycle
→ 扫描今日所有对话
→ 发现 12 个新实体
→ 5 个需要补全
→ 修复 3 个断裂引用
→ 整合 8 条碎片信息

快速开始（Agent 全自动）

如果你想尝试使用，安装也很简单。

项目	信息
GitHub	garrytan/gbrain^[2] ⭐ 7.1k stars
协议	MIT 开源
数据库	PGLite（本地，零配置）或 Supabase（生产级，$25/月）
模型要求	Claude Opus 4.6 或 GPT-5.4 Thinking（小模型可能跑不动）
部署方式	OpenClaw / Hermes Agent / Claude Code / Cursor / 独立 CLI
上手时间	~30 分钟（Agent 自动安装，你只管回答 API Key）

GBrain 的设计是 “Agent 来装，你只管回答问题”。在 OpenClaw 或 Hermes 里贴入下面的指令：

INSTALL:
  git clone https://github.com/garrytan/gbrain.git ~/gbrain
  cd ~/gbrain && curl -fsSL https://bun.sh/install | bash
  export PATH="$HOME/.bun/bin:$PATH"
  bun install && bun link

API KEYS — 问用户要:
  export OPENAI_API_KEY=***          # 向量搜索必须
  export ANTHROPIC_API_KEY=***       # 可选，提升搜索质量

SET UP:
  gbrain init                        # PGLite，2秒就绪
  gbrain import ~/brain/ --no-embed
  gbrain embed --stale

Agent 会自动读文档、建目录结构、导入数据。大约 30 分钟，一个能用的大脑就跑起来了。

六种数据集成（感官系统）

GBrain 不是单纯的静态知识库，按照 Garry 的说法，它有 “感官” 。当前版本下，GBrain 通过集成的6个 recipe 自动从你的数字生活中汲取信息：

集成	功能	依赖
📧 Email-to-Brain	Gmail 邮件自动流入人物页面	Credential Gateway
🐦 X-to-Brain	Twitter 时间线/提及/关键词监控	X API Bearer Token
📅 Calendar-to-Brain	Google Calendar → 可搜索的每日页面	Credential Gateway
🎙️ Voice-to-Brain	电话通话 → 自动生成 brain 页面	Twilio + OpenAI Realtime
📋 Meeting Sync	会议转录自动导入 + 参会人传播	Circleback
🌐 Public Tunnel	固定 URL 用于 MCP + 语音接入	ngrok