阶段一:大语言模型基础(1–2个月)

核心目标
理解大语言模型的基本架构与工作原理,掌握Prompt设计方法,并能调用API构建基础对话系统。
关键知识点
1. Transformer架构
组件结构:Self-Attention、Multi-head Attention、Position Embedding
编码-解码 vs 纯解码(GPT 系列采用Decoder-only架构)
2. 自回归生成机制(Autoregressive LM)
按token逐个预测下一个词
优点:语言流畅,能处理长文本
局限:推理延迟、训练成本高
3. 指令微调(Instruction Tuning)
让LLM变得更可控、更通用(如 ChatGPT)
示例任务:问答、总结、翻译、编程等
4. Prompt Engineering技巧
Zero-shot / Few-shot Prompting
Chain-of-Thought(CoT)推理
Role Prompt、System Prompt设计
中文学习资源与项目推荐
1. Transformer 架构与自回归生成机制
• Transformer 学习笔记
该项目记录了作者在学习 Transformer 过程中的笔记,适合初学者参考学习路径。
GitHub 地址:(https://github.com/tianxinliao/Transformer-learning?utm_source=chatgpt.com)
• 基于 Transformers 的自然语言处理入门
Datawhale 团队整理的教程,结合 HuggingFace Transformers 库,提供形象生动的原理讲解和多个动手实践项目。
GitHub 地址:(https://github.com/datawhalechina/learn-nlp-with-transformers?utm_source=chatgpt.com)(GitHub)
• Transformers 中文文档
HuggingFace Transformers 库的中文翻译文档,帮助中文读者更好地理解和使用该库。
GitHub 地址:(https://github.com/liuzard/transformers_zh_docs?utm_source=chatgpt.com)
2. Prompt 工程技巧
• Prompt 工程指南(中文)
该项目翻译并整理了 Prompt 工程的相关资料,包含最新论文、学习指南、讲座、参考资料和工具。
GitHub 地址:(https://github.com/wangxuqi/Prompt-Engineering-Guide-Chinese?utm_source=chatgpt.com)(GitHub)
• 吴恩达《ChatGPT Prompt Engineering for Developers》课程中文版
该项目是吴恩达老师与 OpenAI 合作推出的教程的中文翻译版本,指导开发者如何构建 Prompt 并基于 OpenAI API 构建应用。
GitHub 地址:(https://github.com/Kevin-free/chatgpt-prompt-engineering-for-developers?utm_source=chatgpt.com)(GitHub)
3. 指令微调(Instruction Tuning)
• Gemma 中文指令微调教程
该项目演示了如何在免费的 Colab T4 GPU 上使用 Hugging Face 库进行 Gemma 2B 中文指令微调。
GitHub 地址:(https://github.com/windmaple/Gemma-Chinese-instruction-tuning?utm_source=chatgpt.com)(GitHub)
• Instruction Tuning 课程回顾
该项目回顾了 Instruction Tuning 的课程内容,适合希望深入了解该技术的学习者。
GitHub 地址:(https://github.com/mindspore-courses/step_into_llm/blob/master/Season1.step_into_chatgpt/0.Course-Review/8-Instruction.md?utm_source=chatgpt.com)(GitHub)
实战项目建议
1. 构建多轮聊天助手
使用 OpenAI API 或 Qwen API,结合 Prompt 工程技巧,开发一个支持多轮对话的聊天助手。
2. 实现自定义指令 Bot
基于指令微调技术,开发一个能够执行特定任务(如写日报、代码解释)的自定义 Bot。
3. 与传统规则 Bot 对比实验
设计实验,比较基于 LLM 的聊天助手与传统规则 Bot 在多轮对话中的性能差异。
阶段二:多轮对话与上下文管理(1–2个月)

核心目标
实现具备“记忆力”和“知识增强”的智能体,支持企业知识问答、多轮教育问答等应用。
关键知识点
1. 上下文管理策略
Token窗口限制(通常4K~128K)
滑动窗口、摘要压缩、Embedding检索(用于保持历史对话)
Memory机制:LangChain Memory、简单Cache机制
2. RAG(Retrieval-Augmented Generation)机制
使用向量数据库(如 FAISS、Chroma)从知识库中检索内容
与prompt拼接后再交给大模型生成响应
架构:Retriever → Reader(LLM)
3. 对话状态追踪(DST)
追踪用户意图、槽位填充、任务进度等
通常结合意图识别+大模型解析结构化对话状态
推荐资源
以下是几个偏向中文、结合LangChain、RAG、对话管理的实战项目推荐,涵盖文档问答、企业知识库、教育类应用,均来自 GitHub 社区:
1. Langchain-Chatchat:国产最全中文LangChain/RAG项目
Star 数:30k+
项目特色:中文文档问答、PDF/网页解析、RAG+多模型支持(GLM、Qwen、ChatGLM)、插件系统完善
支持:中文OCR、知识库管理、上下文追踪、流式对话
GitHub地址:
https://github.com/chatchat-space/Langchain-Chatchat
2. Chinese-LLaMA-Alpaca-RAG:LLaMA系大模型中文RAG部署
Star 数:1.8k+
项目特色:基于本地部署模型 + 向量搜索实现中文RAG问答系统
支持:FAISS / Milvus / Chroma 多后端、中文Embedding
GitHub地址:
https://github.com/chujiezheng/Chinese-LLaMA-Alpaca-RAG
3. GPT-VITS2:结合语音识别、语音合成与LangChain的中文问答系统
项目特色:中文多模态语音助手,结合VITS2语音合成和LangChain知识库
GitHub地址:
https://github.com/innnky/gpt-vits2
4. EduGPT:教育大模型平台(支持课程知识记忆/作业答疑)
项目特色:聚焦教育场景,内置知识卡片、错题本等模块
GitHub地址:
https://github.com/WeOpenML/EduGPT
5. AutoRAG:轻量级中文RAG快速部署框架(支持CLI+API)
项目特色:CLI一键构建中文RAG问答系统,支持网页/PDF/Excel知识导入
GitHub地址:
https://github.com/datawhalechina/autoRAG
入门建议
阶段三:能力扩展与插件调用(1–2个月)

核心目标
打通大模型与外部工具、数据库、计算模块的通路,构建多工具协作的组合智能体。
关键知识点
1. Function Calling / Plugin调用
GPT Function Calling(支持JSON结构输出与函数调用)
工具编排平台(LangChain Tool Router、ChatGPT Plugin等)
2. Agent系统与控制策略
ReAct(Reasoning + Acting):结合语言推理与动作执行
AutoGPT:基于目标的自动任务分解与多轮执行
CrewAI / LangGraph:多Agent编排、任务调度、分工协作
3. 多模态能力接入
图像识别:MiniGPT-4、BLIP、GPT-4V
语音输入输出:Whisper(ASR)+ Bark/TTS(语音合成)
推荐资源(中文友好,GitHub+官方文档)
1. [LangChain 中文文档(含Tool调用与Agent系统)]
• 内容:LangChain 中的工具调用、Agent编排、ReAct 机制详细讲解
• 地址:
https://blog.csdn.net/langchainchina
GitHub 示例仓库:https://github.com/hwchase17/langchain
2. [LangGraph:LangChain 官方推出的多Agent编排工具]
• 特点:基于“状态图”的Agent执行编排系统,支持多轮控制流与条件判断
• 官方文档:
https://docs.langgraph.dev/
• 示例项目仓库:
https://github.com/langchain-ai/langgraph
3. [CrewAI 中文解读 + GitHub 源码]
• 特点:多人协作式 Agent 框架,擅长多角色执行任务
• 中文教程推荐:
https://mp.weixin.qq.com/s/Y6vZiyXbR6jENKVC3rZbGA
• GitHub 项目:
https://github.com/joaomdmoura/crewai
4. [OpenAI Function Calling 教程(配套中文解读)]
• 官方介绍:
https://platform.openai.com/docs/guides/function-calling
• 中文入门:
https://github.com/datawhalechina/openai-cookbook-zh
实战项目推荐
1. LangGPT:多功能智能助理(中文、PDF+网页阅读+搜索)
• Star 数:6k+
• 能力:接入搜索、阅读文档、写报告、可视化等功能
• 使用:支持Function Calling,基于LangChain + OpenAI API
• GitHub 地址:
https://github.com/LinkSoul-AI/LangGPT
2. Auto-GPT 中文分支(多工具目标执行)
• 内容:使用 GPT 模拟任务思考与执行,配合搜索、代码运行等工具
• 中文适配说明 + 工具链集成 + 本地运行教程
• GitHub 中文分支:
https://github.com/Torantulino/Auto-GPT
中文教程参考:https://github.com/geekan/MetaGPT
3. mini-copilot:轻量版中文GPT助手,支持插件调用
• 内容:对接搜索引擎、PDF阅读器、天气查询等自定义插件
• 技术:基于FastAPI + LangChain
• GitHub 地址:
https://github.com/xusenlin/mini-copilot
4. multi-modal-agent:视觉+语音能力接入框架(中文友好)
• 内容:整合 BLIP2(图像问答)、Whisper(语音识别)等工具
• 特点:能听、能看、能读文档,功能全面
• GitHub 地址:
https://github.com/OpenGVLab/Multi-Modal-Agent
总结学习路线建议
四、融合方向与前沿扩展(可选进阶)

多模态人机交互(图像、语音、动作)
推荐技术
• 图像输入/图文问答:
○ MiniGPT-4、Qwen-VL、BLIP-2、GPT-4V(图像理解)
○ 可支持图文描述、图中找物、图表总结等
• 动作输出 / 控制系统:
○ 使用 VLA(Vision-Language-Action)模型控制机器人API
○ 指令 → 代码 / 位置 / 轨迹,适用于具身智能场景
实战项目
• 多模态问答助手(上传图文 + 语音输入)
• 机器人对话系统:语音控制机械臂完成任务
个性化智能体开发
关键技术点
• 长时记忆机制(如LangChain Memory、VectorStore Memory)
• 用户画像系统(记录兴趣、习惯、背景)
• 自主学习机制(用户反馈、历史交互学习)
实战项目
• 构建专属“学习搭子”AI,记录用户学习进度、错题、偏好
• 公司内部智能助理,自动适配不同角色(销售、产品、技术)
本地化与轻量化部署
推荐技术
• LoRA/QLoRA 模型压缩
• llama.cpp / GGUF 模型部署格式
• 本地Web UI平台:Gradio、Streamlit
实战项目
• 在Jetson Orin / 树莓派上部署Chat模型(3B/7B)
• Huggingface Transformers + Gradio 搭建本地聊天界面
• 用 LoRA 微调模型实现定制任务(如写诗、代码审查)
中文友好 GitHub 项目推荐 + 工具资源:

一、多模态人机交互:视觉、语音、动作
项目 1:MiniGPT-4 中文图文问答系统
• 基于 BLIP-2 + Vicuna,实现上传图像后问答、生成描述
• 支持:图中找物、图表总结、图文对话
• GitHub 地址:
https://github.com/Vision-CAIR/MiniGPT-4
中文启动教程:https://github.com/THUDM/ChatGLM-MiniGPT4
项目 2:InternVL / Qwen-VL 多模态模型部署与推理
• 腾讯&阿里开源多模态基础大模型,视觉问答强,适合人机交互场景
• 可用作图像+文字输入的对话助手
• GitHub 地址:
○ InternVL: https://github.com/OpenGVLab/InternVL
○ Qwen-VL: https://github.com/QwenLM/Qwen-VL
项目 3:多模态控制机器人系统(图文语音+动作)
• 示例项目:用语音或图像指令控制机械臂抓取、导航
• 推荐实现方式:Whisper + BLIP + VLA 控制器
• 示例代码仓库:
https://github.com/OpenGVLab/Multi-Modal-Agent
推荐阅读:DexVLA 项目解读
二、个性化智能体开发
项目 1:EduGPT:带有用户学习轨迹记忆的教育AI系统
• 记录学生错题本、知识盲点、推荐学习路径
• 技术:LangChain Memory + RAG
• GitHub 地址:
https://github.com/WeOpenML/EduGPT
项目 2:LangGPT + 长时记忆(可定制为角色助手)
• 记录上下文、角色设定、支持“学习搭子”或“公司助理”风格定制
• 技术点:向量数据库 + 用户意图结构化
• GitHub 地址:
https://github.com/LinkSoul-AI/LangGPT
项目 3:Persona-Agent:支持多角色记忆与交互偏好的框架
• 基于LangChain构建,支持角色定制 + 个性记忆
• GitHub 地址:
https://github.com/BradyFU/Persona-Agent
三、本地化与轻量化部署
项目 1:Text-Generation-WebUI + GGUF 本地部署平台
• 支持运行 Qwen、Baichuan 等 GGUF 模型,图形界面控制
• 技术:llama.cpp、GGUF、WebUI,部署快速
• GitHub 地址:
https://github.com/oobabooga/text-generation-webui
项目 2:中文支持的 LoRA 微调与部署项目
• 用 LoRA/QLoRA 对本地模型进行中文任务微调,如诗歌、问答
• GitHub 地址:
https://github.com/haotian-liu/LLaVA-LoRA
微调脚本(中文支持):
https://github.com/FlagOpen/FlagLLaMA
项目 3:Gradio + Transformers:本地中文聊天助手
• 简洁前端 + Huggingface模型,支持CPU部署
• 示例项目:
https://github.com/zhayujie/chatgpt-on-wechat
https://github.com/mli/autocut(语音剪辑辅助)

