通俗介绍大模型，从RNN 到Transformer

AI大模型前沿 2025-10-17 20:00

今天，我们来看看RNN、Encoder技术最终累积导向的成果：LLM（Large Language Model）大型语言模型。

从RNN 到Transformer

这边稍微回顾一下前几天讲过的深度学习模型架构：

RNN（Recurrent Neural Network）

特点：逐步处理序列资料
问题：长距离的文字关系比较难捕捉、训练时间比较长

Encoder–Decoder 架构

应用：翻译、摘要等序列转换任务
优点：分为Encoder（编码器）与Decoder（解码器）两个阶段

Transformer

能平行化运算（加快训练速度）
擅长捕捉长距离关系

核心：使用Self-Attention机制，同时考虑整句话的所有词。
优点：
搭配Positional Encoding，补足模型对「词序」的理解。
Transformer 是现代LLM 的大大基石。

LLM 是什么？

LLM，全名为Large Language Model（大型语言模型），是基于Transformer 架构、使用巨量文字资料训练而成的模型

不过，它的核心任务仍然是：「预测下一个词」

这项看似简单的任务，却演变成如今非常非常强大的语言模型能力🤯

LLM 的几个关键要素

巨量参数（Parameters）

模型规模从几百万个参数（RNN 时代）提升至数千亿个参数（GPT-5、Claude、Gemini 等）。
每个参数都代表模型对语言的一种「微小的理解」。

庞大训练资料（Data）

来源包括：维基百科、书籍、网页、对话、程式码等。
目标是让模型学会语言规则、语意关系、常识知识。

强大的运算资源（Compute）

利用GPU/TPU 进行数周甚至数月的训练。

LLM 的核心理念

虽然LLM 是「语言模型」，但它其实学到的不只是文字的规则。
在预测下一个词的过程中，模型同时学会了：

语法结构：知道句子怎么组成
语意关联：理解不同词之间的语意距离
世界知识：从大量文本中归纳出事实与常识
推理能力：能在上下文中做出逻辑推断

LLM 的强项与限制

理解能力：LLM 能够处理复杂的语意与上下文，但是有时候还是会误解指令，像是我之前在请LLM 帮我产出一段程式码的时候，它说的跟它做的东西就是不一样，甚至一直鬼打墙😤。我相信大家应该多多少少都有遇过类似的情形...
幻觉😵‍💫：LLM 虽然说有强大的能力，我们有想问的东西就会拿去给LLM 解答，但是有一点要注意的是LLM 可能会有Hallucination（幻觉）... 听起来很神秘吼，但其实这个幻觉就是在说LLM 可能会产出与事实不符的文字资讯。

为什么会有这样的情况发生呢？ ➔ 因为LLM 基本上是从海量的资料在学习文字的规律，并根据学习到的东西，依据机率来去预测下个字，也就是说，它并不是在学「正确」的东西，而只是从被喂进去的东西当中再找出规律性而已
总而言之，很多人会以为LLM 提供的回答都是正确的，但是其实不尽然，因此这是要特别注意的地方哦～

非即时资料：一般来说，在训练模型的资料并不会是即时更新的，它都是有一定的时间限制，因此若不搭配网页搜寻的功能，很有可能得到的资讯就会不是最新的

LLM 的相关应用

LLM 不只是单一模型，而是整个AI 生态链的核心。
以下为环绕LLM 的一些应用与技术，包括：

Chain-of-Thought（CoT）：让模型「逐步推理」。
RAG（Retrieval-Augmented Generation）：让模型「查资料再回答」。
Ollama：让使用者在本地执行开源模型，兼顾隐私与可控性。

其实还有很多很多的技术，这边就举这些为例。

（END）

声明：内容取材于网络，仅代表作者观点，如有内容违规问题，请联系处理。

more

三星高管：半导体正处于战争状态

半导体芯闻 1周前

三星高管：半导体正处于战争状态

国产功率半导体厂商，上桌

半导体产业纵横 1个月前

国产功率半导体厂商，上桌

印度加速半导体本土化进程，四座晶圆厂年内迈入商业运营

科技区角 1个月前

印度加速半导体本土化进程，四座晶圆厂年内迈入商业运营

华润微、士兰微、英飞凌等多家半导体厂商涨价！

全球半导体观察 3周前

华润微、士兰微、英飞凌等多家半导体厂商涨价！

功率半导体集体涨价，这波上行是为什么？

芝能智芯 2周前

功率半导体集体涨价，这波上行是为什么？

安世中国功率半导体全面切换国产晶圆

芝能智芯 2周前

安世中国功率半导体全面切换国产晶圆

印度4座半导体工厂计划年内投产，目标2029年实现75%自给率

全球半导体观察 1个月前

印度4座半导体工厂计划年内投产，目标2029年实现75%自给率

政府工作报告再提“未来产业”，半导体机会在哪？

半导体产业纵横 3天前

政府工作报告再提“未来产业”，半导体机会在哪？

今日看点：中国半导体IP第一股冲刺港股IPO；蔚来子公司神玑第二颗芯片已流片成功

电子发烧友网 1天前

今日看点：中国半导体IP第一股冲刺港股IPO；蔚来子公司神玑第二颗芯片已流片成功

全球首条35微米功率半导体超薄晶圆工艺及封装测试生产线在上海建成

艾邦半导体网 1周前

全球首条35微米功率半导体超薄晶圆工艺及封装测试生产线在上海建成

Copyright © 2025 成都区角科技有限公司

蜀ICP备2025143415号-1

川公网安备51015602001305号