大模型到底是个啥？——一个超级智能的"接龙游戏"

你有没有想过，当你在ChatGPT里敲下一句话，AI是怎么接上话的？

你可能会觉得，AI是在"思考"，是在"理解"你的问题，然后组织语言回答你。

但真相可能让你意外——

AI根本不会"思考"。它玩的是一个极其复杂的接龙游戏。

什么是"接龙游戏"？

想象一下：你对我说的那句话，我听完之后，觉得下一个词最可能是什么。

比如你问我：“今天天气怎么样？”

AI在脑子里飞速运转：根据我学过的所有文本，“怎么样"之后最可能接的词是——“今天”、“天气”、“很”、“不错”、“晴朗”……

它不是"知道"今天天气好不好，它只是根据概率，选了一个最合理的词往下接。

接完一个词，再接下一个。

接龙游戏玩到一千次、一万次，就成了一篇完整的回答。

为什么我们需要"大"模型？

既然是接龙游戏，那问题来了——怎么保证它接得准？

靠"大”。

你玩成语接龙，脑子里只记了100个成语，那你接来接去就那么几个。但如果你的脑子里存了1亿个成语和句子呢？你接出"床前明月光"的概率，是不是大大提高了？

大模型的"大"，就大在这里：

大量的训练数据：整个互联网的文本，几千亿个词
大量的参数：几百亿、上千亿个"神经元连接"
大量的算力：几千张GPU跑几个月

参数越多、数据越多，它"猜对下一个词"的概率就越高。

这就像你教一个小孩说话：

你只说10句话给他听 → 他会说的很有限
你给他读1万本书 → 他能接上几乎所有话题

那它能"理解"吗？

这是个哲学问题。

从它内部的工作机制来看，它并没有"理解"你在说什么。它做的就是把你的话变成一串数字，在几百亿个参数中跑一遍，然后吐出另一串数字，再变回文字。

但你从外部看，它的表现就像"理解"了一样。

打个比方：你按下一个开关，灯亮了。灯并没有"理解"你为什么要亮，它只是按电路设计完成了这个动作。

AI也是一样。它不"理解"，但它"做对了"。

所以AI到底是怎么回答问题的？

整个过程分三步，但每一步都比看起来复杂得多。

第一步：Token化——把你的话拆成"最小零件"

AI不认识完整的句子，它首先做的是拆词。

你输入"今天天气怎么样"，大模型里有一个内置的分词器（Tokenizer），会把这句话拆成这样：

["今天", "天气", "怎么", "样"]

每个被拆出来的最小单位，叫一个 Token。

Token不是严格的汉字或词语——英文里可能是一个单词的一部分，中文里可能是一个字或一个词，取决于分词器的设计。

比如 GPT 的 Tokenizer 会把"今天天气怎么样"拆成 5 个 Token：“今天”、“天气”、“怎么”、“样”——因为它有一套基于统计的最优拆分策略。

Token 是一个非常重要的概念。 模型的所有计费、上下文窗口长度，都是按 Token 算的。你现在跟 ChatGPT 聊一句话，它背后要根据 Token 数量来收费。

拆分完之后，每个 Token 会对应到一个唯一的数字编号（就像词典里的索引号）。

比如：

Token	编号
今天	1256
天气	8932
怎么	4431
样	9817

所以你的问题"今天天气怎么样"，在AI眼里就变成了：[1256, 8932, 4431, 9817]

这就是第一步：把自然语言转成数字序列。

扩展阅读：不同模型的分词器不同——GPT-4o 的 Tokenizer 有大约 10 万个词汇，Claude 的也是类似的规模。分词器的好坏直接影响模型对语言的理解精度。

第二步：嵌入（Embedding）——把数字变成"数学坐标"

有了数字编号还不够。如果只是数字，模型不知道怎么比较"今天"和"天气"之间的关系。

所以每个 Token 编号会被进一步映射成一个高维向量——一个几百甚至几千个数字组成的列表。

想象你在三维空间里：
“今天” → 坐标 (0.5, -0.3, 0.8)
“天气” → 坐标 (0.4, -0.2, 0.9)
“好” → 坐标 (0.6, -0.1, 0.3)

在实际模型中，这个维度不是 3，而是 几百到几千维。（比如 GPT-3 是 12288 维。）

为什么维度这么高？因为高维空间能表达更精细的语义关系：

“今天"和"昨天"在某些维度上非常接近（都是时间相关）
“今天"和"吃饭"在另一些维度上有固定距离（事件相关）
“天气"和"温度"几乎在所有维度上都相近

而且这些维度不是人设计出来的，是模型在训练中自己"学习"到的隐式特征。没有人能确切说清楚第 1763 维代表了什么，但模型知道在这个维度上数值不同的两个词，语义上存在某种差异。

重点在这里： 你输入的一句话（比如"今天天气怎么样”），经过分词和嵌入之后，变成了一个数字矩阵——比如 [4 Tokens × 12288 维] = 将近 5 万个数字。

这 5 万个数字，就是你这句话在AI世界里的"身份证”。

第三步：Transformer 推理——这 5 万个数字在模型里经历了什么

这是最核心、也最复杂的一步。整个矩阵会依次穿过模型的多层Transformer块（GPT-3 有 96 层，GPT-4 据推测超过 120 层）。

每经过一层，矩阵都会发生一次复杂的数学变换。这里的核心机制是注意力机制（Attention）：

自注意力（Self-Attention）在做什么？

想象你在读一句话：“因为它昨天没吃早饭，所以它现在很饿。”

当你读到第二个"它"的时候，你会自然联想到第一个"它"指代的是同一个人。AI 也是一样——每个 Token 都会"看向"序列中的所有其他 Token，计算自己跟别人的"关联权重”。

用数字来表示：

“它”（第二个）和"它"（第一个）的关联权重：0.85
“它”（第二个）和"昨天"的关联权重：0.62
“它”（第二个）和"很饿"的关联权重：0.91
“它”（第二个）和"天气"的关联权重：0.02（几乎没有关系）

这些权重就是注意力分数，它们决定了在生成下一个 Token 时，模型应该"重点关注"输入中的哪些部分。

多头注意力（Multi-Head Attention）

Transformer 不是只算一组注意力分数，而是同时算多组（比如 96 个头）。

每个注意力头"关注"不同的方向：

头 #1 关注语法关系（主语-谓语）
头 #2 关注语义关联（同义词替换）
头 #3 关注位置关系（哪个词在哪个词的前面）
头 #4 关注指代关系（这个"它"指哪个"它"）
……

96 个头同时计算，再把结果拼在一起。这就是为什么模型能同时理解一句话的语法、语义、上下文和逻辑。

前馈神经网络（FFN）

注意力机制算完之后，每个 Token 的向量还会通过一个前馈神经网络——可以理解为一个多层"精加工"过程。这一步的作用是把注意力机制提取到的信息，映射到更高层次的语义空间。

归一化与残差连接

每层 Transformer 中，向量还会经过层归一化，防止数值太大或太小（控制梯度爆炸/消失的问题）。同时使用残差连接——每层的输出会加上原始的输入，这样即使网络很深（120 层），信息也不会在传递过程中完全丢失。

逐层传递

一层算完了，结果作为下一层的输入。经过 96 层（GPT-3）到 120+ 层（GPT-4），每一步都不是简单的复制，而是不断提炼和抽象：

浅层（第 1-10 层）：主要处理词法特征，识别每个词本身
中层（第 11-40 层）：理解短语和句子结构，建立局部关联
深层（第 41-80 层）：捕捉跨句子的长距离依赖关系、逻辑推理
最深层（第 80 层以上）：形成对整个输入的"全局理解"，准备生成输出

输出层：Softmax 概率分布

经过最后一层处理后，矩阵被映射回词汇表的大小（比如 10 万个可能的 Token）。然后通过 Softmax 函数 计算出每个 Token 作为"下一个词"的概率：

"天气" → 2.3%
"不错" → 1.8%
"很好" → 0.9%
"怎么样" → 0.5%
"晴朗" → 0.3%
……

模型不会直接选概率最高的那个，而是引入一个叫 Temperature（温度） 的参数来控制随机性：

Temperature = 0：永远选概率最高的（确定性最强，但回答可能比较死板）
Temperature = 0.7：概率高的更容易被选，但偶尔也会有"意外"（日常聊天的默认值）
Temperature = 1.0：基本按原始概率选（随机性大，更"有创意"）
Temperature = 0.1：几乎每次都选一样的（适合代码生成、数学计算）

选完第一个 Token 之后，把这个 Token 拼到输入序列的末尾，再重复以上全部步骤，生成下一个 Token。

以此类推，直到生成一个特殊的"结束 Token"或达到最大长度限制。

所以你看到的每一个字，都是模型经过几十亿次数学运算后，从 10 万个候选中挑出来的。

全程回顾

从你敲下回车到看到回复，实际发生的是：

输入文本 → 分词（Token化）→ 转成数字索引 → Embedding（高维向量化）
→ 进入 Transformer Block × N层（自注意力 + FFN + 归一化 + 残差连接）
→ 经过 Softmax 输出概率分布 → 按 Temperature 采样选第一个 Token
→ 拼回输入 → 重复以上过程生成第二个 Token → …… → 直到结束

每一步都在做"概率预测"。最终产出的回答，是整条链路跑完的结果。

这个过程的数学运算量有多大？

以 GPT-3（1750 亿参数）为例，生成一个 Token 需要执行约 3500 亿次浮点运算。生成一篇 500 个 Token 的短文，总计算量就是 175 万亿次浮点运算。

每次你让 ChatGPT 回答一个问题，背后就是一个超大规模的数据中心在帮你跑这些计算。

这样做的优点和缺点

优点：

什么话题都能聊（因为它读过几乎一切）
不需要专门为每个任务编程
随着模型变大，能力会"涌现"（突然学会之前不会的事）

缺点：

没有真正的理解能力
会自信地说出错误答案（“幻觉”）
你不知道它知识截止日期之后的事

一句话总结

大模型本质上就是一个超级接龙机器——它不是真的在思考，而是根据你给的上文，猜最合理的下文。它之所以厉害，是因为它"读过"的东西实在太多了，以至于大多数情况下它猜得比人都准。

它不会创造知识，但能把你现有的知识用最流畅的方式组合起来。

下一篇，我们来聊聊它到底是怎么"学会"这一切的。

📖 本文是MST「30天AI科普专栏」第1篇 / 共25篇 🔖 分类：基础认知 关注MST，每天一个AI小知识，把大模型讲明白。