你有没有想过,当你在ChatGPT里敲下一句话,AI是怎么接上话的?
你可能会觉得,AI是在"思考",是在"理解"你的问题,然后组织语言回答你。
但真相可能让你意外——
AI根本不会"思考"。它玩的是一个极其复杂的接龙游戏。
什么是"接龙游戏"?
想象一下:你对我说的那句话,我听完之后,觉得下一个词最可能是什么。
比如你问我:“今天天气怎么样?”
AI在脑子里飞速运转:根据我学过的所有文本,“怎么样"之后最可能接的词是——“今天”、“天气”、“很”、“不错”、“晴朗”……
它不是"知道"今天天气好不好,它只是根据概率,选了一个最合理的词往下接。
接完一个词,再接下一个。
接龙游戏玩到一千次、一万次,就成了一篇完整的回答。
为什么我们需要"大"模型?
既然是接龙游戏,那问题来了——怎么保证它接得准?
靠"大”。
你玩成语接龙,脑子里只记了100个成语,那你接来接去就那么几个。但如果你的脑子里存了1亿个成语和句子呢?你接出"床前明月光"的概率,是不是大大提高了?
大模型的"大",就大在这里:
- 大量的训练数据:整个互联网的文本,几千亿个词
- 大量的参数:几百亿、上千亿个"神经元连接"
- 大量的算力:几千张GPU跑几个月
参数越多、数据越多,它"猜对下一个词"的概率就越高。
这就像你教一个小孩说话:
- 你只说10句话给他听 → 他会说的很有限
- 你给他读1万本书 → 他能接上几乎所有话题
那它能"理解"吗?
这是个哲学问题。
从它内部的工作机制来看,它并没有"理解"你在说什么。它做的就是把你的话变成一串数字,在几百亿个参数中跑一遍,然后吐出另一串数字,再变回文字。
但你从外部看,它的表现就像"理解"了一样。
打个比方: 你按下一个开关,灯亮了。灯并没有"理解"你为什么要亮,它只是按电路设计完成了这个动作。
AI也是一样。它不"理解",但它"做对了"。
所以AI到底是怎么回答问题的?
整个过程分三步,但每一步都比看起来复杂得多。
第一步:Token化——把你的话拆成"最小零件"
AI不认识完整的句子,它首先做的是拆词。
你输入"今天天气怎么样",大模型里有一个内置的分词器(Tokenizer),会把这句话拆成这样:
["今天", "天气", "怎么", "样"]
每个被拆出来的最小单位,叫一个 Token。
Token不是严格的汉字或词语——英文里可能是一个单词的一部分,中文里可能是一个字或一个词,取决于分词器的设计。
比如 GPT 的 Tokenizer 会把"今天天气怎么样"拆成 5 个 Token:“今天”、“天气”、“怎么”、“样”——因为它有一套基于统计的最优拆分策略。
Token 是一个非常重要的概念。 模型的所有计费、上下文窗口长度,都是按 Token 算的。你现在跟 ChatGPT 聊一句话,它背后要根据 Token 数量来收费。
拆分完之后,每个 Token 会对应到一个唯一的数字编号(就像词典里的索引号)。
比如:
| Token | 编号 |
|---|---|
| 今天 | 1256 |
| 天气 | 8932 |
| 怎么 | 4431 |
| 样 | 9817 |
所以你的问题"今天天气怎么样",在AI眼里就变成了:[1256, 8932, 4431, 9817]
这就是第一步:把自然语言转成数字序列。
扩展阅读:不同模型的分词器不同——GPT-4o 的 Tokenizer 有大约 10 万个词汇,Claude 的也是类似的规模。分词器的好坏直接影响模型对语言的理解精度。
第二步:嵌入(Embedding)——把数字变成"数学坐标"
有了数字编号还不够。如果只是数字,模型不知道怎么比较"今天"和"天气"之间的关系。
所以每个 Token 编号会被进一步映射成一个高维向量——一个几百甚至几千个数字组成的列表。
想象你在三维空间里:
- “今天” → 坐标 (0.5, -0.3, 0.8)
- “天气” → 坐标 (0.4, -0.2, 0.9)
- “好” → 坐标 (0.6, -0.1, 0.3)
在实际模型中,这个维度不是 3,而是 几百到几千维。(比如 GPT-3 是 12288 维。)
为什么维度这么高?因为高维空间能表达更精细的语义关系:
- “今天"和"昨天"在某些维度上非常接近(都是时间相关)
- “今天"和"吃饭"在另一些维度上有固定距离(事件相关)
- “天气"和"温度"几乎在所有维度上都相近
而且这些维度不是人设计出来的,是模型在训练中自己"学习"到的隐式特征。没有人能确切说清楚第 1763 维代表了什么,但模型知道在这个维度上数值不同的两个词,语义上存在某种差异。
重点在这里: 你输入的一句话(比如"今天天气怎么样”),经过分词和嵌入之后,变成了一个数字矩阵——比如 [4 Tokens × 12288 维] = 将近 5 万个数字。
这 5 万个数字,就是你这句话在AI世界里的"身份证”。
第三步:Transformer 推理——这 5 万个数字在模型里经历了什么
这是最核心、也最复杂的一步。整个矩阵会依次穿过模型的多层Transformer块(GPT-3 有 96 层,GPT-4 据推测超过 120 层)。
每经过一层,矩阵都会发生一次复杂的数学变换。这里的核心机制是注意力机制(Attention):
自注意力(Self-Attention)在做什么?
想象你在读一句话:“因为它昨天没吃早饭,所以它现在很饿。”
当你读到第二个"它"的时候,你会自然联想到第一个"它"指代的是同一个人。AI 也是一样——每个 Token 都会"看向"序列中的所有其他 Token,计算自己跟别人的"关联权重”。
用数字来表示:
- “它”(第二个)和"它"(第一个)的关联权重:0.85
- “它”(第二个)和"昨天"的关联权重:0.62
- “它”(第二个)和"很饿"的关联权重:0.91
- “它”(第二个)和"天气"的关联权重:0.02(几乎没有关系)
这些权重就是注意力分数,它们决定了在生成下一个 Token 时,模型应该"重点关注"输入中的哪些部分。
多头注意力(Multi-Head Attention)
Transformer 不是只算一组注意力分数,而是同时算多组(比如 96 个头)。
每个注意力头"关注"不同的方向:
- 头 #1 关注语法关系(主语-谓语)
- 头 #2 关注语义关联(同义词替换)
- 头 #3 关注位置关系(哪个词在哪个词的前面)
- 头 #4 关注指代关系(这个"它"指哪个"它")
- ……
96 个头同时计算,再把结果拼在一起。这就是为什么模型能同时理解一句话的语法、语义、上下文和逻辑。
前馈神经网络(FFN)
注意力机制算完之后,每个 Token 的向量还会通过一个前馈神经网络——可以理解为一个多层"精加工"过程。这一步的作用是把注意力机制提取到的信息,映射到更高层次的语义空间。
归一化与残差连接
每层 Transformer 中,向量还会经过层归一化,防止数值太大或太小(控制梯度爆炸/消失的问题)。同时使用残差连接——每层的输出会加上原始的输入,这样即使网络很深(120 层),信息也不会在传递过程中完全丢失。
逐层传递
一层算完了,结果作为下一层的输入。经过 96 层(GPT-3)到 120+ 层(GPT-4),每一步都不是简单的复制,而是不断提炼和抽象:
- 浅层(第 1-10 层):主要处理词法特征,识别每个词本身
- 中层(第 11-40 层):理解短语和句子结构,建立局部关联
- 深层(第 41-80 层):捕捉跨句子的长距离依赖关系、逻辑推理
- 最深层(第 80 层以上):形成对整个输入的"全局理解",准备生成输出
输出层:Softmax 概率分布
经过最后一层处理后,矩阵被映射回词汇表的大小(比如 10 万个可能的 Token)。然后通过 Softmax 函数 计算出每个 Token 作为"下一个词"的概率:
"天气" → 2.3%
"不错" → 1.8%
"很好" → 0.9%
"怎么样" → 0.5%
"晴朗" → 0.3%
……
模型不会直接选概率最高的那个,而是引入一个叫 Temperature(温度) 的参数来控制随机性:
- Temperature = 0:永远选概率最高的(确定性最强,但回答可能比较死板)
- Temperature = 0.7:概率高的更容易被选,但偶尔也会有"意外"(日常聊天的默认值)
- Temperature = 1.0:基本按原始概率选(随机性大,更"有创意")
- Temperature = 0.1:几乎每次都选一样的(适合代码生成、数学计算)
选完第一个 Token 之后,把这个 Token 拼到输入序列的末尾,再重复以上全部步骤,生成下一个 Token。
以此类推,直到生成一个特殊的"结束 Token"或达到最大长度限制。
所以你看到的每一个字,都是模型经过几十亿次数学运算后,从 10 万个候选中挑出来的。
全程回顾
从你敲下回车到看到回复,实际发生的是:
输入文本 → 分词(Token化)→ 转成数字索引 → Embedding(高维向量化)
→ 进入 Transformer Block × N层(自注意力 + FFN + 归一化 + 残差连接)
→ 经过 Softmax 输出概率分布 → 按 Temperature 采样选第一个 Token
→ 拼回输入 → 重复以上过程生成第二个 Token → …… → 直到结束
每一步都在做"概率预测"。最终产出的回答,是整条链路跑完的结果。
这个过程的数学运算量有多大?
以 GPT-3(1750 亿参数)为例,生成一个 Token 需要执行约 3500 亿次浮点运算。生成一篇 500 个 Token 的短文,总计算量就是 175 万亿次浮点运算。
每次你让 ChatGPT 回答一个问题,背后就是一个超大规模的数据中心在帮你跑这些计算。
这样做的优点和缺点
优点:
- 什么话题都能聊(因为它读过几乎一切)
- 不需要专门为每个任务编程
- 随着模型变大,能力会"涌现"(突然学会之前不会的事)
缺点:
- 没有真正的理解能力
- 会自信地说出错误答案(“幻觉”)
- 你不知道它知识截止日期之后的事
一句话总结
大模型本质上就是一个超级接龙机器——它不是真的在思考,而是根据你给的上文,猜最合理的下文。它之所以厉害,是因为它"读过"的东西实在太多了,以至于大多数情况下它猜得比人都准。
它不会创造知识,但能把你现有的知识用最流畅的方式组合起来。
下一篇,我们来聊聊它到底是怎么"学会"这一切的。
📖 本文是MST「30天AI科普专栏」第1篇 / 共25篇 🔖 分类:基础认知 关注MST,每天一个AI小知识,把大模型讲明白。