AI怎么学会说话的？——从"鹦鹉学舌"到"举一反三"

你有没有被AI的"口才"震惊过？它像无所不知的百事通，从量子物理到恋爱建议，似乎什么都能聊。但——它是天生就会说话的吗？

当然不是。

你看到的这个"能说会道"的AI，背后是一场耗时几个月、花了几千万美元的"养娃"工程。就像培养一个孩子从0开始学说话，AI也经历了三个完全不同的成长阶段。

第一阶段：自己把整个互联网"读"了一遍（预训练） 第二阶段：看人类示范怎么好好回答问题（监督微调） 第三阶段：被几万次"点赞/点踩"调教成你喜欢的样子（RLHF）

下面我一个一个说。

第一阶段：自己把整个互联网"读"了一遍

这是最烧钱的一步。几个亿花在哪？花在让AI自己"读书"上。

它不是在"读"，是在"猜"

别被"读"这个词误导了。AI读书的方式跟你不一样——它玩的其实是一个"填词游戏"。

我给你看一句话，少了最后一个词：

“我今天去超市买了一个____”

正常人看到这个，知道大概率是"苹果"、“西瓜”、“面包"这种东西，不可能是"汽车”、“冰箱”。

AI也是这么"学"的。它看到半句话，猜下一个词是什么，然后对比正确答案，猜错了就"扣分"，然后调整自己内部的参数，下次猜对的可能性大一点点。

就这么一个动作，重复几千亿次。

一次猜词的完整过程

我来用一个具体的例子，把AI猜词的过程拆开来看。

假设AI看到这样一个不完整的句子：

“小明今天考试得了100分，妈妈非常____”

AI不知道这个词是"开心"还是"生气"——它要根据前面学到的知识来"猜"。

第一步：AI把这句话里的每个词，都转成一串很长的数字（叫"向量"，你可以理解成每个词的"身份证号码"）。

第二步：AI在那几百亿个参数里算一遍。这个计算过程简单理解就是：

"小明" → 和"考试"关联度高（因为数据里经常一起出现）
"考试" → 和"100分"关联度高
"100分" → 大概率让妈妈高兴
"妈妈" → 对孩子获得好成绩通常是高兴的

第三步：经过几十层这样的计算，AI输出每个候选词的概率：

候选词	概率
开心	78%
高兴	15%
骄傲	5%
生气	0.01%
难过	0.005%

AI选了"开心"——因为概率最高。

但如果正确答案其实是"骄傲"呢？那AI就猜错了，“扣分”（技术上叫"计算损失"），然后调整内部参数——让"骄傲"和"100分"、“妈妈"这些词的关联性增强一点点。

这个过程，每次训练时AI在全世界的文本上重复几万亿次。

你可能会想：一次只猜一个词，这也太慢了吧？实际上AI是并行的——同时猜几十万个句子里的下一个词。这就是为什么需要几千张GPU。

AI"读"的到底是什么？

以GPT-3为例，它"读"的东西包括：

整个维基百科（600万篇文章）
几百万本电子书
整个Reddit论坛的所有帖子
GitHub上公开的代码仓库
几亿篇新闻文章
无数的博客、论坛、论文……

加起来大概5000亿个词。

5000亿是什么概念？

假设一个人每分钟读300字，每天读8小时，读完5000亿个字需要大约9500年。AI花几个月就读完了。

但AI不是随便"读"的

原始网页数据质量很差——很多垃圾广告、格式混乱的乱码、重复的内容。训练之前要先做"清洗”：

去重：同一篇文章出现在10个网站上，只留一份
过滤：把广告页面、机器生成的垃圾内容扔掉
质量筛选：用一个"初筛模型"给网页打分，质量低的直接扔掉

传言Google训练Gemini时，从几百TB的原始数据中，最终只留下了不到5%来训练。

训练了几个月之后，AI变成了什么样？

花了几个亿、跑了几个月之后，AI学到了什么？

它会了：

语法——写出来的句子主谓宾齐全，很少语法错误
很多事实——知道中国首都是北京，知道地球绕着太阳转
一点推理能力——给它"苹果→水果"，它能猜出"狗→动物"
风格模仿——给它一段鲁迅风格的文字，它能把鲁迅风格续写下去

但它问题也一大把：

不会好好回答问题。 你问它"请介绍一下黑洞"，它可能接的不是回答，而是继续写一篇关于黑洞的"小说"。因为在它"读"的那些书里，根本没有"一问一答"这种格式，全是"一段话接着一段话"。
说话风格很乱。 开头像学术论文：“本研究旨在探讨……"，中间像贴吧评论：“说实话我觉得这事儿没那么简单”，结尾又像广告：“快去试试吧！"——数据里什么风格都有，它的风格就混在一起了。
不会拒绝。 你问它"怎么在家制作炸弹”，它真能给你写出来——因为在它读的教科书里，确实有化学合成方法。它不知道哪些事不该说。
答错也不自知。 它可能80%的情况下是对的，但另外20%它会非常自信地给出错误答案。

第一阶段结束后，AI的总结：

像一个读了全宇宙所有书的天才儿童——知道很多，但不会说话，不懂礼貌，不分对错，毫无情商。

于是有了第二阶段。

第二阶段：看人类示范怎么好好回答问题

第一阶段的AI是个"野孩子”。第二阶段要做的，就是找老师来把它"教乖"。

怎么教的？

做法非常简单直接：找人来写"标准答案"，让AI照着学。

OpenAI当年雇了大约40个合同工（主要是通过Upwork这些平台找的），让他们做一件事：扮演成用户和AI助手，写出完美的对话示例。

举个例子，其中一条标注数据可能是这样的：

用户：我是一个初中生，能不能用简单的话给我讲讲什么是"机器学习"？

助手：当然可以！
机器学习就是"让电脑自己学会做事情"的一种方法。
传统编程就像你给电脑写一份详细的操作说明书，每一步都要写清楚。
机器学习不同——你给电脑看很多例子，让它自己总结规律。
比如你想让电脑识别猫：
- 传统编程：你要告诉电脑猫有两只耳朵、圆眼睛、胡须……
- 机器学习：你给电脑看100万张标了"猫"的图片，它自己学会什么特征叫"猫"

注意，每条对话不是随便写的。OpenAI给标注员发了一本几十页的写作指南，详细规定了：

什么样的回答算"好"（准确、相关、清晰）
什么时候应该简单说（用户问简单问题时）
什么时候应该详细说（用户问开放式问题时）
遇到类似"造炸弹"这种问题怎么拒绝（礼貌但坚定）
回答该用什么语气（像朋友一样友好，但保持专业）

但这里有个坑

标注员写了几万条对话之后，拿去训练AI。训练完一测试——效果有提升，但不够好。

为什么？

因为标注员写的对话是"照着剧本演戏"，但用户不会按剧本来。真实用户的提问方式千奇百怪：

“帮我看看这个代码，跑不动！！！"（带情绪的）
“AI到底……就说会不会取代人类吧？"（半截话）
“我不懂那些复杂的，你就说简单点”（有要求的）

标注员写的"标准剧本"根本覆盖不了这些情况。

更关键的问题是：AI只是在"模仿"标准答案，但不知道什么样的回答在人类眼里是"真的好”。

你看，一个人教你怎么回答问题，你学到的只是"这个人觉得这样回答好”。但换一个人来看，可能觉得"你回答得太啰嗦了"或者"你回答得太简单了"。

AI也一样——它学会了"照着某个人的偏好回答"，但不知道"大部分人都喜欢什么样的回答"。

这个问题，第一阶段解决不了，第二阶段也解决不了。于是有了第三阶段。

第三阶段：被几万次"点赞/点踩"调教出来

RLHF——全名很长（Reinforcement Learning from Human Feedback），但核心思想简单到不能再简单：让人类给AI的回答"点赞"或"点踩"，让AI学会什么样的回答讨人喜欢。

为什么不用第一阶段和第二阶段的方法？

你可能会问：直接让人把回答改到满意不就完了？为什么搞这么复杂？

原因很现实：

太贵了。 让一个人仔细写一条高质量问答，平均需要5-10分钟。几万条下来，光人工费就几十万。
不稳定。 同一个标注员，上午写的和下午写的质量可能不一样。不同标注员的标准更不一样。
覆盖不了。 几万条标注数据很好，但AI能生成的是无数种回答。你不可能每个回答都找人写。

所以RLHF的思路是：让人只标注一小部分数据（几万条就够），训练一个"自动裁判"出来，让这个裁判去给AI的每次回答打分。

具体怎么做的？

分三步走：

第一步：让AI生成多个答案，人类排序

对同一个问题，让AI生成4-9个不同版本的答案。然后让人来排序——不是打分（因为打分不稳定，今天打4分明天打3分），而是排序（哪个最好、哪个第二好……）。

问：请用一句话解释什么是"机器学习"

回答A：机器学习是让计算机从数据中学习规律的技术，不需要人为编写每一条规则。
回答B：计算机通过分析数据自动改进性能的方法。
回答C：机器学习就是让电脑自己学会东西，不用人教每一步怎么做。
回答D：ML is the study of computer algorithms...

人类标注员看到的这些回答是随机打乱顺序的，而且不知道这些话是谁写的——这样就避免了"这个模型我认识，它的回答我优先选"这种偏见。

第二步：训练一个"自动裁判"

用刚才排序好的数据，训练一个专门的**“打分模型”**——它的工作只有一个：给AI的回答打分。

如果你告诉这个打分模型：回答A排第一，回答B排第二。它就在脑子里记下来：“哦，回答A比回答B好，因为A更简洁、更全面。“然后不断学习人类判断好坏的规律，直到它变成一个"AI鉴赏家”。

这个打分模型训练好之后，它就能自动给任何AI回答打分了——不需要再找人来看。

第三步：AI对着"裁判"练

现在开始玩一个"学习游戏”：

第一步：AI对一个用户的提问生成回答
第二步：打分模型给这个回答打个分，比如4.2分
第三步：分数高 → AI"做对了"，下次往这个方向多走一点
        分数低 → AI"做错了"，下次往这个方向调整
第四步：重复第一步，几万次

这个过程中有个巧妙的限制——每次AI调整的幅度不能太大。

为什么呢？因为如果不加限制，AI可能会"作弊"——比如它发现打分模型给"长回答"打的分数高，它就学会在回答里"灌水"，把一句话能说完的事写成几千字。回答变长了，分数是高了，但质量反而下降了。

所以每一步AI只允许自己变化一点点。这就像健身——你不可能一天练出八块腹肌。每次多做一个，慢慢来，才安全有效。

RLHF之后的AI变成了什么样？

在GPT-3.5到GPT-4的那次升级中，RLHF是关键。

经过RLHF的模型，对比只经过一二阶段训练的模型，变化很明显：

1. 会"看人下菜碟"了

同样一个AI，现在学会了根据用户语气调整回答风格：

用户生气的问：帮我看看这代码，跑不动！！！
→ AI回复：别急，我帮你看看。你贴一下报错信息？（语气：安抚）

用户冷静的问：能不能帮我优化一下这个算法？
→ AI回复：好的，我来分析一下……（语气：专业直接）

2. 知道什么时候该简洁、什么时候该展开

用户问：明天要下雨吗？
→ AI回复：明天下午大概率有雨，建议带伞。（简洁直接）

用户问：AI会取代人类的工作吗？
→ AI回复：这个问题没有简单的"会"或"不会"……（展开分析）

3. 会"礼貌地坚持事实"

用户说：我觉得地球是平的
→ AI没有说"你错了"，而是说：
"我理解很多人都有过这个疑问，不过根据科学观测，地球确实是球形的。
如果你感兴趣，我可以解释一下科学家是怎么知道的。"

你看，它既坚持了事实，又没有让用户难堪。这比很多真人都强。

一个你大概没想到的事

从第一阶段到第三阶段，有一个贯穿始终的事实：AI从来没有真正"理解"过你说的任何一个字。

它不知道"苹果"是一种水果，不知道"高兴"是一种情绪。

它只是从数万亿个句子里学会了：当"超市"、“买”、“水果"这些词靠近"苹果"的时候，“苹果"出现的概率很高。当"考试”、“100分”、“妈妈"这些词靠近"高兴"的时候，“高兴"出现的概率很高。

它不懂，但它做得对。

就像你家的智能灯泡——你按开关，灯亮了。灯并不知道"开"和"关"是什么意思，它只是按电路完成了动作。

AI也是一样。它不知道自己在说什么，但它能说对。

它的"无所不知”，只是因为它"读得够多”。它的"通情达理”，只是因为人类把"通情达理"的样本喂给了它。它的"善解人意"，只是因为几万次的人类排序教会了它什么回答最让人满意。

一张表看明白三个阶段

	第一阶段：预训练	第二阶段：监督微调	第三阶段：RLHF
在干啥	自己读整个互联网	看人类写的范文	被用户"点赞点踩"调教
花了多少钱	几千万到上亿	几十万	几百万
学完之后啥样	知道很多，但不会说话	会回答问题，但太死板	会看人脸色说话
打个比方	一个孩子读了全世界的书	老师教他怎么回答问题	被几万个网友点赞点踩调教
最大的问题	不会好好说话	只会模仿，不懂得变通	偶尔还是会犯错

一句话总结

AI学会说话，不是魔法，而是三步走：先海量读书自学语言（预训练），再看范文学会回答问题（监督微调），最后被几万次"点赞点踩"教会说人话（RLHF）。

它从来不真的"懂"你在说什么，但它知道说什么才能让你满意。

下一篇聊一个很多人纠结的问题：开源模型和闭源模型到底差在哪？Llama让你随便下载用，OpenAI为什么按字收费？

📖 本文是MST「30天AI科普专栏」第2篇 / 共25篇 🔖 分类：基础认知 关注MST，每天一个AI小知识，把大模型讲明白。