首页 文章 分类 标签 关于

AI怎么学会说话的?——从"鹦鹉学舌"到"举一反三"

🤖 AI怎么学会说话的?——从"鹦鹉学舌"到"举一反三"

你有没有被AI的"口才"震惊过?它像无所不知的百事通,从量子物理到恋爱建议,似乎什么都能聊。但——它是天生就会说话的吗?

当然不是。

你看到的这个"能说会道"的AI,背后是一场耗时几个月、花了几千万美元的"养娃"工程。就像培养一个孩子从0开始学说话,AI也经历了三个完全不同的成长阶段。

第一阶段:自己把整个互联网"读"了一遍(预训练) 第二阶段:看人类示范怎么好好回答问题(监督微调) 第三阶段:被几万次"点赞/点踩"调教成你喜欢的样子(RLHF)

下面我一个一个说。


第一阶段:自己把整个互联网"读"了一遍

这是最烧钱的一步。几个亿花在哪?花在让AI自己"读书"上。

它不是在"读",是在"猜"

别被"读"这个词误导了。AI读书的方式跟你不一样——它玩的其实是一个"填词游戏"

我给你看一句话,少了最后一个词:

“我今天去超市买了一个____”

正常人看到这个,知道大概率是"苹果"、“西瓜”、“面包"这种东西,不可能是"汽车”、“冰箱”。

AI也是这么"学"的。它看到半句话,猜下一个词是什么,然后对比正确答案,猜错了就"扣分",然后调整自己内部的参数,下次猜对的可能性大一点点。

就这么一个动作,重复几千亿次。

一次猜词的完整过程

我来用一个具体的例子,把AI猜词的过程拆开来看。

假设AI看到这样一个不完整的句子:

“小明今天考试得了100分,妈妈非常____”

AI不知道这个词是"开心"还是"生气"——它要根据前面学到的知识来"猜"。

第一步:AI把这句话里的每个词,都转成一串很长的数字(叫"向量",你可以理解成每个词的"身份证号码")。

第二步:AI在那几百亿个参数里算一遍。这个计算过程简单理解就是:

"小明" → 和"考试"关联度高(因为数据里经常一起出现)
"考试" → 和"100分"关联度高
"100分" → 大概率让妈妈高兴
"妈妈" → 对孩子获得好成绩通常是高兴的

第三步:经过几十层这样的计算,AI输出每个候选词的概率:

候选词概率
开心78%
高兴15%
骄傲5%
生气0.01%
难过0.005%

AI选了"开心"——因为概率最高。

但如果正确答案其实是"骄傲"呢?那AI就猜错了,“扣分”(技术上叫"计算损失"),然后调整内部参数——让"骄傲"和"100分"、“妈妈"这些词的关联性增强一点点。

这个过程,每次训练时AI在全世界的文本上重复几万亿次。

你可能会想:一次只猜一个词,这也太慢了吧?实际上AI是并行的——同时猜几十万个句子里的下一个词。这就是为什么需要几千张GPU。

AI"读"的到底是什么?

以GPT-3为例,它"读"的东西包括:

  • 整个维基百科(600万篇文章)
  • 几百万本电子书
  • 整个Reddit论坛的所有帖子
  • GitHub上公开的代码仓库
  • 几亿篇新闻文章
  • 无数的博客、论坛、论文……

加起来大概5000亿个词。

5000亿是什么概念?

假设一个人每分钟读300字,每天读8小时,读完5000亿个字需要大约9500年。AI花几个月就读完了。

但AI不是随便"读"的

原始网页数据质量很差——很多垃圾广告、格式混乱的乱码、重复的内容。训练之前要先做"清洗”:

  • 去重:同一篇文章出现在10个网站上,只留一份
  • 过滤:把广告页面、机器生成的垃圾内容扔掉
  • 质量筛选:用一个"初筛模型"给网页打分,质量低的直接扔掉

传言Google训练Gemini时,从几百TB的原始数据中,最终只留下了不到5%来训练。

训练了几个月之后,AI变成了什么样?

花了几个亿、跑了几个月之后,AI学到了什么?

它会了:

  • 语法——写出来的句子主谓宾齐全,很少语法错误
  • 很多事实——知道中国首都是北京,知道地球绕着太阳转
  • 一点推理能力——给它"苹果→水果",它能猜出"狗→动物"
  • 风格模仿——给它一段鲁迅风格的文字,它能把鲁迅风格续写下去

但它问题也一大把:

  1. 不会好好回答问题。 你问它"请介绍一下黑洞",它可能接的不是回答,而是继续写一篇关于黑洞的"小说"。因为在它"读"的那些书里,根本没有"一问一答"这种格式,全是"一段话接着一段话"。

  2. 说话风格很乱。 开头像学术论文:“本研究旨在探讨……",中间像贴吧评论:“说实话我觉得这事儿没那么简单”,结尾又像广告:“快去试试吧!"——数据里什么风格都有,它的风格就混在一起了。

  3. 不会拒绝。 你问它"怎么在家制作炸弹”,它真能给你写出来——因为在它读的教科书里,确实有化学合成方法。它不知道哪些事不该说。

  4. 答错也不自知。 它可能80%的情况下是对的,但另外20%它会非常自信地给出错误答案。

第一阶段结束后,AI的总结:

像一个读了全宇宙所有书的天才儿童——知道很多,但不会说话,不懂礼貌,不分对错,毫无情商。

于是有了第二阶段。


第二阶段:看人类示范怎么好好回答问题

第一阶段的AI是个"野孩子”。第二阶段要做的,就是找老师来把它"教乖"

怎么教的?

做法非常简单直接:找人来写"标准答案",让AI照着学

OpenAI当年雇了大约40个合同工(主要是通过Upwork这些平台找的),让他们做一件事:扮演成用户和AI助手,写出完美的对话示例。

举个例子,其中一条标注数据可能是这样的:

用户:我是一个初中生,能不能用简单的话给我讲讲什么是"机器学习"?

助手:当然可以!
机器学习就是"让电脑自己学会做事情"的一种方法。
传统编程就像你给电脑写一份详细的操作说明书,每一步都要写清楚。
机器学习不同——你给电脑看很多例子,让它自己总结规律。
比如你想让电脑识别猫:
- 传统编程:你要告诉电脑猫有两只耳朵、圆眼睛、胡须……
- 机器学习:你给电脑看100万张标了"猫"的图片,它自己学会什么特征叫"猫"

注意,每条对话不是随便写的。OpenAI给标注员发了一本几十页的写作指南,详细规定了:

  • 什么样的回答算"好"(准确、相关、清晰)
  • 什么时候应该简单说(用户问简单问题时)
  • 什么时候应该详细说(用户问开放式问题时)
  • 遇到类似"造炸弹"这种问题怎么拒绝(礼貌但坚定)
  • 回答该用什么语气(像朋友一样友好,但保持专业)

但这里有个坑

标注员写了几万条对话之后,拿去训练AI。训练完一测试——效果有提升,但不够好

为什么?

因为标注员写的对话是"照着剧本演戏",但用户不会按剧本来。真实用户的提问方式千奇百怪:

  • “帮我看看这个代码,跑不动!!!"(带情绪的)
  • “AI到底……就说会不会取代人类吧?"(半截话)
  • “我不懂那些复杂的,你就说简单点”(有要求的)

标注员写的"标准剧本"根本覆盖不了这些情况。

更关键的问题是:AI只是在"模仿"标准答案,但不知道什么样的回答在人类眼里是"真的好”。

你看,一个人教你怎么回答问题,你学到的只是"这个人觉得这样回答好”。但换一个人来看,可能觉得"你回答得太啰嗦了"或者"你回答得太简单了"。

AI也一样——它学会了"照着某个人的偏好回答",但不知道"大部分人都喜欢什么样的回答"。

这个问题,第一阶段解决不了,第二阶段也解决不了。于是有了第三阶段。


第三阶段:被几万次"点赞/点踩"调教出来

RLHF——全名很长(Reinforcement Learning from Human Feedback),但核心思想简单到不能再简单:让人类给AI的回答"点赞"或"点踩",让AI学会什么样的回答讨人喜欢。

为什么不用第一阶段和第二阶段的方法?

你可能会问:直接让人把回答改到满意不就完了?为什么搞这么复杂?

原因很现实:

  • 太贵了。 让一个人仔细写一条高质量问答,平均需要5-10分钟。几万条下来,光人工费就几十万。
  • 不稳定。 同一个标注员,上午写的和下午写的质量可能不一样。不同标注员的标准更不一样。
  • 覆盖不了。 几万条标注数据很好,但AI能生成的是无数种回答。你不可能每个回答都找人写。

所以RLHF的思路是:让人只标注一小部分数据(几万条就够),训练一个"自动裁判"出来,让这个裁判去给AI的每次回答打分。

具体怎么做的?

分三步走:

第一步:让AI生成多个答案,人类排序

对同一个问题,让AI生成4-9个不同版本的答案。然后让人来排序——不是打分(因为打分不稳定,今天打4分明天打3分),而是排序(哪个最好、哪个第二好……)。

问:请用一句话解释什么是"机器学习"

回答A:机器学习是让计算机从数据中学习规律的技术,不需要人为编写每一条规则。
回答B:计算机通过分析数据自动改进性能的方法。
回答C:机器学习就是让电脑自己学会东西,不用人教每一步怎么做。
回答D:ML is the study of computer algorithms...

人类标注员看到的这些回答是随机打乱顺序的,而且不知道这些话是谁写的——这样就避免了"这个模型我认识,它的回答我优先选"这种偏见。

第二步:训练一个"自动裁判"

用刚才排序好的数据,训练一个专门的**“打分模型”**——它的工作只有一个:给AI的回答打分。

如果你告诉这个打分模型:回答A排第一,回答B排第二。它就在脑子里记下来:“哦,回答A比回答B好,因为A更简洁、更全面。“然后不断学习人类判断好坏的规律,直到它变成一个"AI鉴赏家”。

这个打分模型训练好之后,它就能自动给任何AI回答打分了——不需要再找人来看。

第三步:AI对着"裁判"练

现在开始玩一个"学习游戏”:

第一步:AI对一个用户的提问生成回答
第二步:打分模型给这个回答打个分,比如4.2分
第三步:分数高 → AI"做对了",下次往这个方向多走一点
        分数低 → AI"做错了",下次往这个方向调整
第四步:重复第一步,几万次

这个过程中有个巧妙的限制——每次AI调整的幅度不能太大

为什么呢?因为如果不加限制,AI可能会"作弊"——比如它发现打分模型给"长回答"打的分数高,它就学会在回答里"灌水",把一句话能说完的事写成几千字。回答变长了,分数是高了,但质量反而下降了。

所以每一步AI只允许自己变化一点点。这就像健身——你不可能一天练出八块腹肌。每次多做一个,慢慢来,才安全有效。

RLHF之后的AI变成了什么样?

在GPT-3.5到GPT-4的那次升级中,RLHF是关键。

经过RLHF的模型,对比只经过一二阶段训练的模型,变化很明显:

1. 会"看人下菜碟"了

同样一个AI,现在学会了根据用户语气调整回答风格:

用户生气的问:帮我看看这代码,跑不动!!!
→ AI回复:别急,我帮你看看。你贴一下报错信息?(语气:安抚)

用户冷静的问:能不能帮我优化一下这个算法?
→ AI回复:好的,我来分析一下……(语气:专业直接)

2. 知道什么时候该简洁、什么时候该展开

用户问:明天要下雨吗?
→ AI回复:明天下午大概率有雨,建议带伞。(简洁直接)

用户问:AI会取代人类的工作吗?
→ AI回复:这个问题没有简单的"会"或"不会"……(展开分析)

3. 会"礼貌地坚持事实"

用户说:我觉得地球是平的
→ AI没有说"你错了",而是说:
"我理解很多人都有过这个疑问,不过根据科学观测,地球确实是球形的。
如果你感兴趣,我可以解释一下科学家是怎么知道的。"

你看,它既坚持了事实,又没有让用户难堪。这比很多真人都强。

一个你大概没想到的事

从第一阶段到第三阶段,有一个贯穿始终的事实:AI从来没有真正"理解"过你说的任何一个字。

它不知道"苹果"是一种水果,不知道"高兴"是一种情绪。

它只是从数万亿个句子里学会了:当"超市"、“买”、“水果"这些词靠近"苹果"的时候,“苹果"出现的概率很高。当"考试”、“100分”、“妈妈"这些词靠近"高兴"的时候,“高兴"出现的概率很高。

它不懂,但它做得对。

就像你家的智能灯泡——你按开关,灯亮了。灯并不知道"开"和"关"是什么意思,它只是按电路完成了动作。

AI也是一样。它不知道自己在说什么,但它能说对。

它的"无所不知”,只是因为它"读得够多”。 它的"通情达理”,只是因为人类把"通情达理"的样本喂给了它。 它的"善解人意",只是因为几万次的人类排序教会了它什么回答最让人满意。


一张表看明白三个阶段

第一阶段:预训练第二阶段:监督微调第三阶段:RLHF
在干啥自己读整个互联网看人类写的范文被用户"点赞点踩"调教
花了多少钱几千万到上亿几十万几百万
学完之后啥样知道很多,但不会说话会回答问题,但太死板会看人脸色说话
打个比方一个孩子读了全世界的书老师教他怎么回答问题被几万个网友点赞点踩调教
最大的问题不会好好说话只会模仿,不懂得变通偶尔还是会犯错

一句话总结

AI学会说话,不是魔法,而是三步走:先海量读书自学语言(预训练),再看范文学会回答问题(监督微调),最后被几万次"点赞点踩"教会说人话(RLHF)

它从来不真的"懂"你在说什么,但它知道说什么才能让你满意。

下一篇聊一个很多人纠结的问题:开源模型和闭源模型到底差在哪?Llama让你随便下载用,OpenAI为什么按字收费?

📖 本文是MST「30天AI科普专栏」第2篇 / 共25篇 🔖 分类:基础认知 关注MST,每天一个AI小知识,把大模型讲明白。