第一周过去了。从大模型的本质聊到GPU的算力战争,从AI怎么学会说话的聊到开源闭源的路线之争——五个核心概念,你大概已经装了满满一脑子。
但信息太多也容易乱。这篇汇总不写新东西,只帮你把过去四天学到的内容串起来,画一张完整的知识地图。
四篇文章讲了什么?——一句话概括
| 篇目 | 核心问题 | 一句话答案 |
|---|---|---|
| 第1篇:大模型是个啥 | 大模型到底是怎么工作的? | 一个超级接龙游戏——根据上文猜最合理的下文,每猜一次都是几十亿次数学运算。 |
| 第2篇:AI怎么学会说话的 | AI是天生就会说话吗? | 三步走:预训练(海量自学)→ 监督微调(看范文)→ RLHF(被几万次点赞点踩调教)。 |
| 第3篇:开源与闭源 | Llama免费给用,GPT为啥收费? | 开源你拿到权重自己玩,闭源你只能通过API租用。各有各的适用场景。 |
| 第4篇:GPU在算什么 | 为什么训练AI必须用显卡? | 因为AI训练的本质是超大规模矩阵乘法,GPU就是专门为这种运算设计的。 |
这几个概念不是孤立的。它们之间有一条清晰的逻辑链,我帮你理一理。
逻辑线:从本质到载体到训练到分发
① 大模型是怎么工作的?(第1篇)
这是最底层的问题。大模型不是"思考机器",而是一个概率生成器——你给它一段上文,它算出一段下文。算法是Transformer,核心操作是注意力机制。
这决定了它的所有特性:
- 因为它靠概率猜词 → 所以它有时候会"胡说八道"(猜错了)
- 因为它"读过"全网数据 → 所以它什么话题都能聊一点
- 因为它只是接龙 → 所以它没有真正的理解能力
这是理解后续所有概念的基础。
② 但光有算法不够,怎么让它变"强"?(第2篇)
算法决定了"怎么算",但决定"算得好不好"的是训练。
训练的本质是:拿海量数据,让AI一遍遍猜词,猜错了就调整内部参数(几百亿个浮点数),直到猜对为止。
这个过程需要什么?
- 数据:整个互联网的文本
- 算力:几千张GPU跑几个月
- 钱:几千万到几亿美元
这引出了两个问题:谁来提供算力?谁来承担成本?
③ GPU就是提供算力的"发动机"(第4篇)
第2篇说的"几千张GPU跑几个月"不是随便说说的。GPU之所以成为AI时代的核心硬件,是因为:
AI计算的本质 = 矩阵乘法 = 大量简单重复运算 = GPU的天然强项
CPU像博士生,什么复杂的活都能干;GPU像一万个小学生,只会做加法乘法,但数量多到能碾压博士生。一块H100的浮点运算能力是顶级CPU的1000倍。
这引出了另一个现实问题:GPU贵、缺货。谁负担得起几万张H100的费用?
④ 开源 vs 闭源:谁来提供"AI服务"?(第3篇)
算力和训练成本太高,不是谁都能玩的。于是市场上分化出两种模式:
闭源(OpenAI、Anthropic、Google):
- 自己承担全部训练成本
- 通过API按Token收费回本
- 用户只需要发请求、收结果,不需要买GPU
开源(Meta、DeepSeek、阿里Qwen):
- 训练成本自己承担或由母公司补贴
- 权重文件公开,谁都可以下载
- 用户自己部署,数据不出门,长期成本低
这两条路线在过去两年里激烈竞争,结果是你——作为用户——同时享受到了两者带来的好处:闭源持续提升能力天花板,开源压低整体价格。
五张图帮你记住
如果不想记那么多文字,只需要记住这五张"图景":
图景1:接龙游戏
大模型 = 一个接龙游戏 输入"今天天气____",它算概率最高的下一个词"真不错"。 这就是一切的基础——没有理解,只有概率。
图景2:养娃工程
训练AI = 养一个孩子 第一阶段:自己读书(预训练)——读全世界的书,但不一定会说话 第二阶段:老师教(监督微调)——看范文学会问答格式 第三阶段:社会调教(RLHF)——无数人点赞点踩教会它"说人话"
图景3:奶茶配方
开源 vs 闭源 = 自制奶茶 vs 买喜茶 开源你拿到完整配方,自己煮茶、自己调比例,想加什么加什么 闭源只能去柜台买,喝到啥是啥 前者成本低但需要动手,后者省心但长期贵
图景4:一万个小学生
GPU vs CPU = 一万个小学生 vs 一个博士生 博士生能解微积分但一次只能做一题 一万个小学生每人只会做加法,但可以同时做一万道加法 AI训练需要的是加法(矩阵乘法),所以GPU赢了
图景5:四篇文章的串联逻辑
算法 → 怎么变强 → 靠什么硬件 → 谁来提供服务 第1篇→第2篇→第4篇→第3篇 接龙游戏 → 训练三步走 → GPU算力引擎 → 开源/闭源分发
一些你可能还没意识到的"连接点"
这几篇文章里藏了一些跨篇的线索,单独看可能不注意,串起来很有意思:
线索一:同一笔矩阵乘法的三个维度的故事
第1篇讲注意力机制时提到一个 4×12288 的查询矩阵和第 96 个注意力头。第4篇里同一个 4×12288×4 的矩阵乘法,在H100上只需要几纳秒就能完成——但要在96层×96头×几百个Token上重复几千万次。第1篇告诉你它是什么样的运算,第4篇告诉你它为什么能算完。
线索二:开源模型和闭源模型的GPU依赖关系
一个经常被忽略的事实:Meta开源Llama 3.1 405B时,自己花了约6000万美元训练它。你下载权重在自己机器上跑——这"免费"的实质是Meta替你付了GPU账单。而OpenAI闭源GPT-4,则是让每个用户按Token付费来分摊GPU成本。开源是把训练成本集中到一家公司身上,闭源是把成本分摊给全体用户。
线索三:RLHF的"点赞点踩"和开源生态的结合
第2篇提到RLHF需要人类标注员给AI回答排序。有意思的是,开源社区正在尝试"众包RLHF"——让每个下载开源模型的用户通过点赞点踩来贡献偏好数据,数据公开、模型改进也公开。这跟闭源模型内部偷偷做RLHF(你都不知道自己每次"点赞"被记录了下来)形成了耐人寻味的对比。
下周预告
第一周是"基础认知"——我们聊了最底层的东西。下周进入第二主题:日常使用,你将面对三个每天都在用、但很少有人真正理解的概念:
- Token到底是什么?AI是数"字"算钱的
- Token怎么收费?各家模型价格大PK
- 该用哪个模型?GPT、Claude、Gemini、DeepSeek怎么选
如果你第一周的内容已经消化完了,下周一见——你会发现为什么每次跟AI聊天,背后都有个小账本在滴滴答答地跳数字。
推荐复习路径
如果想温习,建议按这个顺序回看:
- 第1篇(大模型本质)→ 是理解一切的基石
- 第2篇(训练过程)→ 理解AI的能力来源
- 第4篇(GPU算力)→ 理解能力的物理载体
- 第3篇(开源/闭源)→ 理解行业生态格局
第1篇最难(涉及Transformer和注意力机制),但如果啃下来,后面就轻松了。
📖 本文是MST「30天AI科普专栏」第5篇 / 共25篇 🔖 分类:基础认知 关注MST,每天一个AI小知识,把大模型讲明白。