首页 文章 分类 标签 关于

本周AI科普小知识汇总——一张图回顾第一周的核心概念

🤖 本周AI科普小知识汇总——一张图回顾第一周的核心概念

第一周过去了。从大模型的本质聊到GPU的算力战争,从AI怎么学会说话的聊到开源闭源的路线之争——五个核心概念,你大概已经装了满满一脑子。

但信息太多也容易乱。这篇汇总不写新东西,只帮你把过去四天学到的内容串起来,画一张完整的知识地图。

四篇文章讲了什么?——一句话概括

篇目核心问题一句话答案
第1篇:大模型是个啥大模型到底是怎么工作的?一个超级接龙游戏——根据上文猜最合理的下文,每猜一次都是几十亿次数学运算。
第2篇:AI怎么学会说话的AI是天生就会说话吗?三步走:预训练(海量自学)→ 监督微调(看范文)→ RLHF(被几万次点赞点踩调教)。
第3篇:开源与闭源Llama免费给用,GPT为啥收费?开源你拿到权重自己玩,闭源你只能通过API租用。各有各的适用场景。
第4篇:GPU在算什么为什么训练AI必须用显卡?因为AI训练的本质是超大规模矩阵乘法,GPU就是专门为这种运算设计的。

这几个概念不是孤立的。它们之间有一条清晰的逻辑链,我帮你理一理。

逻辑线:从本质到载体到训练到分发

① 大模型是怎么工作的?(第1篇)

这是最底层的问题。大模型不是"思考机器",而是一个概率生成器——你给它一段上文,它算出一段下文。算法是Transformer,核心操作是注意力机制。

这决定了它的所有特性:

  • 因为它靠概率猜词 → 所以它有时候会"胡说八道"(猜错了)
  • 因为它"读过"全网数据 → 所以它什么话题都能聊一点
  • 因为它只是接龙 → 所以它没有真正的理解能力

这是理解后续所有概念的基础。

② 但光有算法不够,怎么让它变"强"?(第2篇)

算法决定了"怎么算",但决定"算得好不好"的是训练

训练的本质是:拿海量数据,让AI一遍遍猜词,猜错了就调整内部参数(几百亿个浮点数),直到猜对为止。

这个过程需要什么?

  • 数据:整个互联网的文本
  • 算力:几千张GPU跑几个月
  • :几千万到几亿美元

这引出了两个问题:谁来提供算力?谁来承担成本?

③ GPU就是提供算力的"发动机"(第4篇)

第2篇说的"几千张GPU跑几个月"不是随便说说的。GPU之所以成为AI时代的核心硬件,是因为:

AI计算的本质 = 矩阵乘法 = 大量简单重复运算 = GPU的天然强项

CPU像博士生,什么复杂的活都能干;GPU像一万个小学生,只会做加法乘法,但数量多到能碾压博士生。一块H100的浮点运算能力是顶级CPU的1000倍

这引出了另一个现实问题:GPU贵、缺货。谁负担得起几万张H100的费用?

④ 开源 vs 闭源:谁来提供"AI服务"?(第3篇)

算力和训练成本太高,不是谁都能玩的。于是市场上分化出两种模式:

闭源(OpenAI、Anthropic、Google)

  • 自己承担全部训练成本
  • 通过API按Token收费回本
  • 用户只需要发请求、收结果,不需要买GPU

开源(Meta、DeepSeek、阿里Qwen)

  • 训练成本自己承担或由母公司补贴
  • 权重文件公开,谁都可以下载
  • 用户自己部署,数据不出门,长期成本低

这两条路线在过去两年里激烈竞争,结果是你——作为用户——同时享受到了两者带来的好处:闭源持续提升能力天花板,开源压低整体价格。

五张图帮你记住

如果不想记那么多文字,只需要记住这五张"图景":

图景1:接龙游戏

大模型 = 一个接龙游戏 输入"今天天气____",它算概率最高的下一个词"真不错"。 这就是一切的基础——没有理解,只有概率。

图景2:养娃工程

训练AI = 养一个孩子 第一阶段:自己读书(预训练)——读全世界的书,但不一定会说话 第二阶段:老师教(监督微调)——看范文学会问答格式 第三阶段:社会调教(RLHF)——无数人点赞点踩教会它"说人话"

图景3:奶茶配方

开源 vs 闭源 = 自制奶茶 vs 买喜茶 开源你拿到完整配方,自己煮茶、自己调比例,想加什么加什么 闭源只能去柜台买,喝到啥是啥 前者成本低但需要动手,后者省心但长期贵

图景4:一万个小学生

GPU vs CPU = 一万个小学生 vs 一个博士生 博士生能解微积分但一次只能做一题 一万个小学生每人只会做加法,但可以同时做一万道加法 AI训练需要的是加法(矩阵乘法),所以GPU赢了

图景5:四篇文章的串联逻辑

算法 → 怎么变强 → 靠什么硬件 → 谁来提供服务 第1篇→第2篇→第4篇→第3篇 接龙游戏 → 训练三步走 → GPU算力引擎 → 开源/闭源分发

一些你可能还没意识到的"连接点"

这几篇文章里藏了一些跨篇的线索,单独看可能不注意,串起来很有意思:

线索一:同一笔矩阵乘法的三个维度的故事

第1篇讲注意力机制时提到一个 4×12288 的查询矩阵和第 96 个注意力头。第4篇里同一个 4×12288×4 的矩阵乘法,在H100上只需要几纳秒就能完成——但要在96层×96头×几百个Token上重复几千万次。第1篇告诉你它是什么样的运算,第4篇告诉你它为什么能算完。

线索二:开源模型和闭源模型的GPU依赖关系

一个经常被忽略的事实:Meta开源Llama 3.1 405B时,自己花了约6000万美元训练它。你下载权重在自己机器上跑——这"免费"的实质是Meta替你付了GPU账单。而OpenAI闭源GPT-4,则是让每个用户按Token付费来分摊GPU成本。开源是把训练成本集中到一家公司身上,闭源是把成本分摊给全体用户。

线索三:RLHF的"点赞点踩"和开源生态的结合

第2篇提到RLHF需要人类标注员给AI回答排序。有意思的是,开源社区正在尝试"众包RLHF"——让每个下载开源模型的用户通过点赞点踩来贡献偏好数据,数据公开、模型改进也公开。这跟闭源模型内部偷偷做RLHF(你都不知道自己每次"点赞"被记录了下来)形成了耐人寻味的对比。

下周预告

第一周是"基础认知"——我们聊了最底层的东西。下周进入第二主题:日常使用,你将面对三个每天都在用、但很少有人真正理解的概念:

  1. Token到底是什么?AI是数"字"算钱的
  2. Token怎么收费?各家模型价格大PK
  3. 该用哪个模型?GPT、Claude、Gemini、DeepSeek怎么选

如果你第一周的内容已经消化完了,下周一见——你会发现为什么每次跟AI聊天,背后都有个小账本在滴滴答答地跳数字。

推荐复习路径

如果想温习,建议按这个顺序回看:

  1. 第1篇(大模型本质)→ 是理解一切的基石
  2. 第2篇(训练过程)→ 理解AI的能力来源
  3. 第4篇(GPU算力)→ 理解能力的物理载体
  4. 第3篇(开源/闭源)→ 理解行业生态格局

第1篇最难(涉及Transformer和注意力机制),但如果啃下来,后面就轻松了。


📖 本文是MST「30天AI科普专栏」第5篇 / 共25篇 🔖 分类:基础认知 关注MST,每天一个AI小知识,把大模型讲明白。