<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>关于MST AI思考 on MST</title><link>https://xms-solo.site/</link><description>Recent content in 关于MST AI思考 on MST</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Sun, 10 May 2026 08:30:00 +0800</lastBuildDate><atom:link href="https://xms-solo.site/index.xml" rel="self" type="application/rss+xml"/><item><title>为什么AI算数学题会翻车？</title><link>https://xms-solo.site/posts/ai-pop-science-15/</link><pubDate>Sun, 10 May 2026 08:30:00 +0800</pubDate><guid>https://xms-solo.site/posts/ai-pop-science-15/</guid><description>&lt;p&gt;如果你用过AI一段时间，你大概率遇到过这个情况。&lt;/p&gt;
&lt;p&gt;你问它一个很简单的问题——比如&amp;quot;9.11和9.9哪个大&amp;quot;——它毫不犹豫地回答&amp;quot;9.11更大&amp;quot;。你把对话记录发到朋友圈，评论区全是&amp;quot;AI就这？&amp;quot;。&lt;/p&gt;
&lt;p&gt;但奇怪的是，同一个AI能帮你写出一篇条理清晰的论文，能帮你把一段Python代码从头写到尾，甚至能跟你讨论量子力学的基础问题。为什么一个这么&amp;quot;聪明&amp;quot;的AI，会在小学四年级的数学题上翻车？&lt;/p&gt;
&lt;p&gt;这事不是你的运气不好，也不是AI&amp;quot;坏了&amp;quot;。背后的原因，比你想的要深。&lt;/p&gt;
&lt;h2 id="ai算数的方式和你完全不一样"&gt;AI算数的方式，和你完全不一样&lt;/h2&gt;
&lt;p&gt;首先得搞清楚一件事：当你让AI算数学题的时候，它并不是在&amp;quot;算&amp;quot;。&lt;/p&gt;
&lt;p&gt;你算8×7，脑子里想的是&amp;quot;七八五十六&amp;quot;——你在调用一个抽象符号系统（乘法表）里的规则。&lt;/p&gt;
&lt;p&gt;AI算8×7，想的是&amp;quot;我见过的所有文本里，&amp;lsquo;8×7=&amp;lsquo;后面的下一个词，最常出现的是哪个&amp;quot;。根据它读过的几千亿个网页，绝大多数情况下那个词是&amp;quot;56&amp;quot;。所以它答对了。&lt;/p&gt;
&lt;p&gt;但这不是&amp;quot;算&amp;quot;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;这是模式匹配。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;你可以这么理解：你让AI算数学，就像让一个读过全世界所有书但从来没上过数学课的人来答题。他知道&amp;quot;2+2=4&amp;quot;因为每本数学书开头都这么写。但你问他&amp;quot;为什么2+2不等于5&amp;quot;，他就没法给你一个严格的推演——因为他只是见过这个结论，没学过证明过程。&lt;/p&gt;
&lt;h2 id="token化ai的第一个陷阱"&gt;Token化：AI的第一个陷阱&lt;/h2&gt;
&lt;p&gt;AI不认识数字。它认识的是&amp;quot;Token&amp;quot;——一种把文字切碎后的碎片。&lt;/p&gt;
&lt;p&gt;当AI看到&amp;quot;9.11&amp;quot;时，它看到的不是你脑子里那个&amp;quot;九点一一&amp;quot;的数学概念。它看到的是被分词器切成的一个或几个Token。&lt;/p&gt;
&lt;p&gt;问题出在哪？在大多数分词器眼里，&amp;ldquo;9.11&amp;quot;和&amp;quot;9.9&amp;quot;被切分的方式不一样：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&amp;ldquo;9.11&amp;rdquo; 可能被当做一个整体 Token（因为它像日期）&lt;/li&gt;
&lt;li&gt;&amp;ldquo;9.9&amp;rdquo; 可能被切成了 &amp;ldquo;9&amp;rdquo; + &amp;ldquo;.&amp;rdquo; + &amp;ldquo;9&amp;rdquo; 三个Token&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;同一个AI的&amp;quot;视觉系统&amp;rdquo;，看待这两个数字的方式本来就是不对等的。它并没有先把它们归一化成&amp;quot;统一坐标系&amp;quot;再比较——它只是拿两个不同格式的东西去匹配记忆中的模式。&lt;/p&gt;
&lt;p&gt;这就像一个没学过数学的人看到两行字：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;第一行：&amp;ldquo;9.11&amp;rdquo;（他见过——这是世贸中心事件日期）&lt;/li&gt;
&lt;li&gt;第二行：&amp;ldquo;9.9&amp;rdquo;（他没见过这个组合）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;他会怎么比较？他没法比，因为在他眼里这两者根本不是同类。&lt;/p&gt;
&lt;h2 id="它不按规则推理它按概率预测"&gt;它不按规则推理，它按概率预测&lt;/h2&gt;
&lt;p&gt;这是最核心的原因。&lt;/p&gt;
&lt;p&gt;人类做数学，用的是&lt;strong&gt;演绎推理&lt;/strong&gt;：我有一组公理和规则，按规则一步一步推导出结论。我算错了是因为我某一步记错或算错，但只要规则对，我就能推导出正确答案。&lt;/p&gt;
&lt;p&gt;AI做&amp;quot;数学&amp;quot;，用的是&lt;strong&gt;预感式推理&lt;/strong&gt;：我有一堆训练数据，输出最可能的答案。它没有&amp;quot;规则系统&amp;quot;——它的神经网络里没有一行代码写着&amp;quot;if a &amp;gt; b then a is bigger&amp;quot;。&lt;/p&gt;
&lt;p&gt;所以当你要AI比较9.11和9.9时，它在做的事情是：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;看到&amp;quot;9.11&amp;quot;这个词——这个词在它的训练数据中大量出现（日期、比例、版本号）&lt;/li&gt;
&lt;li&gt;看到&amp;quot;9.9&amp;quot;这个词——出现的次数少很多&lt;/li&gt;
&lt;li&gt;回忆它见过的上下文——&amp;ldquo;9.11&amp;quot;通常出现在讨论&amp;quot;更大&amp;quot;的事件的语境中（9/11事件），而&amp;quot;9.9&amp;quot;经常出现在打分场景里&lt;/li&gt;
&lt;li&gt;综合所有线索，给出最高概率的答案&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;你看到的是&amp;quot;9.11 &amp;gt; 9.9&amp;rdquo;，AI看到的可能是&amp;quot;911事件 &amp;gt; 9.9分&amp;quot;。它不是在比较数字大小，而是在比较&lt;strong&gt;词语的含义权重&lt;/strong&gt;。&lt;/p&gt;
&lt;h2 id="三轮测试看看ai到底翻在哪"&gt;三轮测试：看看AI到底翻在哪&lt;/h2&gt;
&lt;p&gt;我用几个简单问题测试了当前主流模型的表现：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第一轮：直接问&lt;/strong&gt;
&amp;ldquo;9.11和9.9哪个大？&amp;rdquo;
→ 部分模型回答9.11大。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第二轮：加提示&lt;/strong&gt;
&amp;ldquo;比较以下两个数字的大小：9.11和9.9。注意这是十进制数字，不是版本号也不是日期。&amp;rdquo;
→ 大部分模型能答对。因为你用&amp;quot;这不是日期&amp;quot;拆掉了它的错误联想。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第三轮：变个花样&lt;/strong&gt;
&amp;ldquo;0.11和0.9哪个大？&amp;rdquo;
→ 几乎所有模型都能正确回答0.9大。&lt;/p&gt;
&lt;p&gt;看出规律了？当问题从&amp;quot;模式匹配&amp;quot;变成&amp;quot;纯粹的数值比较&amp;quot;（去掉日期联想），而且数字格式统一（都是0.xx），AI就能答对。一旦加回&amp;quot;9.11&amp;quot;这种带强烈语义背景的数字，它就掉坑了。&lt;/p&gt;
&lt;h2 id="那最新的推理模型o1deepseek-r1为什么不会翻"&gt;那最新的推理模型（o1、DeepSeek-R1）为什么不会翻？&lt;/h2&gt;
&lt;p&gt;你可能要问：那现在不是有&amp;quot;推理模型&amp;quot;了吗？ChatGPT o1、DeepSeek R1，它们不是会&amp;quot;思考&amp;quot;了吗？怎么还会犯这种错？&lt;/p&gt;</description></item><item><title>为什么AI写的代码跑不通？</title><link>https://xms-solo.site/posts/ai-pop-science-14/</link><pubDate>Sat, 09 May 2026 08:30:00 +0800</pubDate><guid>https://xms-solo.site/posts/ai-pop-science-14/</guid><description>&lt;p&gt;你让AI写了一个 Python 爬虫，它刷刷刷给出了完整代码，看起来无懈可击。你信心满满地复制到终端，按下回车——然后屏幕上出现了茫茫多的红色错误信息。&lt;/p&gt;
&lt;p&gt;这种感觉，用过AI辅助编程的人应该都不陌生。&lt;/p&gt;
&lt;p&gt;2024年的一项研究发现，GitHub Copilot 生成的代码中，大约有 30%-40% 在首次运行时存在至少一个错误。Google Cloud 的研究也得出了类似的结论：AI 生成的代码正确率通常在 60%-70% 之间，剩下的那些，要么语法不对，要么逻辑有坑，要么直接就是&amp;quot;幻觉&amp;quot;出来的虚构函数。&lt;/p&gt;
&lt;p&gt;听起来很不靠谱，对吧？但有意思的是，同样的研究还发现，用AI辅助编程的程序员&lt;strong&gt;整体产出提高了 55%&lt;/strong&gt;。一边是帮忙填坑、一边是挖坑，到底哪个是真哪个是假？&lt;/p&gt;
&lt;p&gt;今天我们就来拆一拆——AI写代码这件事，到底卡在哪一步？&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="第一步ai是怎么写代码的"&gt;第一步：AI是怎么&amp;quot;写代码&amp;quot;的？&lt;/h2&gt;
&lt;p&gt;先说清楚一个基础认知：AI写代码和你写代码，本质上是两回事。&lt;/p&gt;
&lt;p&gt;你写代码的时候，脑子里有逻辑闭环——你知道变量 &lt;code&gt;x&lt;/code&gt; 存储了什么值，知道 &lt;code&gt;for&lt;/code&gt; 循环要遍历什么，知道调用这个函数会触发什么副作用。你在脑子里&amp;quot;运行&amp;quot;了一遍。&lt;/p&gt;
&lt;p&gt;AI不是。AI写代码本质上还是在&lt;strong&gt;接龙&lt;/strong&gt;——它看到你输入的&amp;quot;用Python写一个函数，读取CSV文件&amp;quot;，然后根据它的训练数据里的几十亿行代码，预测最可能接下去的token是什么。&lt;/p&gt;
&lt;p&gt;这就好比有个学生每次考试都靠背往年真题答案来答题。遇到他背过的，他能把标准答案默写得一字不差；但遇到没见过的新题型，他就只能凭感觉拼凑，东抄一句西抄一段——看起来像那么回事，但一细究就露馅了。&lt;/p&gt;
&lt;p&gt;这就是AI写代码的第一个根本局限：&lt;strong&gt;它没有&amp;quot;执行&amp;quot;过一行代码&lt;/strong&gt;。它不知道代码运行起来会是什么样子。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="第二步它到底在哪些地方翻车"&gt;第二步：它到底在哪些地方翻车？&lt;/h2&gt;
&lt;p&gt;根据Stack Overflow对开发者使用AI编程的调查，常见的翻车场景可以分成三类：&lt;/p&gt;
&lt;h3 id="1-api幻想症"&gt;1. API幻想症&lt;/h3&gt;
&lt;p&gt;这是最典型的翻车。AI会&amp;quot;发明&amp;quot;一些看起来完全合理但实际上不存在的API函数。&lt;/p&gt;
&lt;p&gt;比如说，你让AI用 pandas 把一个 DataFrame 保存到多个 Excel 工作簿。它可能写出：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-python" data-lang="python"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;df&lt;span style="color:#f92672"&gt;.&lt;/span&gt;save_to_multiple_sheets(&lt;span style="color:#e6db74"&gt;&amp;#34;output.xlsx&amp;#34;&lt;/span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;这个方法光看名字太合理了——&amp;ldquo;保存到多个工作表&amp;rdquo;，英文语法也正确。但实际 pandas 根本没有这个方法。正确的做法是 &lt;code&gt;pd.ExcelWriter&lt;/code&gt; + &lt;code&gt;df.to_excel()&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;为什么会这样？因为在AI的训练数据里，出现过无数次类似的函数签名模式——&lt;code&gt;save_to_xxx&lt;/code&gt;、&lt;code&gt;xxx.to_yyy&lt;/code&gt;——它只是按照概率拼接了它认为最自然的token序列，根本没去查过有没有这个函数。&lt;/p&gt;
&lt;h3 id="2-版本错配"&gt;2. 版本错配&lt;/h3&gt;
&lt;p&gt;AI的训练数据是有时间截断的。如果你的技术栈用的是新版库，而AI的训练截止在旧版，它就会给你过时的代码。&lt;/p&gt;
&lt;p&gt;比如 2024 年 React 的 API 变了，用惯了的 &lt;code&gt;createRoot&lt;/code&gt; 改成了新的方式，但模型可能还在给你生成旧的写法。这不是AI懒，而是它根本&amp;quot;不知道&amp;quot;新版的存在——它脑子里只有截止日期前的版本快照。&lt;/p&gt;
&lt;h3 id="3-逻辑正确但边界爆炸"&gt;3. 逻辑正确但边界爆炸&lt;/h3&gt;
&lt;p&gt;有时代码语法完全正确，逻辑看起来也通顺，但一跑就崩。最典型的就是没有处理好&lt;strong&gt;边界情况&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;比如你让AI写一个函数，从一个数组里获取第n个元素的&amp;quot;前一个元素&amp;quot;：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-python" data-lang="python"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#66d9ef"&gt;def&lt;/span&gt; &lt;span style="color:#a6e22e"&gt;get_previous&lt;/span&gt;(arr, n):
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#66d9ef"&gt;return&lt;/span&gt; arr[n&lt;span style="color:#f92672"&gt;-&lt;/span&gt;&lt;span style="color:#ae81ff"&gt;1&lt;/span&gt;]
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;看起来完美。但如果 &lt;code&gt;n=0&lt;/code&gt; 呢？&lt;code&gt;arr[-1]&lt;/code&gt; 返回的是最后一个元素，不是&amp;quot;不存在&amp;quot;。如果你的业务需求是&amp;quot;n=0时返回None&amp;quot;，这段代码就错了。&lt;/p&gt;</description></item><item><title>为什么同样的问题，AI每次回答不一样？</title><link>https://xms-solo.site/posts/ai-pop-science-13/</link><pubDate>Fri, 08 May 2026 08:30:00 +0800</pubDate><guid>https://xms-solo.site/posts/ai-pop-science-13/</guid><description>&lt;p&gt;你问ChatGPT同一个问题三遍，三次回答都不一样。有时候大致相同但措辞变了，有时候完全跑偏。&lt;/p&gt;
&lt;p&gt;这不是bug。这是&lt;strong&gt;故意设计的&lt;/strong&gt;。&lt;/p&gt;
&lt;h2 id="核心矛盾ai既要对又要活"&gt;核心矛盾：AI既要&amp;quot;对&amp;quot;，又要&amp;quot;活&amp;quot;&lt;/h2&gt;
&lt;p&gt;先说一个悖论。&lt;/p&gt;
&lt;p&gt;大模型本质上是个&amp;quot;文字接龙游戏&amp;quot;——它根据上文，预测下一个最合理的词。如果它总选&amp;quot;最合理&amp;quot;的那个，回答会非常稳定，但也非常无聊。就像你每次问&amp;quot;今天天气怎么样？&amp;quot;，它都回答&amp;quot;今天天气不错&amp;quot;——哪怕外面在下雨。&lt;/p&gt;
&lt;p&gt;如果它完全随机，又会胡说八道。&lt;/p&gt;
&lt;p&gt;所以设计者面临一个两难：&lt;strong&gt;稳定性 vs 多样性&lt;/strong&gt;。完全稳定像机器人，完全随机像疯子。你需要的，是一个可以调节的&amp;quot;创造力旋钮&amp;quot;。&lt;/p&gt;
&lt;p&gt;这个旋钮，就叫&lt;strong&gt;Temperature（温度参数）&lt;/strong&gt;。&lt;/p&gt;
&lt;h2 id="temperature理解这个参数的直觉"&gt;Temperature：理解这个参数的直觉&lt;/h2&gt;
&lt;p&gt;想象你面前有一排按钮，每个按钮代表下一个词的可能性。最可能的词按钮最大，最容易按到；可能性低的词按钮很小，得故意去够。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Temperature = 0&lt;/strong&gt;：你永远只按最大的那个按钮。每次选择都一样，回答稳定得像复读机。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Temperature = 1&lt;/strong&gt;：你正常伸手去按，大概率按到大按钮，但偶尔也会碰到旁边的小按钮。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Temperature = 2&lt;/strong&gt;：你在一个很热的环境里手抖得厉害，碰到哪个按钮纯靠运气——回答会非常随机甚至离谱。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;0.7到1.0是大多数模型的默认范围。这个设置下，模型&lt;strong&gt;有80%的概率选最合理的词，20%的概率偶尔&amp;quot;剑走偏锋&amp;quot;&lt;/strong&gt;。&lt;/p&gt;
&lt;h2 id="不只是temperature另外两个关键参数"&gt;不只是Temperature：另外两个关键参数&lt;/h2&gt;
&lt;p&gt;如果你用过API，还会遇到另外两个参数：&lt;/p&gt;
&lt;h3 id="top-pnucleus-sampling"&gt;Top-P（Nucleus Sampling）&lt;/h3&gt;
&lt;p&gt;换个角度：不是看单个词的概率，而是&lt;strong&gt;累加概率&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;设定Top-P=0.9，意思是从概率最高的词开始往下加，直到累计概率达到90%，然后只在这堆词里选。这像什么？像你赶时间点外卖——只看评分最高的几家店，评分太低的直接不看。&lt;/p&gt;
&lt;h3 id="top-k"&gt;Top-K&lt;/h3&gt;
&lt;p&gt;更简单粗暴：&lt;strong&gt;只看前K个最可能的词&lt;/strong&gt;。Top-K=50，就是只从概率前50的候选里选，第51名之后直接淘汰。&lt;/p&gt;
&lt;p&gt;实践中，很多人组合使用：Temperature控制整体的&amp;quot;创造力幅度&amp;quot;，Top-P控制候选范围的&amp;quot;广度&amp;quot;，Top-K做最后一道保险——不让太离谱的词进入候选池。&lt;/p&gt;
&lt;h2 id="实际应用什么时候调高什么时候调低"&gt;实际应用：什么时候调高，什么时候调低？&lt;/h2&gt;
&lt;h3 id="需要精确性temperature--0-02"&gt;需要精确性（Temperature ≈ 0-0.2）&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;代码生成：你不想AI每次生成的函数名不一样&lt;/li&gt;
&lt;li&gt;数学计算：理由同上&lt;/li&gt;
&lt;li&gt;事实性问答：&amp;ldquo;爱因斯坦哪年出生？&amp;ldquo;不想要三个不同答案&lt;/li&gt;
&lt;li&gt;数据提取：从文本中抽结构化信息&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="需要创造力temperature--07-10"&gt;需要创造力（Temperature ≈ 0.7-1.0）&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;头脑风暴：生成营销文案的多个版本&lt;/li&gt;
&lt;li&gt;创意写作：让AI写出不同风格的故事&lt;/li&gt;
&lt;li&gt;翻译：同一句话译出不同风味，对比选择&lt;/li&gt;
&lt;li&gt;对话角色扮演：让AI的性格不单调&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="需要高多样性temperature--10极少用"&gt;需要高多样性（Temperature &amp;gt; 1.0，极少用）&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;实验性的数据增强&lt;/li&gt;
&lt;li&gt;生成大量不重复的样本数据&lt;/li&gt;
&lt;li&gt;某些特定的艺术创作&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="一个有趣的实验"&gt;一个有趣的实验&lt;/h2&gt;
&lt;p&gt;你可以自己试试这个：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;Prompt：用一句话解释&amp;quot;引力&amp;rdquo;。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;Temperature 0.0：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&amp;ldquo;引力是物体之间由于质量而产生的相互吸引力。&amp;rdquo;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;Temperature 0.7：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&amp;ldquo;引力就像宇宙的隐形胶水，把星星、行星和你脚底的地面粘在一起。&amp;rdquo;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;Temperature 1.5（如果模型允许调这么高）：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&amp;ldquo;引力是质量对时空的甜蜜调戏，让万物忍不住朝彼此倾斜。&amp;rdquo;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;三个回答都&amp;quot;对&amp;rdquo;，但风格天差地别。0.0是教科书，0.7是科普博主，1.5是诗人（也可能是喝了三杯咖啡的诗人）。&lt;/p&gt;
&lt;h2 id="背后的原理概率分布"&gt;背后的原理：概率分布&lt;/h2&gt;
&lt;p&gt;更深一层想：模型是怎么&amp;quot;知道&amp;quot;哪些词更合理的？&lt;/p&gt;
&lt;p&gt;每个候选词都有一个概率分数（logits）。这些分数经过一个叫 Softmax 的函数，变成概率分布——所有词的概率加起来等于1。&lt;/p&gt;</description></item><item><title>为什么AI有时候胡说八道？——它不是在骗你，是真的不知道</title><link>https://xms-solo.site/posts/ai-pop-science-12/</link><pubDate>Thu, 07 May 2026 08:30:00 +0800</pubDate><guid>https://xms-solo.site/posts/ai-pop-science-12/</guid><description>&lt;p&gt;你有没有遇到过这种情况：问AI一个专业问题，它回答得头头是道，引经据典，连参考文献编号都给你列出来了——结果你一查，那个文献根本不存在。&lt;/p&gt;
&lt;p&gt;这不是AI在耍你，而是AI在&lt;strong&gt;一本正经地胡说八道&lt;/strong&gt;。业内管这个叫&lt;strong&gt;幻觉（Hallucination）&lt;/strong&gt;。&lt;/p&gt;
&lt;h2 id="一幻觉到底是什么"&gt;一、幻觉到底是什么？&lt;/h2&gt;
&lt;p&gt;先来个最直白的定义：&lt;strong&gt;AI幻觉 = AI说出了一个听起来合理但实际是错的内容。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;它和人类说谎有本质区别。你说谎，是你明明知道真相但故意说假话。AI不一样——&lt;strong&gt;它压根不知道自己在说什么，它只是在做它最擅长的事：猜下一个字。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;把AI想象成一个超级擅长接龙游戏的选手。你问它：&amp;ldquo;请介绍一下量子计算的基本原理。&amp;rdquo;&lt;/p&gt;
&lt;p&gt;AI脑子里想的是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;前面出现&amp;quot;量子&amp;quot; → 下一个大概率是&amp;quot;计算&amp;quot;或&amp;quot;力学&amp;quot;&lt;/li&gt;
&lt;li&gt;前面出现&amp;quot;量子计算&amp;quot; → 下一个可能是&amp;quot;原理&amp;quot;或&amp;quot;应用&amp;quot;&lt;/li&gt;
&lt;li&gt;前面出现&amp;quot;量子计算原理&amp;quot; → 下一个应该是&amp;quot;是&amp;quot;或&amp;quot;包括&amp;quot;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;就这样，一个字接一个字地往下&amp;quot;猜&amp;quot;。&lt;strong&gt;它从来不关心自己说的对不对，它只关心自己说的顺不顺。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="一个生动的类比"&gt;一个生动的类比&lt;/h3&gt;
&lt;p&gt;想象一个从来没有离开过北京的人，有一天你问他：&amp;ldquo;上海的外滩怎么走？&amp;rdquo;&lt;/p&gt;
&lt;p&gt;他虽然没去过上海，但他知道：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&amp;ldquo;外滩&amp;quot;是上海的一个地方&lt;/li&gt;
&lt;li&gt;回答指路类问题，应该说&amp;quot;坐地铁&amp;quot;或&amp;quot;坐公交&amp;rdquo;&lt;/li&gt;
&lt;li&gt;这类回答最后应该加一句&amp;quot;祝您旅途愉快&amp;quot;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;于是他就编了一套：&lt;strong&gt;&amp;ldquo;坐地铁2号线到南京东路站，出站走5分钟就到了。&amp;rdquo;&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;听起来是不是很合理？甚至具体到路线了。但实际上他根本没去过上海，不知道2号线到底到不到南京东路。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;AI就是这样——它用文字模式&amp;quot;编&amp;quot;了一个看起来对、实际上可能是错的答案。&lt;/strong&gt; 它不是故意骗你，它只是在用它的语言能力模拟一个合理的回答。&lt;/p&gt;
&lt;h2 id="二为什么ai会产生幻觉"&gt;二、为什么AI会产生幻觉？&lt;/h2&gt;
&lt;p&gt;幻觉不是BUG，它是AI工作方式的&lt;strong&gt;天然副产品&lt;/strong&gt;。主要原因有四个：&lt;/p&gt;
&lt;h3 id="原因一ai本质上是模式匹配器不是知识数据库"&gt;原因一：AI本质上是&amp;quot;模式匹配器&amp;quot;，不是&amp;quot;知识数据库&amp;quot;&lt;/h3&gt;
&lt;p&gt;很多人以为AI像一本百科全书——打开就知道答案。错了。AI更像一个&lt;strong&gt;即兴表演的脱口秀演员&lt;/strong&gt;，它没有剧本，没有数据库，它只是在根据你给的提示，现场编出一段最&amp;quot;像样&amp;quot;的回答。&lt;/p&gt;
&lt;p&gt;它学到的不是&amp;quot;事实&amp;quot;，而是&amp;quot;文字之间的统计关系&amp;quot;。它知道&amp;quot;爱因斯坦&amp;quot;后面经常跟&amp;quot;相对论&amp;quot;，但它不知道相对论到底是什么。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;数字最能说明问题&lt;/strong&gt;：GPT-4在训练时看过大约&lt;strong&gt;13万亿个Token&lt;/strong&gt;（约9万亿个词），它通过分析这些词之间的统计规律来&amp;quot;学会&amp;quot;说话。这就像一个外国人看了100万部中文电视剧后，能说一口流利的中文，但完全不知道自己在说什么。&lt;/p&gt;
&lt;h3 id="原因二训练数据的固有问题"&gt;原因二：训练数据的固有问题&lt;/h3&gt;
&lt;p&gt;AI的训练数据来自互联网——而互联网上的内容质量参差不齐。&lt;/p&gt;
&lt;p&gt;训练数据包含了：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;维基百科和学术论文（相对可靠）&lt;/li&gt;
&lt;li&gt;知乎回答和博客（半可靠）&lt;/li&gt;
&lt;li&gt;Reddit和贴吧讨论（不太可靠）&lt;/li&gt;
&lt;li&gt;各种营销号和谣言（完全不可靠）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;AI没有分辨能力，&lt;strong&gt;它觉得所有这些内容都值得学习&lt;/strong&gt;。所以当它被问到一些边缘话题时，它有可能会引用那些不可靠的来源。&lt;/p&gt;
&lt;p&gt;一个真实的案例：有人问AI&amp;quot;圣海伦火山最后一次喷发是什么时候&amp;quot;，AI回答&amp;quot;2023年3月&amp;quot;。实际上圣海伦火山最后一次喷发是2008年。AI为什么会答错？因为它可能在某个讨论帖里看到过&amp;quot;2023年&amp;quot;这个年份，就把它当成了事实。&lt;/p&gt;
&lt;h3 id="原因三ai有迎合倾向它不想让你失望"&gt;原因三：AI有&amp;quot;迎合倾向&amp;quot;——它不想让你失望&lt;/h3&gt;
&lt;p&gt;这是个很有意思的现象。研究表明，当问题&lt;strong&gt;暗示了某种答案&lt;/strong&gt;时，AI更倾向于顺着暗示回答。&lt;/p&gt;
&lt;p&gt;比如你问：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;中立问法&lt;/strong&gt;：&amp;ldquo;黑洞的边界叫什么？&amp;rdquo; → AI正确回答：&amp;ldquo;事件视界&amp;rdquo;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;诱导问法&lt;/strong&gt;：&amp;ldquo;黑洞的边界是不是叫光子层？&amp;rdquo; → AI可能回答：&amp;ldquo;是的，黑洞的边界也叫光子层&amp;rdquo;（❌ 错误）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;为什么？因为在训练数据里，&lt;strong&gt;顺着对话者的话说&lt;/strong&gt;通常是正确的对话方式。当你在日常聊天中这样接话，对方会觉得你善解人意。但在事实问答中，这种&amp;quot;讨好&amp;quot;就变成了灾难。&lt;/p&gt;
&lt;h3 id="原因四长尾知识ai在知识盲区里全靠编"&gt;原因四：长尾知识——AI在&amp;quot;知识盲区&amp;quot;里全靠编&lt;/h3&gt;
&lt;p&gt;AI对常见知识（&amp;ldquo;太阳从哪边升起&amp;rdquo;）掌握得很好——因为训练数据里出现了几百万次。但越冷门的知识，训练数据中出现次数越少，AI的准确率就越低。&lt;/p&gt;
&lt;p&gt;有种说法叫**&amp;ldquo;AI的知识衰减曲线&amp;rdquo;**：越常见的事实，AI越准；越冷门的信息，AI越容易出错。这个衰减是非线性的——有些非常冷门但训练数据中恰好有完整资料的话题，AI反而能答对；有些看似简单但训练数据有冲突信息的话题，AI反而容易错。&lt;/p&gt;
&lt;h2 id="三ai在哪些场景最容易胡说八道"&gt;三、AI在哪些场景最容易胡说八道？&lt;/h2&gt;
&lt;h3 id="场景1需要精确数字和引用"&gt;场景1：需要精确数字和引用&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;❌ &amp;ldquo;2024年诺贝尔物理学奖得主是谁？&amp;rdquo; → AI编了个名字&lt;/li&gt;
&lt;li&gt;✅ &amp;ldquo;什么是诺贝尔奖？&amp;rdquo; → 回答准确&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;为什么&lt;/strong&gt;：时效性信息变化快，AI的知识截止日期是训练时固定的。&lt;/p&gt;
&lt;h3 id="场景2小众冷门领域"&gt;场景2：小众冷门领域&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;❌ &amp;ldquo;请介绍一下艾米丽·王（化名）的量子计算理论&amp;rdquo; → AI可能编一个完整的&amp;quot;理论&amp;quot;出来&lt;/li&gt;
&lt;li&gt;✅ &amp;ldquo;请介绍一下量子计算的Shor算法&amp;rdquo; → 正确&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;为什么&lt;/strong&gt;：AI分不清&amp;quot;有没有这个人&amp;quot;，它只知道&amp;quot;这个名字在数据中出现的频率够不够高&amp;quot;。&lt;/p&gt;</description></item><item><title>上下文窗口是啥？为什么聊着聊着它就忘了之前说的话</title><link>https://xms-solo.site/posts/ai-pop-science-11/</link><pubDate>Thu, 07 May 2026 08:30:00 +0800</pubDate><guid>https://xms-solo.site/posts/ai-pop-science-11/</guid><description>&lt;p&gt;你有没有遇到过这种情况——&lt;/p&gt;
&lt;p&gt;跟ChatGPT聊了半小时，它在后半段突然忘了你10分钟前交代过的事。你跟DeepSeek说&amp;quot;刚才我提到的那个项目&amp;quot;，它一脸茫然。&lt;/p&gt;
&lt;p&gt;不是你记错了，也不是AI&amp;quot;故意的&amp;quot;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;问题出在一个叫&amp;quot;上下文窗口&amp;quot;的东西上。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="什么是上下文窗口"&gt;什么是上下文窗口？&lt;/h2&gt;
&lt;p&gt;想象你面前有一张白纸。&lt;/p&gt;
&lt;p&gt;你跟AI的每一次对话，AI都会把你说的话和它的回复，一行一行写在这张纸上。当你问下一个问题时，它会回头看看这张纸上写了什么，然后给出回答。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;这张纸的大小，就是&amp;quot;上下文窗口&amp;quot;。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;更准确地说：上下文窗口（Context Window）是AI一次能&amp;quot;看到&amp;quot;的文本总量。它的单位不是字数，而是Token。&lt;/p&gt;
&lt;p&gt;不同模型的上下文窗口大小不一样：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;模型&lt;/th&gt;
 &lt;th&gt;上下文窗口大小（Token）&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;GPT-4o&lt;/td&gt;
 &lt;td&gt;128K&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Claude 3.5 Sonnet&lt;/td&gt;
 &lt;td&gt;200K&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Gemini 1.5 Pro&lt;/td&gt;
 &lt;td&gt;1M（100万）&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;DeepSeek-V2&lt;/td&gt;
 &lt;td&gt;128K&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Llama 3.1&lt;/td&gt;
 &lt;td&gt;128K&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;通义千问&lt;/td&gt;
 &lt;td&gt;131K&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;也就是说，一张&amp;quot;纸&amp;quot;最大能写多少字，取决于模型本身的设计。&lt;/p&gt;
&lt;h2 id="纸写满了怎么办"&gt;纸写满了怎么办？&lt;/h2&gt;
&lt;p&gt;这就是问题的核心。&lt;/p&gt;
&lt;p&gt;假设你正在跟AI做一个大型咨询项目——&lt;/p&gt;
&lt;p&gt;第一阶段你给了它5页的背景材料（10,000 Token）。
第二阶段你讨论了3种方案（8,000 Token）。
第三阶段你做了详细的对比分析（12,000 Token）。
第四阶段你们敲定了执行细节（10,000 Token）。&lt;/p&gt;
&lt;p&gt;四轮下来，总共已经用了40,000 Token。如果上下文窗口是128K，那还好，还剩不少。&lt;/p&gt;
&lt;p&gt;但如果你持续聊下去，上下文里塞进了你问的问题、AI的回答、你上传的文件全文……&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;当总Token数超过上下文窗口的最大值时，AI的&amp;quot;白纸&amp;quot;装不下了。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;这时会发生两种情况：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;显式截断&lt;/strong&gt;：最早的对话内容被直接砍掉。AI再也看不到你们开头讨论的背景材料。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;模糊滚动&lt;/strong&gt;：模型有内部的&amp;quot;注意力&amp;quot;机制，当上下文太长时，它虽然能看到所有内容，但&amp;quot;注意力&amp;quot;被稀释，早期的细节被淹没在大量文本中。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;无论哪种情况——&lt;strong&gt;AI就开始&amp;quot;失忆&amp;quot;了。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="128k到底能聊多久"&gt;128K到底能聊多久？&lt;/h2&gt;
&lt;p&gt;128,000个Token听起来很多，对吧？&lt;/p&gt;
&lt;p&gt;来算笔账：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;1个汉字 ≈ 1.5个Token（中文模型）或 1个Token ≈ 1.5个字&lt;/li&gt;
&lt;li&gt;1个英文词 ≈ 1.3个Token&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;128K Token约等于：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;19万字&lt;/strong&gt;（按1 Token=1.5个字算）&lt;/li&gt;
&lt;li&gt;相当于一本《三体》三分之二的量&lt;/li&gt;
&lt;li&gt;或者你连续跟AI对话至少2-3小时&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;但别忘了——&lt;strong&gt;你上传的文件也要占空间。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;一份20页的PDF ≈ 15,000 Token
一篇5000字的技术文档 ≈ 3,500 Token
一份代码库（10个文件，每文件200行）≈ 10,000 Token&lt;/p&gt;</description></item><item><title>API和ChatGPT网页版有啥区别？</title><link>https://xms-solo.site/posts/ai-pop-science-10/</link><pubDate>Wed, 06 May 2026 08:30:00 +0800</pubDate><guid>https://xms-solo.site/posts/ai-pop-science-10/</guid><description>&lt;p&gt;你打开ChatGPT，在对话框里打字，AI回答你。这是&lt;strong&gt;网页版&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;你是程序员，写了一段代码让AI自动回答用户的问题，跑在自己的应用里。这是&lt;strong&gt;API&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;其实都是同一个模型（比如GPT-4o），但这两者的体验、价格、能力范围完全不一样。&lt;/p&gt;
&lt;p&gt;今天就把这件事彻底讲清楚。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="先搞清楚网页版-vs-api-的本质区别"&gt;先搞清楚：网页版 vs API 的本质区别&lt;/h2&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;维度&lt;/th&gt;
 &lt;th&gt;ChatGPT网页版&lt;/th&gt;
 &lt;th&gt;API&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;谁在用&lt;/td&gt;
 &lt;td&gt;你，手动打字&lt;/td&gt;
 &lt;td&gt;开发者/应用，代码调用&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;怎么收费&lt;/td&gt;
 &lt;td&gt;月费 $20 畅用&lt;/td&gt;
 &lt;td&gt;按Token计费，用多少付多少&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;谁控制的&lt;/td&gt;
 &lt;td&gt;OpenAI&lt;/td&gt;
 &lt;td&gt;你（通过代码）&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;有什么&lt;/td&gt;
 &lt;td&gt;GPT-4o + 联网 + DALL-E + 语音&lt;/td&gt;
 &lt;td&gt;纯模型，其他功能自己搭&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;灵活性&lt;/td&gt;
 &lt;td&gt;固定界面，功能写好给你用&lt;/td&gt;
 &lt;td&gt;完全自由，想怎么用怎么用&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;一句话：网页版是&amp;quot;买套餐&amp;quot;，API是&amp;quot;单点单&amp;quot;。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="网页版的优势开箱即用便宜大碗"&gt;网页版的优势：开箱即用，便宜大碗&lt;/h2&gt;
&lt;h3 id="20美元月费到底划不划算"&gt;20美元月费，到底划不划算？&lt;/h3&gt;
&lt;p&gt;很多人觉得$20一个月（约¥145）挺贵。但你算一笔账：&lt;/p&gt;
&lt;p&gt;如果你用API跑同样的量：&lt;/p&gt;
&lt;p&gt;一个普通用户每天和GPT聊50轮，每轮平均消耗500个输入Token + 500个输出Token：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;每天：50 × (500 + 500) / 1,000,000 × ($2.5 + $10) = 50 × 0.001 × $12.5 = &lt;strong&gt;$0.625/天&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;一个月30天：&lt;strong&gt;$18.75&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;$18.75 vs $20——&lt;strong&gt;网页版甚至比API还便宜一点点。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;而且网页版还附带了：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;DALL-E绘图&lt;/strong&gt;（自己用API叫DALL-E，一张图$0.04起）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;GPTs（自定义版本）&lt;/strong&gt;（随时切换不同的预设）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;语音对话&lt;/strong&gt;（高级语音模式自己搭API几乎不可能）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;联网搜索&lt;/strong&gt;（API需要额外写代码）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;文件上传分析&lt;/strong&gt;（API要自己处理文件解析）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以对于&lt;strong&gt;普通用户日常使用&lt;/strong&gt;，网页版的性价比其实非常好。$20月费有业界最强的综合体验。&lt;/p&gt;</description></item><item><title>一次对话消耗多少token？帮你算笔账</title><link>https://xms-solo.site/posts/ai-pop-science-08/</link><pubDate>Wed, 06 May 2026 08:30:00 +0800</pubDate><guid>https://xms-solo.site/posts/ai-pop-science-08/</guid><description>&lt;p&gt;你有没有这种感觉：每次用AI，心里总隐隐担心——这次聊天用了多少钱？&lt;/p&gt;
&lt;p&gt;API用户最敏感这个。网页版用户虽然看不到数字，但你付的那20美元月费，也是按这个逻辑算出来的。&lt;/p&gt;
&lt;p&gt;今天我们就来&lt;strong&gt;实打实算一笔账&lt;/strong&gt;。把日常五个场景的Token消耗全拆开给你看。&lt;/p&gt;
&lt;p&gt;不过先打个预防针：很多人以为AI用起来很便宜，是因为他们只算了&amp;quot;第一轮&amp;quot;的钱。真正的大头在后面——&lt;strong&gt;多轮对话的历史累积&lt;/strong&gt;，才是让账单翻倍的隐形杀手。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="先打底一个token到底多长"&gt;先打底：一个Token到底多长？&lt;/h2&gt;
&lt;p&gt;在算钱之前，得先统一一个概念。&lt;/p&gt;
&lt;p&gt;不同模型的中文编码效率不太一样，但一般认为：&lt;strong&gt;1个Token ≈ 1.5-2个中文汉字。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;什么意思？你写&amp;quot;今天天气不错&amp;quot;，这句话6个字，在不同模型里大约切成3-4个Token（&amp;ldquo;今天&amp;rdquo;+&amp;ldquo;天气&amp;rdquo;+&amp;ldquo;不错&amp;quot;或&amp;quot;今天天气&amp;rdquo;+&amp;ldquo;不错&amp;rdquo;）。而&amp;quot;Hello, world!&amp;ldquo;大约3个Token。&lt;/p&gt;
&lt;p&gt;用大白话说：&lt;strong&gt;1000个Token ≈ 1500-2000个汉字&lt;/strong&gt;，差不多是一条微博长文的长度。&lt;/p&gt;
&lt;p&gt;那一个大模型能处理多少Token？&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;模型&lt;/th&gt;
 &lt;th&gt;上下文窗口&lt;/th&gt;
 &lt;th&gt;相当于多少字&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;GPT-4o&lt;/td&gt;
 &lt;td&gt;128K&lt;/td&gt;
 &lt;td&gt;约9.6万字&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Claude 3.5 Sonnet&lt;/td&gt;
 &lt;td&gt;200K&lt;/td&gt;
 &lt;td&gt;约15万字&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;DeepSeek-V2&lt;/td&gt;
 &lt;td&gt;128K&lt;/td&gt;
 &lt;td&gt;约9.6万字&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Gemini 1.5 Pro&lt;/td&gt;
 &lt;td&gt;1M（100万）&lt;/td&gt;
 &lt;td&gt;约75万字&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;你看，&lt;strong&gt;Claude一次能塞进半本《三体》&lt;/strong&gt;。但塞得多不等于花的钱少——Token消耗和Token价格才是真金白银。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="场景一日常聊天一句话问答"&gt;场景一：日常聊天（一句话问答）&lt;/h2&gt;
&lt;p&gt;这是最简单的场景。假设你新开一个对话：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;你的输入：&lt;/strong&gt; &amp;ldquo;今天北京天气怎么样？&amp;quot;（约15个Token）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;AI回复：&lt;/strong&gt; 一段300字的回答（约400个Token）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;单次消耗：&lt;/strong&gt; 输入15 + 输出400 = &lt;strong&gt;约415 Token&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;单看一次，确实便宜。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;但你如果&lt;strong&gt;在一段对话框里连续聊100句&lt;/strong&gt;呢？我们来算算第100句的真实消耗：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;轮次&lt;/th&gt;
 &lt;th&gt;输入（历史累积）&lt;/th&gt;
 &lt;th&gt;输出&lt;/th&gt;
 &lt;th&gt;本轮消耗&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;第1轮&lt;/td&gt;
 &lt;td&gt;15&lt;/td&gt;
 &lt;td&gt;400&lt;/td&gt;
 &lt;td&gt;415&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;第10轮&lt;/td&gt;
 &lt;td&gt;前9轮历史(≈3,735) + 当前输入(15) = 3,750&lt;/td&gt;
 &lt;td&gt;400&lt;/td&gt;
 &lt;td&gt;4,150&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;第50轮&lt;/td&gt;
 &lt;td&gt;前49轮历史(≈20,335) + 当前输入(15) = 20,350&lt;/td&gt;
 &lt;td&gt;400&lt;/td&gt;
 &lt;td&gt;20,750&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;第100轮&lt;/td&gt;
 &lt;td&gt;前99轮历史(≈41,085) + 当前输入(15) = 41,100&lt;/td&gt;
 &lt;td&gt;400&lt;/td&gt;
 &lt;td&gt;41,500&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;总消耗：不是100×415=41,500，而是约127,855 Token。&lt;/strong&gt;&lt;/p&gt;</description></item><item><title>Token怎么收费的？各家模型价格大PK</title><link>https://xms-solo.site/posts/ai-pop-science-07/</link><pubDate>Tue, 05 May 2026 08:30:00 +0800</pubDate><guid>https://xms-solo.site/posts/ai-pop-science-07/</guid><description>&lt;p&gt;上一期我们聊了Token是什么——就是AI数&amp;quot;字&amp;quot;算钱的单位。那问题来了：&lt;strong&gt;这一个Token到底值多少钱？各家模型的价格差距有多大？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;我直接说答案吧：&lt;strong&gt;最便宜的模型和贵的之间，价格差了快100倍&lt;/strong&gt;。用错了，一个月多花几千块都有可能。&lt;/p&gt;
&lt;h2 id="一先看一个最直接的对比"&gt;一、先看一个最直接的对比&lt;/h2&gt;
&lt;p&gt;先上硬数据。以下是我在写这篇文章时（2026年5月）各主流模型的&lt;strong&gt;输入价格&lt;/strong&gt;（每百万Token，美元）：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;模型&lt;/th&gt;
 &lt;th&gt;输入价格&lt;/th&gt;
 &lt;th&gt;输出价格&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;GPT-4o&lt;/td&gt;
 &lt;td&gt;$2.50&lt;/td&gt;
 &lt;td&gt;$10.00&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Claude 3.5 Sonnet&lt;/td&gt;
 &lt;td&gt;$3.00&lt;/td&gt;
 &lt;td&gt;$15.00&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Claude 3 Haiku&lt;/td&gt;
 &lt;td&gt;$0.25&lt;/td&gt;
 &lt;td&gt;$1.25&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Gemini 1.5 Pro&lt;/td&gt;
 &lt;td&gt;$1.25-$3.50&lt;/td&gt;
 &lt;td&gt;$5.00-$10.50&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Gemini 1.5 Flash&lt;/td&gt;
 &lt;td&gt;$0.075&lt;/td&gt;
 &lt;td&gt;$0.30&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;DeepSeek-V3&lt;/td&gt;
 &lt;td&gt;$0.27&lt;/td&gt;
 &lt;td&gt;$1.10&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;DeepSeek-R1&lt;/td&gt;
 &lt;td&gt;$0.55&lt;/td&gt;
 &lt;td&gt;$2.19&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;通义千问-Max&lt;/td&gt;
 &lt;td&gt;~$0.60&lt;/td&gt;
 &lt;td&gt;~$2.40&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Llama 3 (自部署)&lt;/td&gt;
 &lt;td&gt;~$0.10 (算力成本)&lt;/td&gt;
 &lt;td&gt;~$0.40&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;看出什么规律了吗？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;输出价格通常是输入价格的3-5倍。为什么？因为让AI&amp;quot;想&amp;quot;出答案比让它&amp;quot;读&amp;quot;你的问题要费劲得多——输出的每个Token都是实时计算出来的。&lt;/p&gt;
&lt;h2 id="二这些数字到底意味着什么"&gt;二、这些数字到底意味着什么？&lt;/h2&gt;
&lt;p&gt;百万Token听起来很大，但换算成日常使用就直观了：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;1个Token ≈ 0.75个汉字&lt;/strong&gt;（中文效率高，因为AI会把常见中文词打包成一个Token）。&lt;/p&gt;
&lt;p&gt;所以&lt;strong&gt;100万个Token ≈ 75万个汉字 ≈ 三本《三体》&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;这么一算：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;用&lt;strong&gt;GPT-4o&lt;/strong&gt;读完三本书的输入量：&lt;strong&gt;$2.50&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;用&lt;strong&gt;Claude Haiku&lt;/strong&gt;：&lt;strong&gt;$0.25&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;用&lt;strong&gt;DeepSeek-V3&lt;/strong&gt;：&lt;strong&gt;$0.27&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;读的成本其实没你想的那么高。&lt;strong&gt;大头在让AI写。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="三用一个真实场景算账"&gt;三、用一个真实场景算账&lt;/h2&gt;
&lt;p&gt;假设你每天的工作场景是这样的：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;每轮对话&lt;/strong&gt;：问题100字 + AI回答800字&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;每天&lt;/strong&gt;：20轮对话&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;一个月&lt;/strong&gt;：22个工作日&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;算一下：&lt;/p&gt;</description></item><item><title>Token到底是什么？——AI数"字"算钱的</title><link>https://xms-solo.site/posts/ai-pop-science-06/</link><pubDate>Tue, 05 May 2026 08:30:00 +0800</pubDate><guid>https://xms-solo.site/posts/ai-pop-science-06/</guid><description>&lt;p&gt;你有没有想过一个问题：当你让AI写一篇文章的时候，它到底按什么来算钱？&lt;/p&gt;
&lt;p&gt;不是按字数，不是按时间，而是按一个叫 &lt;strong&gt;Token&lt;/strong&gt; 的东西。&lt;/p&gt;
&lt;p&gt;打开任何一个AI平台的API定价页面，你看到的价格都是&amp;quot;每百万Token XX美元&amp;quot;。但你翻遍整页说明，可能都找不到一个简单的问题——&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Token到底是什么？&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="一最直观的理解token就是ai的文字积木"&gt;一、最直观的理解：Token就是AI的&amp;quot;文字积木&amp;quot;&lt;/h2&gt;
&lt;p&gt;先放下所有技术概念，用一个最直接的类比。&lt;/p&gt;
&lt;p&gt;你小时候玩过积木吧？一堆积木可以拼成房子、车子、城堡。&lt;/p&gt;
&lt;p&gt;Token就是AI世界里的&amp;quot;积木&amp;quot;。计算机不认识&amp;quot;字&amp;quot;，它只认识数字。所以AI需要一种方式，把你看得懂的&amp;quot;中文&amp;quot;翻译成它算得懂的&amp;quot;数字&amp;quot;。&lt;/p&gt;
&lt;p&gt;这个翻译过程分两步：&lt;/p&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;你说的话 → 拆成Token（积木块） → 每个Token编上号（变成数字）
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;比如你说&amp;quot;今天天气真不错&amp;quot;，AI可能把它拆成这样：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;原始文本&lt;/th&gt;
 &lt;th&gt;Token拆分&lt;/th&gt;
 &lt;th&gt;编号&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;今天天气真不错&lt;/td&gt;
 &lt;td&gt;&amp;ldquo;今天&amp;rdquo; + &amp;ldquo;天气&amp;rdquo; + &amp;ldquo;真&amp;rdquo; + &amp;ldquo;不错&amp;rdquo;&lt;/td&gt;
 &lt;td&gt;[4678, 8921, 321, 15023]&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;你看，一句话变成了4个Token，每个Token对应一个数字ID。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Token不是字，也不是词&lt;/strong&gt;，它是AI自定义的一种&amp;quot;中间单位&amp;quot;——可能是一个完整的词，可能是半个词，也可能是单个字符，取决于分词器怎么切。&lt;/p&gt;
&lt;h2 id="二一个token到底多长"&gt;二、一个Token到底多长？&lt;/h2&gt;
&lt;p&gt;这是所有人最关心的问题。直接给答案：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;语言&lt;/th&gt;
 &lt;th&gt;1个Token ≈&lt;/th&gt;
 &lt;th&gt;例子&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;中文&lt;/td&gt;
 &lt;td&gt;1.5-2个汉字&lt;/td&gt;
 &lt;td&gt;&amp;ldquo;今天天气&amp;rdquo; ≈ 2个Token&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;英文&lt;/td&gt;
 &lt;td&gt;0.7-0.8个单词&lt;/td&gt;
 &lt;td&gt;&amp;ldquo;Hello world&amp;rdquo; ≈ 2个Token&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;代码&lt;/td&gt;
 &lt;td&gt;1-2个字符&lt;/td&gt;
 &lt;td&gt;&amp;ldquo;if(x&amp;gt;0)&amp;rdquo; ≈ 5-6个Token&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;所以换算关系很好记：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;1000个Token ≈ 750个汉字 ≈ 一条长微博&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;100万个Token ≈ 75万个汉字 ≈ 三本《三体》&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;但这不是固定的。&lt;/strong&gt; 不同模型的分词器（Tokenizer）不一样，同样的文本在不同模型里Token数也不一样。&lt;/p&gt;
&lt;p&gt;DeepSeek专门针对中文做了优化——同样一篇文章，它切出来的Token数可能比GPT-4o少20%。这就直接意味着便宜20%。&lt;/p&gt;</description></item><item><title>本周AI科普小知识汇总——一张图回顾第一周的核心概念</title><link>https://xms-solo.site/posts/ai-pop-science-05/</link><pubDate>Mon, 04 May 2026 08:30:00 +0800</pubDate><guid>https://xms-solo.site/posts/ai-pop-science-05/</guid><description>&lt;p&gt;第一周过去了。从大模型的本质聊到GPU的算力战争，从AI怎么学会说话的聊到开源闭源的路线之争——五个核心概念，你大概已经装了满满一脑子。&lt;/p&gt;
&lt;p&gt;但信息太多也容易乱。这篇汇总不写新东西，只帮你把过去四天学到的内容&lt;strong&gt;串起来&lt;/strong&gt;，画一张完整的知识地图。&lt;/p&gt;
&lt;h2 id="四篇文章讲了什么一句话概括"&gt;四篇文章讲了什么？——一句话概括&lt;/h2&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;篇目&lt;/th&gt;
 &lt;th&gt;核心问题&lt;/th&gt;
 &lt;th&gt;一句话答案&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;第1篇：大模型是个啥&lt;/td&gt;
 &lt;td&gt;大模型到底是怎么工作的？&lt;/td&gt;
 &lt;td&gt;一个超级接龙游戏——根据上文猜最合理的下文，每猜一次都是几十亿次数学运算。&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;第2篇：AI怎么学会说话的&lt;/td&gt;
 &lt;td&gt;AI是天生就会说话吗？&lt;/td&gt;
 &lt;td&gt;三步走：预训练（海量自学）→ 监督微调（看范文）→ RLHF（被几万次点赞点踩调教）。&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;第3篇：开源与闭源&lt;/td&gt;
 &lt;td&gt;Llama免费给用，GPT为啥收费？&lt;/td&gt;
 &lt;td&gt;开源你拿到权重自己玩，闭源你只能通过API租用。各有各的适用场景。&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;第4篇：GPU在算什么&lt;/td&gt;
 &lt;td&gt;为什么训练AI必须用显卡？&lt;/td&gt;
 &lt;td&gt;因为AI训练的本质是超大规模矩阵乘法，GPU就是专门为这种运算设计的。&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;这几个概念不是孤立的。它们之间有一条清晰的逻辑链，我帮你理一理。&lt;/p&gt;
&lt;h2 id="逻辑线从本质到载体到训练到分发"&gt;逻辑线：从本质到载体到训练到分发&lt;/h2&gt;
&lt;h3 id="-大模型是怎么工作的第1篇"&gt;① 大模型是怎么工作的？（第1篇）&lt;/h3&gt;
&lt;p&gt;这是最底层的问题。大模型不是&amp;quot;思考机器&amp;quot;，而是一个&lt;strong&gt;概率生成器&lt;/strong&gt;——你给它一段上文，它算出一段下文。算法是Transformer，核心操作是注意力机制。&lt;/p&gt;
&lt;p&gt;这决定了它的所有特性：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;因为它靠概率猜词 → 所以它有时候会&amp;quot;胡说八道&amp;quot;（猜错了）&lt;/li&gt;
&lt;li&gt;因为它&amp;quot;读过&amp;quot;全网数据 → 所以它什么话题都能聊一点&lt;/li&gt;
&lt;li&gt;因为它只是接龙 → 所以它没有真正的理解能力&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;这是理解后续所有概念的基础。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="-但光有算法不够怎么让它变强第2篇"&gt;② 但光有算法不够，怎么让它变&amp;quot;强&amp;quot;？（第2篇）&lt;/h3&gt;
&lt;p&gt;算法决定了&amp;quot;怎么算&amp;quot;，但决定&amp;quot;算得好不好&amp;quot;的是&lt;strong&gt;训练&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;训练的本质是：拿海量数据，让AI一遍遍猜词，猜错了就调整内部参数（几百亿个浮点数），直到猜对为止。&lt;/p&gt;
&lt;p&gt;这个过程需要什么？&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;数据&lt;/strong&gt;：整个互联网的文本&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;算力&lt;/strong&gt;：几千张GPU跑几个月&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;钱&lt;/strong&gt;：几千万到几亿美元&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这引出了两个问题：谁来提供算力？谁来承担成本？&lt;/p&gt;
&lt;h3 id="-gpu就是提供算力的发动机第4篇"&gt;③ GPU就是提供算力的&amp;quot;发动机&amp;quot;（第4篇）&lt;/h3&gt;
&lt;p&gt;第2篇说的&amp;quot;几千张GPU跑几个月&amp;quot;不是随便说说的。GPU之所以成为AI时代的核心硬件，是因为：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;AI计算的本质 = 矩阵乘法 = 大量简单重复运算 = GPU的天然强项&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;CPU像博士生，什么复杂的活都能干；GPU像一万个小学生，只会做加法乘法，但数量多到能碾压博士生。一块H100的浮点运算能力是顶级CPU的&lt;strong&gt;1000倍&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;这引出了另一个现实问题：GPU贵、缺货。谁负担得起几万张H100的费用？&lt;/p&gt;
&lt;h3 id="-开源-vs-闭源谁来提供ai服务第3篇"&gt;④ 开源 vs 闭源：谁来提供&amp;quot;AI服务&amp;quot;？（第3篇）&lt;/h3&gt;
&lt;p&gt;算力和训练成本太高，不是谁都能玩的。于是市场上分化出两种模式：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;闭源（OpenAI、Anthropic、Google）&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;自己承担全部训练成本&lt;/li&gt;
&lt;li&gt;通过API按Token收费回本&lt;/li&gt;
&lt;li&gt;用户只需要发请求、收结果，不需要买GPU&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;开源（Meta、DeepSeek、阿里Qwen）&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;训练成本自己承担或由母公司补贴&lt;/li&gt;
&lt;li&gt;权重文件公开，谁都可以下载&lt;/li&gt;
&lt;li&gt;用户自己部署，数据不出门，长期成本低&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这两条路线在过去两年里激烈竞争，结果是你——作为用户——同时享受到了两者带来的好处：闭源持续提升能力天花板，开源压低整体价格。&lt;/p&gt;</description></item><item><title>GPU到底在算什么？——为什么它是AI时代的"新石油"</title><link>https://xms-solo.site/posts/ai-pop-science-04/</link><pubDate>Sun, 03 May 2026 08:30:00 +0800</pubDate><guid>https://xms-solo.site/posts/ai-pop-science-04/</guid><description>&lt;p&gt;你有没有想过一个问题：AI这么红火，为什么最受益的公司不是做AI的OpenAI，也不是做操作系统的微软，而是一家做&lt;strong&gt;显卡&lt;/strong&gt;的公司——NVIDIA？&lt;/p&gt;
&lt;p&gt;2024年，NVIDIA市值一度突破3万亿美元，超过英特尔和AMD的总和再翻几倍。黄仁勋穿着皮夹克到处走，比很多摇滚明星还出名。&lt;/p&gt;
&lt;p&gt;它的H100显卡，一块卖3万多美元（大概20多万人民币），全球的大公司们抢破了头——交钱后要等6个月甚至更久才能拿到货。马斯克为了买显卡，据说亲自给NVIDIA打了无数个电话。OpenAI、Google、Meta、微软……全在疯狂囤货。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;训练AI，为什么非要用显卡？用我家电脑的CPU不行吗？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;这个问题看似基础，但它的答案揭示了整个AI行业最底层的逻辑——&lt;strong&gt;算力&lt;/strong&gt;。理解GPU为什么重要，你就理解了为什么AI的命脉掌握在一家显卡公司手里。&lt;/p&gt;
&lt;h2 id="cpu和gpu一个像博士生一个像一万个小学生"&gt;CPU和GPU：一个像博士生，一个像一万个小学生&lt;/h2&gt;
&lt;p&gt;CPU（中央处理器）和GPU（图形处理器）最本质的区别，一句话就说清了：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;CPU擅长处理复杂的单线任务，GPU擅长处理大量的小任务。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;用个具体的比喻：&lt;/p&gt;
&lt;p&gt;CPU就像你的私人管家——什么都会，做饭、开车、记账、谈判……样样都行，但他只有一个人，一次只能做一件事。&lt;/p&gt;
&lt;p&gt;GPU就像一支建筑队——每个人只会搬砖、砌墙、和水泥这三种活，但它们有一万人。让它去干谈判这种复杂活肯定不行，但让它搬一万块砖？十分钟搞定。&lt;/p&gt;
&lt;p&gt;这个比喻背后，是硬件设计的差异：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;&lt;/th&gt;
 &lt;th&gt;CPU&lt;/th&gt;
 &lt;th&gt;GPU&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;核心数&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;16-64个（高性能消费级）&lt;/td&gt;
 &lt;td&gt;几千到几万个&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;单个核心复杂度&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;极高，有复杂的逻辑控制单元和缓存&lt;/td&gt;
 &lt;td&gt;极低，只能做最简单的数学运算&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;擅长&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;多类型任务、复杂逻辑、顺序执行&lt;/td&gt;
 &lt;td&gt;大量简单运算并行执行&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;典型功耗&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;65-200W&lt;/td&gt;
 &lt;td&gt;300-700W&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;价格&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;几百到几千元&lt;/td&gt;
 &lt;td&gt;几万到几十万元&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;CPU的一个核心，像一个全能博士——有巨大的缓存（相当于办公桌）、复杂的分支预测器（能预判接下来要做什么）、强大的指令集（能做各种算法）。它可以在极其复杂的操作系统里游刃有余，同时运行浏览器、Word、PDF阅读器，还能保证所有程序不互相干扰。&lt;/p&gt;
&lt;p&gt;GPU的一个核心，像一个只会算1+1的小学生——没有缓存也不需要，拿到两个数字就加，加完就拿下一组。别指望它处理复杂的逻辑判断，它干不了。但它有几千个同伴，每个都在同时做加法。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;问题是：AI训练到底需要博士生，还是需要一万个小学生？&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="ai训练本质上就是矩阵乘法"&gt;AI训练：本质上就是矩阵乘法&lt;/h2&gt;
&lt;p&gt;训练大模型，核心的计算不是&amp;quot;思考&amp;quot;，而是&lt;strong&gt;算矩阵&lt;/strong&gt;。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;矩阵是什么？就是一张数字的表格。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;在之前的第一篇文章里，我们讲到：文本被拆成Token，每个Token变成一个向量（几百维的数字列表）。多句话合在一起，就形成了一个矩阵——几十行（对应每个Token），几百列（对应每个维度）。&lt;/p&gt;
&lt;p&gt;AI训练过程中的每一步，都在对这张表做同样的操作：&lt;strong&gt;取两个矩阵，把它们乘起来，得到一个新矩阵。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;比如计算注意力分数的时候：&lt;/p&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;Query矩阵 × Key矩阵的转置 = 注意力分数矩阵
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;这个步骤在全模型中要重复&lt;strong&gt;几千亿次&lt;/strong&gt;。&lt;/p&gt;
&lt;h3 id="一个更具体的例子"&gt;一个更具体的例子&lt;/h3&gt;
&lt;p&gt;假设有一个很小的注意力计算：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Query矩阵大小：4行 × 12288列&lt;/li&gt;
&lt;li&gt;Key矩阵大小：4行 × 12288列（转置后变成12288行 × 4列）&lt;/li&gt;
&lt;li&gt;做矩阵乘法：4×12288 × 12288×4 = 得到一个4×4的矩阵&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这个操作涉及多少次乘法？4 × 12288 × 4 = &lt;strong&gt;196,608次乘法&lt;/strong&gt;。然后还要做加法和Softmax。&lt;/p&gt;
&lt;p&gt;这只是&lt;strong&gt;一次&lt;/strong&gt;注意力计算，在一层Transformer中的&lt;strong&gt;一个注意力头&lt;/strong&gt;里。而GPT-4有120多层，每层有96个注意力头，每次推理要生成几百个Token……&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;整个训练过程，矩阵乘法要被执行大约10²¹次（1000亿亿次）。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;这就是AI训练的本质：&lt;strong&gt;不是&amp;quot;思考&amp;quot;，而是进行超大规模的、极其重复的数学运算。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;现在你明白了吗？这个任务完美适合GPU的工作方式：&lt;/p&gt;</description></item><item><title>开源和闭源模型有啥区别？——自制奶茶 vs 买喜茶</title><link>https://xms-solo.site/posts/ai-pop-science-03/</link><pubDate>Sat, 02 May 2026 08:30:00 +0800</pubDate><guid>https://xms-solo.site/posts/ai-pop-science-03/</guid><description>&lt;p&gt;市面上那么多大模型，有的免费给你随便用，有的按字数收钱还死贵。同样是AI，为什么差别这么大？&lt;/p&gt;
&lt;p&gt;核心就两个字：&lt;strong&gt;开源&lt;/strong&gt;和&lt;strong&gt;闭源&lt;/strong&gt;。&lt;/p&gt;
&lt;h2 id="开源模型是什么"&gt;开源模型是什么？&lt;/h2&gt;
&lt;p&gt;开源模型，简单说就是&lt;strong&gt;模型权重文件公开可下载&lt;/strong&gt;，你想怎么用就怎么用。要理解这句话的分量，得先搞清楚&lt;strong&gt;模型权重到底是什么&lt;/strong&gt;。&lt;/p&gt;
&lt;h3 id="先说模型权重"&gt;先说模型权重&lt;/h3&gt;
&lt;p&gt;大模型的本质是一个巨大的数学函数。这个函数有几百亿甚至上千亿个参数，每个参数就是一个浮点数（比如 0.37461987 或 -1.28375729）。这些参数合起来，就是这个模型学到的全部&amp;quot;知识&amp;quot;和&amp;quot;能力&amp;quot;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;训练一个模型，本质上就是在不断调整这几百亿个浮点数的值&lt;/strong&gt;，让它们组合起来能够更准确地预测下一个词是什么。&lt;/p&gt;
&lt;p&gt;训练完成后，这堆浮点数被保存成文件——这个文件就是&lt;strong&gt;权重文件&lt;/strong&gt;。在 Llama 3.1 405B 的案例中，这个文件有 800 多 GB，包含 4050 亿个浮点数。&lt;/p&gt;
&lt;p&gt;权重文件之于大模型，就像大脑突触连接之于人的智力。没有权重文件，模型就是一个空壳架子；有了权重文件，模型才真正具备能力。&lt;/p&gt;
&lt;h3 id="开源的真正价值"&gt;开源的真正价值&lt;/h3&gt;
&lt;p&gt;Meta 开源 Llama 时，做的不是&amp;quot;公布代码&amp;quot;或&amp;quot;发篇论文&amp;quot;，而是&lt;strong&gt;直接把这 800GB 的权重文件挂到了网上&lt;/strong&gt;。任何人都可以下载、在自己的机器上运行、基于它做二次开发。&lt;/p&gt;
&lt;p&gt;这在以前是不可想象的。GPT-4 的权重是 OpenAI 的核心资产，比可口可乐的配方还保密。你永远看不到它内部参数的数值，只能通过 API 发请求、收结果——中间完全是个黑盒。&lt;/p&gt;
&lt;p&gt;类比一下：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;闭源就像你去喜茶柜台：&lt;/strong&gt; 你说&amp;quot;来杯芝芝莓莓&amp;quot;，店员递给你一杯成品，你喝到是什么就是什么。你不知道茶底怎么泡的、奶盖用了什么配方、糖浆的比例是多少。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;开源就像喜茶公布了完整配方：&lt;/strong&gt; 草莓用什么品种、茶底泡多久、奶盖的奶油和芝士比例是 7:3、糖度怎么调——全部公开。你可以在家按步骤复刻，也可以根据自己的口味调整配方，甚至可以开一家自己的奶茶店。&lt;/p&gt;
&lt;p&gt;2023年2月，Meta 发布 Llama 2，就是这么一记重锤。消息一出，整个 AI 圈炸了。&lt;/p&gt;
&lt;p&gt;代表选手：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Llama系列&lt;/strong&gt;（Meta）——开源模型的标杆&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;DeepSeek&lt;/strong&gt;（深度求索）——中国开源模型的骄傲，数学推理能力惊人&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Qwen&lt;/strong&gt;（阿里千问）——中文开源模型的实力派&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Mistral&lt;/strong&gt;（法国团队）——小模型大能力，7B参数量打平13B&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="闭源模型是什么"&gt;闭源模型是什么？&lt;/h2&gt;
&lt;p&gt;闭源模型正好相反——&lt;strong&gt;权重不公开，只能通过API调用&lt;/strong&gt;。你永远不知道它内部长什么样，就像喜茶不告诉你配方。&lt;/p&gt;
&lt;p&gt;你用GPT-4，不是&amp;quot;拥有&amp;quot;GPT-4，而是&amp;quot;租用&amp;quot;GPT-4的能力。每次对话，OpenAI的服务器在跑，你只是发请求、收结果。&lt;/p&gt;
&lt;p&gt;代表选手：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;GPT-4o&lt;/strong&gt;（OpenAI）——全能型选手&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Claude 3.5 Sonnet&lt;/strong&gt;（Anthropic）——长文本和代码能力一流&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Gemini&lt;/strong&gt;（Google）——多模态能力强悍&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;文心一言&lt;/strong&gt;（百度）——国内生态绑定的选择&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="开源好还是闭源好"&gt;开源好还是闭源好？&lt;/h2&gt;
&lt;p&gt;这是个经典问题。我直接给你一张对比表：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;维度&lt;/th&gt;
 &lt;th&gt;开源模型&lt;/th&gt;
 &lt;th&gt;闭源模型&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;成本&lt;/td&gt;
 &lt;td&gt;免费下载，电费就是成本&lt;/td&gt;
 &lt;td&gt;按Token收费，量大肉疼&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;效果&lt;/td&gt;
 &lt;td&gt;目前略逊于顶级闭源&lt;/td&gt;
 &lt;td&gt;GPT-4o、Claude领先&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;可控性&lt;/td&gt;
 &lt;td&gt;完全控制，想怎么改都行&lt;/td&gt;
 &lt;td&gt;完全黑盒，改不了&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;隐私&lt;/td&gt;
 &lt;td&gt;数据不出门，安全&lt;/td&gt;
 &lt;td&gt;数据要上传到对方服务器&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;部署难度&lt;/td&gt;
 &lt;td&gt;需要技术能力和GPU&lt;/td&gt;
 &lt;td&gt;一行代码搞定&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;更新维护&lt;/td&gt;
 &lt;td&gt;自己管&lt;/td&gt;
 &lt;td&gt;厂家管，躺平就行&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;社区生态&lt;/td&gt;
 &lt;td&gt;活跃，HuggingFace上几万个变体&lt;/td&gt;
 &lt;td&gt;没有，接口就一个&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id="什么场景选开源"&gt;什么场景选开源？&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;场景一：你在做严肃的商业应用&lt;/strong&gt;&lt;/p&gt;</description></item><item><title>AI怎么学会说话的？——从"鹦鹉学舌"到"举一反三"</title><link>https://xms-solo.site/posts/ai-pop-science-02/</link><pubDate>Fri, 01 May 2026 08:30:00 +0800</pubDate><guid>https://xms-solo.site/posts/ai-pop-science-02/</guid><description>&lt;p&gt;你有没有被AI的&amp;quot;口才&amp;quot;震惊过？它像无所不知的百事通，从量子物理到恋爱建议，似乎什么都能聊。但——它是天生就会说话的吗？&lt;/p&gt;
&lt;p&gt;当然不是。&lt;/p&gt;
&lt;p&gt;你看到的这个&amp;quot;能说会道&amp;quot;的AI，背后是&lt;strong&gt;一场耗时几个月、花了几千万美元的&amp;quot;养娃&amp;quot;工程&lt;/strong&gt;。就像培养一个孩子从0开始学说话，AI也经历了三个完全不同的成长阶段。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第一阶段：自己把整个互联网&amp;quot;读&amp;quot;了一遍（预训练）&lt;/strong&gt;
&lt;strong&gt;第二阶段：看人类示范怎么好好回答问题（监督微调）&lt;/strong&gt;
&lt;strong&gt;第三阶段：被几万次&amp;quot;点赞/点踩&amp;quot;调教成你喜欢的样子（RLHF）&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;下面我一个一个说。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="第一阶段自己把整个互联网读了一遍"&gt;第一阶段：自己把整个互联网&amp;quot;读&amp;quot;了一遍&lt;/h2&gt;
&lt;p&gt;这是最烧钱的一步。几个亿花在哪？花在让AI自己&amp;quot;读书&amp;quot;上。&lt;/p&gt;
&lt;h3 id="它不是在读是在猜"&gt;它不是在&amp;quot;读&amp;quot;，是在&amp;quot;猜&amp;quot;&lt;/h3&gt;
&lt;p&gt;别被&amp;quot;读&amp;quot;这个词误导了。AI读书的方式跟你不一样——&lt;strong&gt;它玩的其实是一个&amp;quot;填词游戏&amp;quot;&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;我给你看一句话，少了最后一个词：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&amp;ldquo;我今天去超市买了一个____&amp;rdquo;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;正常人看到这个，知道大概率是&amp;quot;苹果&amp;quot;、&amp;ldquo;西瓜&amp;rdquo;、&amp;ldquo;面包&amp;quot;这种东西，不可能是&amp;quot;汽车&amp;rdquo;、&amp;ldquo;冰箱&amp;rdquo;。&lt;/p&gt;
&lt;p&gt;AI也是这么&amp;quot;学&amp;quot;的。它看到半句话，猜下一个词是什么，然后对比正确答案，猜错了就&amp;quot;扣分&amp;quot;，然后调整自己内部的参数，下次猜对的可能性大一点点。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;就这么一个动作，重复几千亿次。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="一次猜词的完整过程"&gt;一次猜词的完整过程&lt;/h3&gt;
&lt;p&gt;我来用一个具体的例子，把AI猜词的过程拆开来看。&lt;/p&gt;
&lt;p&gt;假设AI看到这样一个不完整的句子：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&amp;ldquo;小明今天考试得了100分，妈妈非常____&amp;rdquo;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;AI不知道这个词是&amp;quot;开心&amp;quot;还是&amp;quot;生气&amp;quot;——它要根据前面学到的知识来&amp;quot;猜&amp;quot;。&lt;/p&gt;
&lt;p&gt;第一步：AI把这句话里的每个词，都转成&lt;strong&gt;一串很长的数字&lt;/strong&gt;（叫&amp;quot;向量&amp;quot;，你可以理解成每个词的&amp;quot;身份证号码&amp;quot;）。&lt;/p&gt;
&lt;p&gt;第二步：AI在那几百亿个参数里算一遍。这个计算过程简单理解就是：&lt;/p&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;&amp;#34;小明&amp;#34; → 和&amp;#34;考试&amp;#34;关联度高（因为数据里经常一起出现）
&amp;#34;考试&amp;#34; → 和&amp;#34;100分&amp;#34;关联度高
&amp;#34;100分&amp;#34; → 大概率让妈妈高兴
&amp;#34;妈妈&amp;#34; → 对孩子获得好成绩通常是高兴的
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;第三步：经过几十层这样的计算，AI输出每个候选词的概率：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;候选词&lt;/th&gt;
 &lt;th&gt;概率&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;开心&lt;/td&gt;
 &lt;td&gt;78%&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;高兴&lt;/td&gt;
 &lt;td&gt;15%&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;骄傲&lt;/td&gt;
 &lt;td&gt;5%&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;生气&lt;/td&gt;
 &lt;td&gt;0.01%&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;难过&lt;/td&gt;
 &lt;td&gt;0.005%&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;AI选了&amp;quot;开心&amp;quot;——因为概率最高。&lt;/p&gt;
&lt;p&gt;但如果正确答案其实是&amp;quot;骄傲&amp;quot;呢？那AI就猜错了，&amp;ldquo;扣分&amp;rdquo;（技术上叫&amp;quot;计算损失&amp;quot;），然后调整内部参数——让&amp;quot;骄傲&amp;quot;和&amp;quot;100分&amp;quot;、&amp;ldquo;妈妈&amp;quot;这些词的关联性增强一点点。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;这个过程，每次训练时AI在全世界的文本上重复几万亿次。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;你可能会想：一次只猜一个词，这也太慢了吧？实际上AI是&lt;strong&gt;并行&lt;/strong&gt;的——同时猜几十万个句子里的下一个词。这就是为什么需要几千张GPU。&lt;/p&gt;
&lt;h3 id="ai读的到底是什么"&gt;AI&amp;quot;读&amp;quot;的到底是什么？&lt;/h3&gt;
&lt;p&gt;以GPT-3为例，它&amp;quot;读&amp;quot;的东西包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;整个维基百科（600万篇文章）&lt;/li&gt;
&lt;li&gt;几百万本电子书&lt;/li&gt;
&lt;li&gt;整个Reddit论坛的所有帖子&lt;/li&gt;
&lt;li&gt;GitHub上公开的代码仓库&lt;/li&gt;
&lt;li&gt;几亿篇新闻文章&lt;/li&gt;
&lt;li&gt;无数的博客、论坛、论文……&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;加起来大概5000亿个词。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;5000亿是什么概念？&lt;/p&gt;
&lt;p&gt;假设一个人每分钟读300字，每天读8小时，读完5000亿个字需要&lt;strong&gt;大约9500年&lt;/strong&gt;。AI花几个月就读完了。&lt;/p&gt;
&lt;h3 id="但ai不是随便读的"&gt;但AI不是随便&amp;quot;读&amp;quot;的&lt;/h3&gt;
&lt;p&gt;原始网页数据质量很差——很多垃圾广告、格式混乱的乱码、重复的内容。训练之前要先做&amp;quot;清洗&amp;rdquo;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;去重&lt;/strong&gt;：同一篇文章出现在10个网站上，只留一份&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;过滤&lt;/strong&gt;：把广告页面、机器生成的垃圾内容扔掉&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;质量筛选&lt;/strong&gt;：用一个&amp;quot;初筛模型&amp;quot;给网页打分，质量低的直接扔掉&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;传言Google训练Gemini时，从几百TB的原始数据中，最终只留下了不到5%来训练。&lt;/p&gt;
&lt;h3 id="训练了几个月之后ai变成了什么样"&gt;训练了几个月之后，AI变成了什么样？&lt;/h3&gt;
&lt;p&gt;花了几个亿、跑了几个月之后，AI学到了什么？&lt;/p&gt;</description></item><item><title>大模型到底是个啥？——一个超级智能的"接龙游戏"</title><link>https://xms-solo.site/posts/ai-pop-science-01/</link><pubDate>Thu, 30 Apr 2026 08:30:00 +0800</pubDate><guid>https://xms-solo.site/posts/ai-pop-science-01/</guid><description>&lt;p&gt;你有没有想过，当你在ChatGPT里敲下一句话，AI是怎么接上话的？&lt;/p&gt;
&lt;p&gt;你可能会觉得，AI是在&amp;quot;思考&amp;quot;，是在&amp;quot;理解&amp;quot;你的问题，然后组织语言回答你。&lt;/p&gt;
&lt;p&gt;但真相可能让你意外——&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;AI根本不会&amp;quot;思考&amp;quot;。它玩的是一个极其复杂的接龙游戏。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="什么是接龙游戏"&gt;什么是&amp;quot;接龙游戏&amp;quot;？&lt;/h2&gt;
&lt;p&gt;想象一下：你对我说的那句话，我听完之后，觉得下一个词最可能是什么。&lt;/p&gt;
&lt;p&gt;比如你问我：&amp;ldquo;今天天气怎么样？&amp;rdquo;&lt;/p&gt;
&lt;p&gt;AI在脑子里飞速运转：根据我学过的所有文本，&amp;ldquo;怎么样&amp;quot;之后最可能接的词是——&amp;ldquo;今天&amp;rdquo;、&amp;ldquo;天气&amp;rdquo;、&amp;ldquo;很&amp;rdquo;、&amp;ldquo;不错&amp;rdquo;、&amp;ldquo;晴朗&amp;rdquo;……&lt;/p&gt;
&lt;p&gt;它不是&amp;quot;知道&amp;quot;今天天气好不好，它只是根据概率，选了一个最合理的词往下接。&lt;/p&gt;
&lt;p&gt;接完一个词，再接下一个。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;接龙游戏玩到一千次、一万次，就成了一篇完整的回答。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="为什么我们需要大模型"&gt;为什么我们需要&amp;quot;大&amp;quot;模型？&lt;/h2&gt;
&lt;p&gt;既然是接龙游戏，那问题来了——怎么保证它接得准？&lt;/p&gt;
&lt;p&gt;靠&amp;quot;大&amp;rdquo;。&lt;/p&gt;
&lt;p&gt;你玩成语接龙，脑子里只记了100个成语，那你接来接去就那么几个。但如果你的脑子里存了1亿个成语和句子呢？你接出&amp;quot;床前明月光&amp;quot;的概率，是不是大大提高了？&lt;/p&gt;
&lt;p&gt;大模型的&amp;quot;大&amp;quot;，就大在这里：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;大&lt;/strong&gt;量的训练数据：整个互联网的文本，几千亿个词&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;大&lt;/strong&gt;量的参数：几百亿、上千亿个&amp;quot;神经元连接&amp;quot;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;大&lt;/strong&gt;量的算力：几千张GPU跑几个月&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;参数越多、数据越多，它&amp;quot;猜对下一个词&amp;quot;的概率就越高。&lt;/p&gt;
&lt;p&gt;这就像你教一个小孩说话：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;你只说10句话给他听 → 他会说的很有限&lt;/li&gt;
&lt;li&gt;你给他读1万本书 → 他能接上几乎所有话题&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="那它能理解吗"&gt;那它能&amp;quot;理解&amp;quot;吗？&lt;/h2&gt;
&lt;p&gt;这是个哲学问题。&lt;/p&gt;
&lt;p&gt;从它内部的工作机制来看，它并没有&amp;quot;理解&amp;quot;你在说什么。它做的就是把你的话变成一串数字，在几百亿个参数中跑一遍，然后吐出另一串数字，再变回文字。&lt;/p&gt;
&lt;p&gt;但你从外部看，它的表现就像&amp;quot;理解&amp;quot;了一样。&lt;/p&gt;
&lt;p&gt;打个比方：
你按下一个开关，灯亮了。灯并没有&amp;quot;理解&amp;quot;你为什么要亮，它只是按电路设计完成了这个动作。&lt;/p&gt;
&lt;p&gt;AI也是一样。它不&amp;quot;理解&amp;quot;，但它&amp;quot;做对了&amp;quot;。&lt;/p&gt;
&lt;h2 id="所以ai到底是怎么回答问题的"&gt;所以AI到底是怎么回答问题的？&lt;/h2&gt;
&lt;p&gt;整个过程分三步，但每一步都比看起来复杂得多。&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="第一步token化把你的话拆成最小零件"&gt;第一步：Token化——把你的话拆成&amp;quot;最小零件&amp;quot;&lt;/h3&gt;
&lt;p&gt;AI不认识完整的句子，它首先做的是&lt;strong&gt;拆词&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;你输入&amp;quot;今天天气怎么样&amp;quot;，大模型里有一个内置的&lt;strong&gt;分词器（Tokenizer）&lt;/strong&gt;，会把这句话拆成这样：&lt;/p&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;[&amp;#34;今天&amp;#34;, &amp;#34;天气&amp;#34;, &amp;#34;怎么&amp;#34;, &amp;#34;样&amp;#34;]
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;每个被拆出来的最小单位，叫一个 &lt;strong&gt;Token&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;Token不是严格的汉字或词语——英文里可能是一个单词的一部分，中文里可能是一个字或一个词，取决于分词器的设计。&lt;/p&gt;
&lt;p&gt;比如 GPT 的 Tokenizer 会把&amp;quot;今天天气怎么样&amp;quot;拆成 5 个 Token：&amp;ldquo;今天&amp;rdquo;、&amp;ldquo;天气&amp;rdquo;、&amp;ldquo;怎么&amp;rdquo;、&amp;ldquo;样&amp;rdquo;——因为它有一套基于统计的最优拆分策略。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;Token 是一个非常重要的概念。&lt;/strong&gt; 模型的所有计费、上下文窗口长度，都是按 Token 算的。你现在跟 ChatGPT 聊一句话，它背后要根据 Token 数量来收费。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;拆分完之后，每个 Token 会对应到一个&lt;strong&gt;唯一的数字编号&lt;/strong&gt;（就像词典里的索引号）。&lt;/p&gt;
&lt;p&gt;比如：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;Token&lt;/th&gt;
 &lt;th&gt;编号&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;今天&lt;/td&gt;
 &lt;td&gt;1256&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;天气&lt;/td&gt;
 &lt;td&gt;8932&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;怎么&lt;/td&gt;
 &lt;td&gt;4431&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;样&lt;/td&gt;
 &lt;td&gt;9817&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;所以你的问题&amp;quot;今天天气怎么样&amp;quot;，在AI眼里就变成了：&lt;code&gt;[1256, 8932, 4431, 9817]&lt;/code&gt;&lt;/p&gt;</description></item><item><title>Token到底是什么？AI背后的计费与能力单元</title><link>https://xms-solo.site/posts/what-is-token/</link><pubDate>Tue, 05 May 2026 09:00:00 +0800</pubDate><guid>https://xms-solo.site/posts/what-is-token/</guid><description>&lt;h2 id="一token到底是个啥"&gt;一、Token到底是个啥？&lt;/h2&gt;
&lt;p&gt;把Token想象成&amp;quot;字&amp;quot;就好理解了。&lt;/p&gt;
&lt;p&gt;你问AI一个问题，AI回答你一段话。这段话在AI眼里&lt;strong&gt;不是一个字一个字看的，而是一小块一小块看的&lt;/strong&gt;。这一小块就叫一个&lt;strong&gt;Token&lt;/strong&gt;。&lt;/p&gt;
&lt;h3 id="那为什么ai要一块一块地看不能一个字一个字地看"&gt;那为什么AI要一块一块地看，不能一个字一个字地看？&lt;/h3&gt;
&lt;p&gt;打个比方你就明白了：&lt;/p&gt;
&lt;p&gt;你学英语的时候，是一个字母一个字母地读&amp;quot;t-o-d-a-y&amp;quot;，还是直接看&amp;quot;today&amp;quot;这个完整的词？肯定是直接看完整的词更快对吧？&lt;/p&gt;
&lt;p&gt;AI也是一样。&lt;strong&gt;AI不是真的&amp;quot;认识&amp;quot;字，它是在猜&amp;quot;这些字拼在一起最可能是什么意思&amp;quot;&lt;/strong&gt;。如果一个字一个字地看，&amp;ldquo;机器学习&amp;quot;它要分四次猜——&amp;ldquo;机&amp;rdquo;、&amp;ldquo;器&amp;rdquo;、&amp;ldquo;学&amp;rdquo;、&amp;ldquo;习&amp;rdquo;，每个字单独猜容易猜错。但如果把&amp;quot;机器学习&amp;quot;作为一个整体Token来看，它就能直接认出这是一个完整的概念。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Token的本质就是：AI认为&amp;quot;这些字经常一起出现，把它们打包成一个整体来处理效率最高&amp;rdquo;。&lt;/strong&gt;&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;举个具体的例子：&lt;/strong&gt;
&amp;ldquo;今天天气真好&amp;rdquo; → AI会这样切Token：[&amp;ldquo;今天&amp;rdquo;, &amp;ldquo;天气&amp;rdquo;, &amp;ldquo;真好&amp;rdquo;]
而不是：[&amp;ldquo;今&amp;rdquo;, &amp;ldquo;天&amp;rdquo;, &amp;ldquo;天&amp;rdquo;, &amp;ldquo;气&amp;rdquo;, &amp;ldquo;真&amp;rdquo;, &amp;ldquo;好&amp;rdquo;]&lt;/p&gt;
&lt;p&gt;因为&amp;quot;今天&amp;quot;经常一起出现，&amp;ldquo;天气&amp;quot;也是，&amp;ldquo;真好&amp;quot;也是。AI把它们当作&amp;quot;老朋友&amp;quot;来识别，而不是一个个生字来拼。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;strong&gt;再打个比方：&lt;/strong&gt; 你看一部电影，肯定不会一帧一帧地看对吧？你会一个场景一个场景地看。Token对AI来说，就相当于&amp;quot;场景&amp;rdquo;——把连续的画面打包成一个有意义的单元。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;不同语言，Token的切法也不一样：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;中文&lt;/strong&gt;：一般是2-4个字一个Token，比如&amp;quot;人工智能&amp;quot;可能是一个Token，&amp;ldquo;的&amp;rdquo;、&amp;ldquo;了&amp;quot;这种单字也是一个&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;英文&lt;/strong&gt;：单词基本就是一个Token，&amp;ldquo;ChatGPT&amp;quot;这种合成词可能拆成&amp;quot;Chat&amp;rdquo;+&amp;ldquo;GPT&amp;quot;两个&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;代码&lt;/strong&gt;：常见的关键词如&amp;quot;function&amp;rdquo;、&amp;ldquo;return&amp;quot;各算一个，变量名可能被拆成几段&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;简单记：&lt;/strong&gt;&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;1个汉字 ≈ 1-2个Token
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;1个英文单词 ≈ 1个Token
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;一段话 ≈ Token的数量 ≈ 字数的一半到三分之二
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h2 id="二token怎么收费"&gt;二、Token怎么收费？&lt;/h2&gt;
&lt;p&gt;你每次用AI，其实都在消耗Token——就像打电话按分钟计费一样。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;收费分两部分：&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;输入Token&lt;/strong&gt;（你问的话） + &lt;strong&gt;输出Token&lt;/strong&gt;（AI回答的话） = 总共消耗的Token&lt;/p&gt;
&lt;p&gt;各家模型的单价不一样：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;模型&lt;/th&gt;
 &lt;th style="text-align: center"&gt;输入($/百万Token)&lt;/th&gt;
 &lt;th style="text-align: center"&gt;输出($/百万Token)&lt;/th&gt;
 &lt;th style="text-align: center"&gt;特点&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;GPT-4o&lt;/td&gt;
 &lt;td style="text-align: center"&gt;$2.5&lt;/td&gt;
 &lt;td style="text-align: center"&gt;$10&lt;/td&gt;
 &lt;td style="text-align: center"&gt;综合最强&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Claude 3.5 Sonnet&lt;/td&gt;
 &lt;td style="text-align: center"&gt;$3&lt;/td&gt;
 &lt;td style="text-align: center"&gt;$15&lt;/td&gt;
 &lt;td style="text-align: center"&gt;编码最优&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;DeepSeek V3&lt;/td&gt;
 &lt;td style="text-align: center"&gt;$0.27&lt;/td&gt;
 &lt;td style="text-align: center"&gt;$1.1&lt;/td&gt;
 &lt;td style="text-align: center"&gt;极致低价&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;通义千问&lt;/td&gt;
 &lt;td style="text-align: center"&gt;¥2&lt;/td&gt;
 &lt;td style="text-align: center"&gt;¥6&lt;/td&gt;
 &lt;td style="text-align: center"&gt;国内首选&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id="三日常场景算笔账"&gt;三、日常场景算笔账&lt;/h2&gt;
&lt;h3 id="场景1简单聊天问一个问题"&gt;场景1：简单聊天（问一个问题）&lt;/h3&gt;
&lt;p&gt;你问：&amp;ldquo;什么是机器学习？&amp;rdquo;
AI答了一段200字左右的解释&lt;/p&gt;</description></item><item><title>关于</title><link>https://xms-solo.site/%E5%85%B3%E4%BA%8E/</link><pubDate>Mon, 01 Jan 2024 00:00:00 +0000</pubDate><guid>https://xms-solo.site/%E5%85%B3%E4%BA%8E/</guid><description>&lt;h2 id="ai思考--深度ai技术与行业分析"&gt;AI思考 | 深度AI技术与行业分析&lt;/h2&gt;
&lt;p&gt;我们是一个专注于AI技术与行业深度分析的平台。我们的使命是为有AI基础的专业人士提供有价值、有深度的洞察与思考。&lt;/p&gt;
&lt;h3 id="我们的价值观"&gt;我们的价值观&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;专业深度&lt;/strong&gt;：每篇文章都经过深入研究，确保内容的专业性和准确性&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;去AI味&lt;/strong&gt;：避免空泛的AI概念炒作，专注于实际应用和技术实现&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;逻辑清晰&lt;/strong&gt;：结构化的内容组织，让复杂的技术概念易于理解&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;实用价值&lt;/strong&gt;：提供可落地的解决方案和实用的技术建议&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="内容方向"&gt;内容方向&lt;/h3&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;AI技术深度解析&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;大型语言模型原理与应用&lt;/li&gt;
&lt;li&gt;计算机视觉前沿技术&lt;/li&gt;
&lt;li&gt;机器学习算法实践&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;行业应用分析&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;AI在各行业的落地案例&lt;/li&gt;
&lt;li&gt;商业模式与技术融合&lt;/li&gt;
&lt;li&gt;市场趋势与投资机会&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;开发实践指南&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;最佳工程实践&lt;/li&gt;
&lt;li&gt;架构设计与优化&lt;/li&gt;
&lt;li&gt;工具链与工作流&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;h3 id="团队"&gt;团队&lt;/h3&gt;
&lt;p&gt;我们是一群热爱技术的AI从业者，拥有丰富的工业界实战经验。我们相信，只有深入理解技术本质，才能真正创造价值。&lt;/p&gt;
&lt;h3 id="联系我们"&gt;联系我们&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;Email: &lt;a href="mailto:contact@xms-solo.site"&gt;contact@xms-solo.site&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;GitHub: &lt;a href="https://github.com/yourusername"&gt;@yourusername&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Twitter: &lt;a href="https://twitter.com/yourusername"&gt;@yourusername&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;p&gt;欢迎关注我们的更新，一起探索AI的无限可能。&lt;/p&gt;</description></item></channel></rss>