本周AI答疑汇总——AI不爱说谎，它只是不知道自己不知道

过去这一周，我们聊了四个让人又爱又恨的问题——每一个都是跟AI打交道时大概率遇到过的：

第12篇：AI胡说八道（幻觉）
第13篇：同一个问题AI每次回答不一样（随机性）
第14篇：AI写的代码跑不通（编程翻车）
第15篇：AI算不清9.11和9.9谁大（数学翻车）

初看这四件事好像不相关——一个说AI太能编、一个说AI太随机、一个说AI代码不行、一个说AI数学差。但如果你仔细想想，它们背后其实是同一个根。

本周的汇总，帮你看清这个根。

这四个问题，是同一棵树上结的果子

根：AI的工作方式，和你想象的不一样

所有的困惑，都源于同一个认知错位。

你在和AI对话时，会不自觉地把它当成人。人是怎么思考的？人有知识体系、有推理能力、有自我纠错机制。你问人一个他不知道的问题，人会诚实地说"我不确定"或"我不知道"——至少正常人会这样。

AI不一样。AI没有"知识体系"，没有"推理引擎"，也没有"自我意识"。

AI只有一件事：根据上文，猜最合理的下文。

你问"9.11和9.9哪个大"——它不是在想"让我比较一下这两个十进制数字的数值"，而是在想"我见过的文本里，‘9.11’后面经常跟着’更大’这个结论"。

你让AI写一段Python——它不是在想"让我按逻辑推导出这段代码的执行路径"，而是在想"我见过的代码库里，这类问题后面最常出现这些函数调用"。

它不是想出来的，是拼出来的。

这个基本事实，是一切"翻车"的底层原因。

枝干一：因为靠"猜"，所以会"胡说"（幻觉）

既然AI的工作方式是"猜下一个字"，那它猜错就不可避免。

你问一个它训练数据里没有标准答案的问题——比如"引用一篇2025年的学术论文来说明某个冷门发现"——它会怎么办？它不可能说"我不知道"，因为它的训练数据里没有"我不知道"这个回答模式。它会尽量拼出一个看起来合理的答案，甚至编出看似真实的文献标题和作者。

你不是在跟一个"知识库"对话，你是在跟一个"语言模型"对话。知识库存的是"我知道什么"，语言模型只能模拟"听起来像什么"。

导致幻觉的四个原因（第12篇详细讲）：

数据缺失：没学过，只能硬编
过时知识：训练数据有截止日期，之后的事一概不知
过度概括：见了一个模式就套用在所有场景
对抗性输入：你特意问它容易产生联想偏差的问题

枝干二：因为靠"概率"，所以"不稳定"（随机性）

如果AI每次都选概率最高的那个字，它会稳定得像机器人——但也很无聊。为了让对话更自然，设计者引入了"温度参数"（Temperature）。

用一句话解释Temperature：一个控制"冒险程度"的旋钮。

温度=0：永远只选最可能的词，每次回答一样
温度=1：大部分选最可能的词，偶尔选点不一样的
温度=2：几乎随机选词，回答天马行空

除了Temperature还有Top-P和Top-K。Top-P是"只看最有可能的那一堆词的总概率"，Top-K是"只看最有可能的前K个词"。

这些参数的设计目的，是让AI在"稳定"和"多样"之间找到平衡。但副作用很明显：你永远没法知道同一个问题会得到什么答案——这不是bug，这恰恰是AI作为一个概率系统的特征。

枝干三：因为靠"记忆"，所以"不会执行"（代码翻车）

AI写代码这件事，最能暴露它的本质。

你写代码的时候，脑子里有"执行路径"——你会想象代码运行时变量怎么变化、控制流怎么走。AI写代码的时候，脑子里没有执行、没有变量、没有内存——只有"前面见过这种问题后面一般跟什么代码"的模式匹配。

所以AI写出不存在的API（“幻想API症”）、漏掉边界条件、拼错库名——这些根本不是"代码能力"的问题，而是它的工作方式压根就不适合做精确的工程。就像你让一个熟读菜谱但从来没下过厨的人给你做一道佛跳墙，他能把步骤背得一字不差，但火候、时间、下料顺序这些"手感和经验"他完全没有。

枝干四：因为"不看数字"，所以"不会算数"（数学翻车）

“9.11和9.9谁大"这个梗，完美诠释了AI的运作机制。

人比较数字，走的是符号推理系统：

拆成整数和小数部分
先比整数：9 = 9，平手
再比小数：0.11 < 0.90
结论：9.9 > 9.11

AI比较数字，走的是概率匹配系统：

看到"9.11”——这个模式在训练数据里大量出现，常跟"更大的事件"（911事件）绑定
看到"9.9"——这个模式出现相对少
输出：“9.11更大”——因为在它见过的文本里，9.11更"重要"

它不是在算，是在猜。 只不过如果数字格式规整（比如"0.11 vs 0.9"），它猜对的概率高很多，因为格式统一减少了模式混淆。

重新理解AI的能力边界

把这四个问题串起来看，其实就是一件事的四个侧面：

AI让你觉得它强大	实际上它擅长的	但它不会	翻车场景
什么话题都能聊	匹配海量文本模式	区分"我知道"和"我不知道"	编造事实（幻觉）
回答有创意	概率采样太丰富	每次给你稳定答案	回答不一致（随机性）
能写完整代码	见过大量代码模式	真正理解代码逻辑	跑不通（代码翻车）
能回答数学题	匹配数字模式和常见的数学上下文	执行符号推理	9.11和9.9（数学翻车）

你该怎么"正确使用"有这些缺陷的AI？

知道AI的底牌之后，你就能更好地跟它合作：

1. 对事实类问题，永远要核实。 尤其是引用、数字、日期——AI说"根据某某研究"时，默认它就是编的，除非你亲眼看到出处。

2. 对需要稳定答案的问题，调低Temperature。 如果你在用API，把Temperature调到0.1左右；如果是聊天界面，在提示词里强调"请给出最准确、最稳定的回答"。

3. 对AI写的代码，关键部分手动审查。 不知道的API去查文档，边界条件自己补一下。把AI当成"高级代码补全器"而不是"程序员替身"。

4. 对AI的数学回答，尤其是不太常见的格式，多问一句。 或者告诉它"请一步一步推理再给答案"——推理模型内部的思考链确实能降低错误率。

下周预告

第二周的基础认知和第三周的日常使用已经过去了。这周我们聊了AI最让人困惑的几个问题。

下周进入第四主题：实操技巧——不扯概念，只讲能立刻用上的东西：

写Prompt到底有没有技巧？——让AI好好干活的那几句话
怎么让AI记住我们的对话？——关于记忆和上下文
RAG是什么？——让AI"临时翻书"回答你
微调又是什么？——给AI"补课"让它变专家

如果你对本周任何一个话题有共鸣，别走开——下周才是真正能让你AI使用效率翻倍的内容。

一句话总结本周

AI的所有"翻车"都不是偶然——它是你看到了AI的底层工作机制。看懂翻车，才算看懂了AI。 幻觉、随机性、代码翻车、数学翻车，这四件事说到底就一个原因：AI不是在"思考"，它是在"匹配"。你不是跟一个"会思考的机器"对话，你是跟一个"极其擅长文字接龙的概率模型"对话。

这个认知一旦建立，你就不会再被AI的"信誓旦旦"骗到，也不会因为它的"翻车"而失望。你知道它哪里强、哪里弱——这才是真正会用AI的人。

📖 本文是MST「30天AI科普专栏」第16篇 / 共25篇 🔖 分类：常见困惑 关注MST，每天一个AI小知识，把大模型讲明白。