过去这一周,我们聊了四个让人又爱又恨的问题——每一个都是跟AI打交道时大概率遇到过的:
- 第12篇:AI胡说八道(幻觉)
- 第13篇:同一个问题AI每次回答不一样(随机性)
- 第14篇:AI写的代码跑不通(编程翻车)
- 第15篇:AI算不清9.11和9.9谁大(数学翻车)
初看这四件事好像不相关——一个说AI太能编、一个说AI太随机、一个说AI代码不行、一个说AI数学差。但如果你仔细想想,它们背后其实是同一个根。
本周的汇总,帮你看清这个根。
这四个问题,是同一棵树上结的果子
根:AI的工作方式,和你想象的不一样
所有的困惑,都源于同一个认知错位。
你在和AI对话时,会不自觉地把它当成人。人是怎么思考的?人有知识体系、有推理能力、有自我纠错机制。你问人一个他不知道的问题,人会诚实地说"我不确定"或"我不知道"——至少正常人会这样。
AI不一样。AI没有"知识体系",没有"推理引擎",也没有"自我意识"。
AI只有一件事:根据上文,猜最合理的下文。
你问"9.11和9.9哪个大"——它不是在想"让我比较一下这两个十进制数字的数值",而是在想"我见过的文本里,‘9.11’后面经常跟着’更大’这个结论"。
你让AI写一段Python——它不是在想"让我按逻辑推导出这段代码的执行路径",而是在想"我见过的代码库里,这类问题后面最常出现这些函数调用"。
它不是想出来的,是拼出来的。
这个基本事实,是一切"翻车"的底层原因。
枝干一:因为靠"猜",所以会"胡说"(幻觉)
既然AI的工作方式是"猜下一个字",那它猜错就不可避免。
你问一个它训练数据里没有标准答案的问题——比如"引用一篇2025年的学术论文来说明某个冷门发现"——它会怎么办?它不可能说"我不知道",因为它的训练数据里没有"我不知道"这个回答模式。它会尽量拼出一个看起来合理的答案,甚至编出看似真实的文献标题和作者。
你不是在跟一个"知识库"对话,你是在跟一个"语言模型"对话。知识库存的是"我知道什么",语言模型只能模拟"听起来像什么"。
导致幻觉的四个原因(第12篇详细讲):
- 数据缺失:没学过,只能硬编
- 过时知识:训练数据有截止日期,之后的事一概不知
- 过度概括:见了一个模式就套用在所有场景
- 对抗性输入:你特意问它容易产生联想偏差的问题
枝干二:因为靠"概率",所以"不稳定"(随机性)
如果AI每次都选概率最高的那个字,它会稳定得像机器人——但也很无聊。为了让对话更自然,设计者引入了"温度参数"(Temperature)。
用一句话解释Temperature:一个控制"冒险程度"的旋钮。
- 温度=0:永远只选最可能的词,每次回答一样
- 温度=1:大部分选最可能的词,偶尔选点不一样的
- 温度=2:几乎随机选词,回答天马行空
除了Temperature还有Top-P和Top-K。Top-P是"只看最有可能的那一堆词的总概率",Top-K是"只看最有可能的前K个词"。
这些参数的设计目的,是让AI在"稳定"和"多样"之间找到平衡。但副作用很明显:你永远没法知道同一个问题会得到什么答案——这不是bug,这恰恰是AI作为一个概率系统的特征。
枝干三:因为靠"记忆",所以"不会执行"(代码翻车)
AI写代码这件事,最能暴露它的本质。
你写代码的时候,脑子里有"执行路径"——你会想象代码运行时变量怎么变化、控制流怎么走。AI写代码的时候,脑子里没有执行、没有变量、没有内存——只有"前面见过这种问题后面一般跟什么代码"的模式匹配。
所以AI写出不存在的API(“幻想API症”)、漏掉边界条件、拼错库名——这些根本不是"代码能力"的问题,而是它的工作方式压根就不适合做精确的工程。就像你让一个熟读菜谱但从来没下过厨的人给你做一道佛跳墙,他能把步骤背得一字不差,但火候、时间、下料顺序这些"手感和经验"他完全没有。
枝干四:因为"不看数字",所以"不会算数"(数学翻车)
“9.11和9.9谁大"这个梗,完美诠释了AI的运作机制。
人比较数字,走的是符号推理系统:
- 拆成整数和小数部分
- 先比整数:9 = 9,平手
- 再比小数:0.11 < 0.90
- 结论:9.9 > 9.11
AI比较数字,走的是概率匹配系统:
- 看到"9.11”——这个模式在训练数据里大量出现,常跟"更大的事件"(911事件)绑定
- 看到"9.9"——这个模式出现相对少
- 输出:“9.11更大”——因为在它见过的文本里,9.11更"重要"
它不是在算,是在猜。 只不过如果数字格式规整(比如"0.11 vs 0.9"),它猜对的概率高很多,因为格式统一减少了模式混淆。
重新理解AI的能力边界
把这四个问题串起来看,其实就是一件事的四个侧面:
| AI让你觉得它强大 | 实际上它擅长的 | 但它不会 | 翻车场景 |
|---|---|---|---|
| 什么话题都能聊 | 匹配海量文本模式 | 区分"我知道"和"我不知道" | 编造事实(幻觉) |
| 回答有创意 | 概率采样太丰富 | 每次给你稳定答案 | 回答不一致(随机性) |
| 能写完整代码 | 见过大量代码模式 | 真正理解代码逻辑 | 跑不通(代码翻车) |
| 能回答数学题 | 匹配数字模式和常见的数学上下文 | 执行符号推理 | 9.11和9.9(数学翻车) |
你该怎么"正确使用"有这些缺陷的AI?
知道AI的底牌之后,你就能更好地跟它合作:
1. 对事实类问题,永远要核实。 尤其是引用、数字、日期——AI说"根据某某研究"时,默认它就是编的,除非你亲眼看到出处。
2. 对需要稳定答案的问题,调低Temperature。 如果你在用API,把Temperature调到0.1左右;如果是聊天界面,在提示词里强调"请给出最准确、最稳定的回答"。
3. 对AI写的代码,关键部分手动审查。 不知道的API去查文档,边界条件自己补一下。把AI当成"高级代码补全器"而不是"程序员替身"。
4. 对AI的数学回答,尤其是不太常见的格式,多问一句。 或者告诉它"请一步一步推理再给答案"——推理模型内部的思考链确实能降低错误率。
下周预告
第二周的基础认知和第三周的日常使用已经过去了。这周我们聊了AI最让人困惑的几个问题。
下周进入第四主题:实操技巧——不扯概念,只讲能立刻用上的东西:
- 写Prompt到底有没有技巧?——让AI好好干活的那几句话
- 怎么让AI记住我们的对话?——关于记忆和上下文
- RAG是什么?——让AI"临时翻书"回答你
- 微调又是什么?——给AI"补课"让它变专家
如果你对本周任何一个话题有共鸣,别走开——下周才是真正能让你AI使用效率翻倍的内容。
一句话总结本周
AI的所有"翻车"都不是偶然——它是你看到了AI的底层工作机制。看懂翻车,才算看懂了AI。 幻觉、随机性、代码翻车、数学翻车,这四件事说到底就一个原因:AI不是在"思考",它是在"匹配"。你不是跟一个"会思考的机器"对话,你是跟一个"极其擅长文字接龙的概率模型"对话。
这个认知一旦建立,你就不会再被AI的"信誓旦旦"骗到,也不会因为它的"翻车"而失望。你知道它哪里强、哪里弱——这才是真正会用AI的人。
📖 本文是MST「30天AI科普专栏」第16篇 / 共25篇 🔖 分类:常见困惑 关注MST,每天一个AI小知识,把大模型讲明白。