首页 文章 分类 标签 关于

本周AI答疑汇总——AI不爱说谎,它只是不知道自己不知道

🤖 本周AI答疑汇总——AI不爱说谎,它只是不知道自己不知道

过去这一周,我们聊了四个让人又爱又恨的问题——每一个都是跟AI打交道时大概率遇到过的:

  • 第12篇:AI胡说八道(幻觉)
  • 第13篇:同一个问题AI每次回答不一样(随机性)
  • 第14篇:AI写的代码跑不通(编程翻车)
  • 第15篇:AI算不清9.11和9.9谁大(数学翻车)

初看这四件事好像不相关——一个说AI太能编、一个说AI太随机、一个说AI代码不行、一个说AI数学差。但如果你仔细想想,它们背后其实是同一个根

本周的汇总,帮你看清这个根。

这四个问题,是同一棵树上结的果子

根:AI的工作方式,和你想象的不一样

所有的困惑,都源于同一个认知错位。

你在和AI对话时,会不自觉地把它当成人。人是怎么思考的?人有知识体系、有推理能力、有自我纠错机制。你问人一个他不知道的问题,人会诚实地说"我不确定"或"我不知道"——至少正常人会这样。

AI不一样。AI没有"知识体系",没有"推理引擎",也没有"自我意识"。

AI只有一件事:根据上文,猜最合理的下文。

你问"9.11和9.9哪个大"——它不是在想"让我比较一下这两个十进制数字的数值",而是在想"我见过的文本里,‘9.11’后面经常跟着’更大’这个结论"。

你让AI写一段Python——它不是在想"让我按逻辑推导出这段代码的执行路径",而是在想"我见过的代码库里,这类问题后面最常出现这些函数调用"。

它不是想出来的,是拼出来的。

这个基本事实,是一切"翻车"的底层原因。

枝干一:因为靠"猜",所以会"胡说"(幻觉)

既然AI的工作方式是"猜下一个字",那它猜错就不可避免。

你问一个它训练数据里没有标准答案的问题——比如"引用一篇2025年的学术论文来说明某个冷门发现"——它会怎么办?它不可能说"我不知道",因为它的训练数据里没有"我不知道"这个回答模式。它会尽量拼出一个看起来合理的答案,甚至编出看似真实的文献标题和作者。

你不是在跟一个"知识库"对话,你是在跟一个"语言模型"对话。知识库存的是"我知道什么",语言模型只能模拟"听起来像什么"。

导致幻觉的四个原因(第12篇详细讲):

  1. 数据缺失:没学过,只能硬编
  2. 过时知识:训练数据有截止日期,之后的事一概不知
  3. 过度概括:见了一个模式就套用在所有场景
  4. 对抗性输入:你特意问它容易产生联想偏差的问题

枝干二:因为靠"概率",所以"不稳定"(随机性)

如果AI每次都选概率最高的那个字,它会稳定得像机器人——但也很无聊。为了让对话更自然,设计者引入了"温度参数"(Temperature)。

用一句话解释Temperature:一个控制"冒险程度"的旋钮。

  • 温度=0:永远只选最可能的词,每次回答一样
  • 温度=1:大部分选最可能的词,偶尔选点不一样的
  • 温度=2:几乎随机选词,回答天马行空

除了Temperature还有Top-P和Top-K。Top-P是"只看最有可能的那一堆词的总概率",Top-K是"只看最有可能的前K个词"。

这些参数的设计目的,是让AI在"稳定"和"多样"之间找到平衡。但副作用很明显:你永远没法知道同一个问题会得到什么答案——这不是bug,这恰恰是AI作为一个概率系统的特征。

枝干三:因为靠"记忆",所以"不会执行"(代码翻车)

AI写代码这件事,最能暴露它的本质。

你写代码的时候,脑子里有"执行路径"——你会想象代码运行时变量怎么变化、控制流怎么走。AI写代码的时候,脑子里没有执行、没有变量、没有内存——只有"前面见过这种问题后面一般跟什么代码"的模式匹配。

所以AI写出不存在的API(“幻想API症”)、漏掉边界条件、拼错库名——这些根本不是"代码能力"的问题,而是它的工作方式压根就不适合做精确的工程。就像你让一个熟读菜谱但从来没下过厨的人给你做一道佛跳墙,他能把步骤背得一字不差,但火候、时间、下料顺序这些"手感和经验"他完全没有。

枝干四:因为"不看数字",所以"不会算数"(数学翻车)

“9.11和9.9谁大"这个梗,完美诠释了AI的运作机制。

人比较数字,走的是符号推理系统

  1. 拆成整数和小数部分
  2. 先比整数:9 = 9,平手
  3. 再比小数:0.11 < 0.90
  4. 结论:9.9 > 9.11

AI比较数字,走的是概率匹配系统

  1. 看到"9.11”——这个模式在训练数据里大量出现,常跟"更大的事件"(911事件)绑定
  2. 看到"9.9"——这个模式出现相对少
  3. 输出:“9.11更大”——因为在它见过的文本里,9.11更"重要"

它不是在算,是在猜。 只不过如果数字格式规整(比如"0.11 vs 0.9"),它猜对的概率高很多,因为格式统一减少了模式混淆。

重新理解AI的能力边界

把这四个问题串起来看,其实就是一件事的四个侧面:

AI让你觉得它强大 实际上它擅长的 但它不会 翻车场景
什么话题都能聊 匹配海量文本模式 区分"我知道"和"我不知道" 编造事实(幻觉)
回答有创意 概率采样太丰富 每次给你稳定答案 回答不一致(随机性)
能写完整代码 见过大量代码模式 真正理解代码逻辑 跑不通(代码翻车)
能回答数学题 匹配数字模式和常见的数学上下文 执行符号推理 9.11和9.9(数学翻车)

你该怎么"正确使用"有这些缺陷的AI?

知道AI的底牌之后,你就能更好地跟它合作:

1. 对事实类问题,永远要核实。 尤其是引用、数字、日期——AI说"根据某某研究"时,默认它就是编的,除非你亲眼看到出处。

2. 对需要稳定答案的问题,调低Temperature。 如果你在用API,把Temperature调到0.1左右;如果是聊天界面,在提示词里强调"请给出最准确、最稳定的回答"。

3. 对AI写的代码,关键部分手动审查。 不知道的API去查文档,边界条件自己补一下。把AI当成"高级代码补全器"而不是"程序员替身"。

4. 对AI的数学回答,尤其是不太常见的格式,多问一句。 或者告诉它"请一步一步推理再给答案"——推理模型内部的思考链确实能降低错误率。

下周预告

第二周的基础认知和第三周的日常使用已经过去了。这周我们聊了AI最让人困惑的几个问题。

下周进入第四主题:实操技巧——不扯概念,只讲能立刻用上的东西:

  1. 写Prompt到底有没有技巧?——让AI好好干活的那几句话
  2. 怎么让AI记住我们的对话?——关于记忆和上下文
  3. RAG是什么?——让AI"临时翻书"回答你
  4. 微调又是什么?——给AI"补课"让它变专家

如果你对本周任何一个话题有共鸣,别走开——下周才是真正能让你AI使用效率翻倍的内容。

一句话总结本周

AI的所有"翻车"都不是偶然——它是你看到了AI的底层工作机制。看懂翻车,才算看懂了AI。 幻觉、随机性、代码翻车、数学翻车,这四件事说到底就一个原因:AI不是在"思考",它是在"匹配"。你不是跟一个"会思考的机器"对话,你是跟一个"极其擅长文字接龙的概率模型"对话。

这个认知一旦建立,你就不会再被AI的"信誓旦旦"骗到,也不会因为它的"翻车"而失望。你知道它哪里强、哪里弱——这才是真正会用AI的人。


📖 本文是MST「30天AI科普专栏」第16篇 / 共25篇 🔖 分类:常见困惑 关注MST,每天一个AI小知识,把大模型讲明白。