第 1 篇：AI 到底怎么"想"的？

📍 专题位置：第 1/8 篇

📊 难度：入门

⏱️ 预计阅读：12 分钟

---

你打开 ChatGPT 或者豆包，敲了一句话："帮我写一篇好文章。"

30 秒后，你看着屏幕上的结果，皱起了眉头。文章说不上差，但感觉就是不对——没有风格，没有重点，甚至有些地方逻辑是乱的。

你很失望。你心想："不是说 AI 很厉害吗？就这？"

恭喜你，你和 95% 的 AI 新用户产生了完全相同的困惑。但问题不出在 AI 身上——出在你对 AI 的根本误解上。

本文核心观点：AI 不是搜索引擎，不是知识库，它是一个"猜词机器"。不理解这一点，你永远在碰运气。

---

一、AI 到底是什么？

让我们先从一个看似无聊但至关重要的问题开始：当你在对话框里打字的时候，AI 那边发生了什么？

大多数人的直觉是：AI 在"查找"答案。就像一个超级搜索引擎——你把问题输进去，它在某个巨大的数据库里翻找，找到最匹配的答案，然后给你。

这个理解完全错误。

AI 大语言模型（LLM，Large Language Model）的真实工作方式是：接收一段文字，预测下一个字应该是什么。

是的，就这么简单。它不是在"翻书找答案"，它是在猜下一个字。

我们来玩一个游戏，帮你理解这个过程。请你补全下面这句话：

今天天气真 ___

你会猜什么？"好"？"热"？"冷"？

你的大脑调取了所有你见过的以"今天天气真"开头的句子，然后给出了概率最高的那个字。这不神奇——因为你一生中读过、听过、说过无数这样的话。

现在换一句：

量子纠缠现象的本质是微观粒子之间存在着一种超越经典物理学的 ___

你可能猜不出来了，除非你学过量子物理。但如果你学过，你的大脑同样是在调取相关记忆。

AI 做的，和你刚才做的，原理是一样的。 它只不过训练数据比你多几个数量级——它几乎读完了互联网上所有公开的文本。所以当你输入"量子纠缠现象的本质"，它能从"记忆"中找到无数相关文本，然后猜出"关联"、"纠缠"、"相互作用"等可能的下文。

一个重要的类比

把 AI 想象成你身边一个知识面极广、但从不真正"理解"任何东西的同学。

这个同学读了图书馆里的每一本书。你问他任何问题，他都能滔滔不绝地说出听起来很有道理的话——因为他在记忆里找到了相似的内容，然后把这些内容重新组合输出。

但如果你问他一个他从来没在书里见过的问题（比如"我邻居家的猫今天为什么不吃东西"），他会怎么做？他会硬编。他会从"猫"、"不吃东西"、"邻居"等关键词出发，编出一个听起来合理但毫无事实依据的回答。

这就是 AI 的本质：一个超级强大的"下一个字预测器"。

---

二、三个你必须知道的 AI 特性

理解了 AI 的本质，接下来三个特性就很好懂了。这三个特性，决定了你使用 AI 的成败。

特性 1：知识有截止日期

AI 的知识来自于训练数据。训练数据是在某个时间点之前收集的。所以——

AI 不知道训练截止日期之后发生的任何事情。

以 GPT-4 为例，它的训练数据截止到 2023 年底（具体版本不同）。如果你问它"2026 年世界杯冠军是谁"，它不知道。如果你问它"今年最火的 AI 工具是什么"，它只能基于 2023 年之前的信息回答。

这就像你去图书馆查资料，但图书馆里所有书都是 2023 年出版的——之后世界发生了什么，图书馆里没有记录。

但这不代表 AI 完全没用。对于截止日期之前的知识（历史、科学常识、编程语言基础、写作技巧等），AI 的知识储备非常惊人。

如何知道你的 AI 的知识截止日期？ 你可以直接问它："你的训练数据截止到什么时候？"——大多数 AI 会诚实回答。

特性 2：存在知识偏差

训练数据来源于互联网。互联网上的内容，天然存在偏差。

关于做饭的文章，远远多于关于类星体（一种天文现象）的文章

关于明星八卦的帖子，远远多于关于古生物学的帖子

英语内容，远远多于其他语言的内容

所以 AI 对热门话题的回答更准确，对冷门话题的回答就不那么靠谱。

就像那个比喻：AI 就像一个只读过畅销书的人——你对畅销书的话题滔滔不绝，但你问他关于某个冷门学术领域的问题，他就开始胡说了。

特性 3：会产生幻觉（Hallucination）

这是 AI 最危险也最被低估的特性。

AI 幻觉 = AI 一本正经地编造不存在的信息。

举几个真实例子：

你让 AI 推荐 3 篇关于某个主题的论文，它可能会给你 3 个看起来完全正规的论文标题、作者、发表年份——但这 3 篇论文可能根本不存在。它编的。

你问 AI 某条法律条文的内容，它可能会给你一段读起来非常专业的条文——但这段条文并不在真实的法律中。

你问 AI 某个历史人物的生平，它可能会把两个人的生平混在一起，编出一个不存在的"综合版本"。

为什么会产生幻觉？ 回到 AI 的本质——它是在预测下一个字。当它不知道真实答案的时候，它不会说"我不知道"，它会继续预测——基于它见过的相似内容，"编"出一个看起来合理的答案。

关键洞察：AI 的目标不是"说出真相"，而是"说出听起来合理的话"。这两个目标经常重合，但绝不总是重合。

---

三、为什么同一个问题问两次，答案不一样？

你可能已经发现了：把同一个提示词复制粘贴，再问一次，AI 的回答可能完全不同。

这不是 bug。这是故意设计的随机性。

AI 有一个参数叫 temperature（温度），控制输出的随机程度。

Temperature 低（比如 0.1）：AI 几乎总是选择概率最高的下一个字 → 结果稳定、保守、可能略显无聊

Temperature 高（比如 0.9）：AI 会偶尔选择概率较低的下一个字 → 结果多变、有创意、但也容易跑偏

默认情况下，对话 AI 的 temperature 通常设置在 0.7 左右——既有一定的稳定性，又保留一定的创意空间。

这对你意味着什么？

好的一面：AI 不会总是给千篇一律的答案，你可以多次尝试获得不同的视角

坏的一面：你不能指望 AI 每次给出一模一样的结果，如果你需要严格的稳定性，需要额外的手段（比如调低 temperature，或者写更精确的提示词——这是下一篇要讲的内容）

---

四、什么时候该信任 AI？什么时候不该？

有了以上的认知，我们可以总结一个简单的判断框架：

✅ 可以信任 AI 的场景

常识性知识：科学常识、历史事件、编程语法等——这些在训练数据中大量出现，AI 的正确率很高

语言与写作：润色、翻译、改写、总结——AI 的核心能力就是语言处理

创意发散：头脑风暴、生成想法、提供灵感——不需要"对错"，只需要"有用"

格式化输出：把一种格式转成另一种格式（比如把笔记转成 Markdown 表格）

⚠️ 必须交叉验证的场景

最新信息：训练截止日期之后的任何内容——AI 不知道就是不知道

精确数据：统计数据、日期、人名——AI 可能"发明"数据

专业领域：医疗建议、法律条文、金融分析——AI 不是专家，它只是在模仿专家的语言

引用来源：AI 提到的论文、书籍、链接——必须亲自验证

记住一个原则：关键事实永远查两个来源。AI 说的和搜索结果要对得上。

---

五、本篇总结

一句话记住：AI 不是一个翻书找答案的图书馆，而是一个知识面极广、但偶尔会瞎编的聪明同事。

你现在知道了：

AI 是"猜词机器"，不是搜索引擎——它在预测下一个字，不是在查数据库

AI 有三个核心局限：知识截止日、知识偏差、幻觉

输出不稳定不是 bug，是刻意设计的随机性

常识和语言任务可以信任 AI，精确数据和专业建议必须交叉验证

这些认知是所有后续技巧的地基。不理解 AI 的本质，你学再多"提示词模板"都是在沙子上盖房子。

---

下一篇预告：既然 AI 是一个猜词机器，那我们给它不同的"上文"，它就猜出不同的"下文"——这个"上文"，就是提示词。下一篇，我们来学怎么写好它。👉 [第 2 篇：开口就对：写好提示词的四要素]()

---

✏️ 配套练习：

基础检验题：打开任意 AI 工具，问它"2026 年世界杯冠军是谁"，观察它的回答，判断它是否产生了幻觉，并解释原因。

应用分析题：找一个你最近用 AI 回答不太满意的问题，从"概率预测""知识截止""幻觉"三个角度分析可能的原因。

拓展思考题：如果 AI 本质是"猜下一个字"，那它为什么有时候表现得像真的在"思考"？这和下一篇要讲的"提示词设计"有什么关系？

AI 到底怎么"想"的？