AI到底是个啥？—— AI/ML/DL/LLM 概念层层剥开

📍 本文适合完全零基础读者，预计阅读 12 分钟。本专题第 1/8 篇。

你将学到：人工智能到底是什么、它和大模型是什么关系、以及为什么说"你每天都在用 AI"。

---

学习目标

🎯 学完本文后，你将能够：

- 说清楚"人工智能"不是最近才有的，它 1956 年就诞生了

- 画出 AI → 机器学习 → 深度学习 → 大模型的嵌套关系

- 用大白话向家人解释"大模型到底是什么"

---

前置唤醒

📚 本文不需要你有任何技术背景。你唯一需要的就是用过智能手机。

如果你会搜索、聊天、拍照，那这篇文章完全适合你。

---

1. 从你身边说起：你早就在用 AI 了

先别急着看定义。我们来看几个场景：

早上打开豆包，让它帮你写一封请假邮件

刷短视频时，系统总能精准推荐你喜欢的内容

拍照发朋友圈，手机自动把人脸变好看（美颜）

用DeepSeek查资料，几秒钟就整理出一份报告大纲

购物 App 总能猜到你最近想买什么

这些场景背后，都有一项共同技术在支撑——人工智能（Artificial Intelligence，简称 AI）。

你可能觉得 AI 是实验室里的"黑科技"、是科幻片里的机器人。但其实，你每天都在用 AI，只是没意识到而已。

✨ 一句话记住：AI 早已不是科幻片里的东西，它就在你的手机里。

---

2. 第一层：人工智能（AI）—— 一个 60 多年前的老概念

💬 简单来说，人工智能就是让机器做那些原本只有人才能做的事。

这个词不是近几年才出现的。它的起源可以追溯到 1956 年——那时候我们很多人的爷爷奶奶还没出生。

那一年，一群计算机科学家在美国达特茅斯学院开了个会。他们在会上第一次提出了「Artificial Intelligence」这个名字。他们的目标非常朴素：让机器能像人一样思考、推理、识别东西。

从那以后，"人工智能"就成了一个最大的范畴，涵盖了所有让机器变"聪明"的技术。不管是下围棋的 AlphaGo、你手机里的语音助手，还是今天能陪你聊天的 ChatGPT，统统都算 AI。

🔗 类比映射：AI = 交通工具 —— 涵盖自行车、汽车、高铁、飞机等所有能代步的东西

但 AI 这个范畴太大了，大到没法直接"做"出一个 AI。就像你不能直接"造"一个交通工具——你得决定是造自行车还是造飞机。

那 AI 具体是怎么实现的呢？这就引出了第二层：机器学习（Machine Learning，简称 ML）。

✨ 一句话记住：AI 是目标（让机器变聪明），不是一个具体的技术。

---

3. 第二层：机器学习（ML）—— 不写规则，让机器自己"学"

3.1 为什么需要机器学习？

传统的程序是怎么工作的？程序员写死规则——

text

如果温度超过 30 度，就开空调。
如果快递地址包含"北京"，就收 10 元运费。

如果温度超过 30 度，就开空调。

如果快递地址包含"北京"，就收 10 元运费。

text

北   ████████████████████  95%
上   ███                    3%
南   █                      1%
其他                         1%

但有些问题，你根本写不完规则。比如——识别一张照片里有没有猫。

猫的品种有几十种，角度千变万化，光线有的亮有的暗，有的猫只露出半张脸……你不可能用"如果……就……"把每一种情况都写出来。

3.2 机器学习的思路

💬 简单来说，机器学习就是不给机器写规则，而是给它看成千上万的例子，让它自己总结规律。

你不需要告诉机器"猫有两只尖耳朵、一条长尾巴、胡须……"。你只需要给它看 10 万张猫的照片，每张照片标注"这是猫"；再给它看 10 万张不是猫的照片，标注"这不是猫"。机器自己就会从中找出规律。

🔗 类比映射：教小孩认苹果 —— 你不需要讲植物学定义，指给他看几次他就会了

这就是机器学习的核心：用数据训练，而不是用规则编程。

✨ 一句话记住：机器学习 = 不写规则，让机器从数据中自学成才。

---

4. 第三层：深度学习（DL）—— 机器学习的"豪华升级版"

4.1 为什么需要深度学习？

机器学习好用，但它有个问题：面对太复杂的东西（比如理解一句话的意思、识别一张照片里的所有物体），传统的机器学习方法就不够用了。

这时候，深度学习（Deep Learning，简称 DL）登场了。

4.2 什么是深度学习？

💬 简单来说，深度学习就是用模仿人脑结构的多层"人工神经元"来做机器学习。

人脑有大约 860 亿个神经元，它们互相连接，信息一层层传递。深度学习模拟了这个结构——它搭建了很多层"人工神经元"，数据从第一层进去，像过筛子一样一层层往下传，每一层提取不同级别的特征，最后输出结果。

加载图表...

graph LR

A[输入 一张猫的照片] --> B[第1层 识别边缘和颜色]

B --> C[第2层 识别耳朵、眼睛形状]

C --> D[第3层 组合：这是猫！]

text

中国的首都是北
京   ████████████████████  98%
方   █                      1%
其他                         1%

这张图的意思是：一张照片输入后，第一层只看到像素和颜色块；第二层开始识别出"这里有两只尖耳朵"；第三层综合判断——"尖耳朵 + 圆脸 + 胡须 = 这是一只猫"。

这就是深度学习擅长处理复杂数据的原因——它把大问题拆成了小问题，一层一层解决。

✨ 一句话记住：深度学习 = 用很多层"筛子"逐层提取信息，越深越厉害。

---

5. 第四层：大语言模型（LLM）—— 今天的主角

5.1 一句话本质

大模型就是一个"读了人类几乎所有书、然后能跟你对话"的超级程序。

5.2 白话理解

💬 简单来说，大模型就是一个超级词语接龙高手。

你给它一个开头，比如「今天天气真……」，它就能接「好，阳光明媚，适合出去玩」；你问它「什么是光合作用？」，它就能给你一段解释。

它为什么能做到？因为它"读"过互联网上几乎所有的文本——新闻、书籍、论文、代码、对话记录……在阅读的过程中，它学会了「在这些文字之后，下一个最可能出现的文字是什么」。

5.3 类比理解

🔗 类比映射：婴儿学说话 —— 听大人说话（训练数据）→ 模仿着说出来（文本生成）

想象一个婴儿，从出生起就被放在一个房间里，房间里 24 小时不间断播放全世界所有的对话、所有的书、所有的文章。这个婴儿听了几年之后，虽然它不一定真正"理解"每句话的意思，但它已经能非常流利地接话了——你说上句，它能接下句；你问问题，它能给出听起来很像那么回事的回答。

这就是大模型的本质：它不是在思考，它是在做概率预测。只不过这个预测能力太强了，强到看起来像是在思考。

⚠️ 说明：大模型没有意识，没有情感，不会"爱"也不会"恨"。它只是在做数学计算，只不过计算结果很像人类的语言。

5.4 严谨定义

大语言模型（Large Language Model，LLM） 是指参数规模巨大（通常在十亿以上）、使用海量文本数据训练而成的人工智能模型，具有强大的语言理解和文本生成能力。

它的"大"体现在三个维度：

维度什么意思打个比方---------参数大模型内部的可调"旋钮"有几千亿个一个超级复杂的调音台数据大训练用的文字多达几万亿词把人类所有图书馆的书都读一遍算力大训练需要几千张 GPU 跑好几个月电费都够买好几套房

5.5 一个简单演示

👇 下面这个例子会让你直观感受大模型的"词语接龙"本质：

假如你输入：「中国的首都是」

大模型内部会计算每一个可能的下一个词的"概率"：

北 ████████████████████ 95%

上 ███ 3%

南 █ 1%

其他 1%

它选了概率最高的「北」。然后继续：

中国的首都是北

京 ████████████████████ 98%

方 █ 1%

其他 1%

最终得到：「中国的首都是北京」。

看起来很简单？但当这个「预测下一个词」的操作重复几万次、配合几千亿个参数时，它就能写出文章、回答复杂问题、甚至写代码了。这就是涌现能力（Emergence）——量变引起质变。

💡 关键要点：

- 大模型本质上是在做概率预测，不是真正的逻辑推理

- 它的强大来自规模和数据的量变引起质变

- 它没有意识，没有"理解"，只有模式匹配

🤔 思考暂停：如果大模型只是在"预测下一个词"，那它是怎么做到解数学题、写代码的？答案是涌现能力——当参数和数据量足够大时，模型会自动出现超预期的复杂能力。至于为什么，连科学家都还没完全搞明白。

✨ 一句话记住：大模型 = 海量数据喂出来的"超级接龙选手"。

---

6. 四层关系总结

现在我们把四层关系画在一张图里：

加载图表...

graph TD

AI[人工智能 AI 让机器变聪明的所有技术 1956年诞生] --> ML[机器学习 ML 让机器从数据中自学规律]

ML --> DL[深度学习 DL 用多层神经网络处理复杂数据]

DL --> LLM[大语言模型 LLM 读了人类几乎所有书的超级程序]

用一句话说清楚四层关系：

人工智能（AI）是最大的目标，机器学习（ML）是实现这个目标的主要方法，深度学习（DL）是机器学习里最厉害的一类技术，而大语言模型（LLM）是深度学习发展到极致的产物。

🔗 类比映射：俄罗斯套娃 —— AI 是最大的套娃 → 里面装着 ML → ML 里面装着 DL → DL 最里面是 LLM

---

7. 常见误区速查

误区真相------"AI 是近几年才出现的"AI 1956 年就诞生了，已经发展了近 70 年"AI = 机器人"机器人只是 AI 的一种载体，大部分 AI 没有物理身体"大模型真的在思考"不，它在做概率预测，只是这个预测能力强到看起来像思考"AI、ML、DL、LLM 是四个不同的东西"它们是包含关系，一层套一层

---

8. 练习与思考

练习 1：概念梳理

请用自己的话，向一个完全不知道 AI 的家人解释：大模型到底是什么？

<summary>查看思路引导</summary>

你可以这样说：「大模型就像一个读了全世界所有书的学生。你问他任何问题，他都能根据读过的内容，组织一个听起来很有道理的回答。但他不是真正的"懂"——他只是在猜你说的话后面最可能接什么。」

关键词：① 海量阅读 → ② 概率预测 → ③ 不是真正理解

</details>

练习 2：辨一辨

下面哪些说法是正确的？

A. "大模型和 ChatGPT 是同一个东西"

B. "深度学习是机器学习的一种方法"

C. "人工智能这个词是 2010 年以后才出现的"

D. "大模型能回答问题，是因为它真正理解了语言"

<summary>查看答案与解析</summary>

A（错误）：ChatGPT 是大模型的一个具体产品，就像"汽车"和"特斯拉"的关系。

B（正确）：深度学习 ⊂ 机器学习，是后者的一种方法。

C（错误）：1956 年达特茅斯会议上就提出了"人工智能"这个词。

D（错误）：大模型做的是概率预测，不是真正理解。参见本文第 5 节。

如果你答错了 A 或 D，建议回看第 5 节；如果答错了 C，回看第 2 节。

</details>

练习 3：观察一下

今天你打开手机，留意一下哪些功能背后可能是 AI 在支撑？（提示：推荐算法、语音助手、拍照美颜、输入法联想……）

<summary>查看思路引导</summary>

至少可以观察到这些：

短视频/购物 App 的推荐：AI 分析你的浏览历史，预测你喜欢什么

输入法联想词：你打"今天天气"，它自动推荐"真好"——这就是词语接龙！

手机人脸解锁：深度学习识别你的脸

地图 App 的路线规划：AI 计算最优路径

你现在是不是觉得 AI 无处不在？

</details>

---

延伸阅读

想了解 AI 是怎么一步步走到今天的？ → 见本专题第 2 篇「大模型的前世今生」

好奇大模型到底是怎么训练出来的？ → 见本专题第 3 篇「大模型是怎么"学会"东西的？」

---

本文总结

💡 核心收获：

- AI 是一个 70 年的老目标：1956 年诞生，不是新鲜事。真正新鲜的是大模型。

- 四层套娃关系：AI ⊃ ML ⊃ DL ⊃ LLM，一层套一层，大模型是最里面的核。

- 大模型 = 超级词语接龙：它不是思考，是概率预测。但因为够大够强，看起来像在思考。

⚠️ 注意事项：本文是入门科普，没有涉及 Transformer 架构细节和数学原理。这些内容需要一定技术基础，不在本专题范围内。下一篇我们将了解 AI 从 1956 年到现在的发展历程——是什么让 AI 等了 70 年才突然爆发？

AI到底是个啥？—— AI/ML/DL/LLM 概念层层剥开

AI到底是个啥？—— AI/ML/DL/LLM 概念层层剥开

学习目标

前置唤醒

1. 从你身边说起：你早就在用 AI 了

2. 第一层：人工智能（AI）—— 一个 60 多年前的老概念

3. 第二层：机器学习（ML）—— 不写规则，让机器自己"学"

3.1 为什么需要机器学习？

3.2 机器学习的思路

4. 第三层：深度学习（DL）—— 机器学习的"豪华升级版"

4.1 为什么需要深度学习？

4.2 什么是深度学习？

5. 第四层：大语言模型（LLM）—— 今天的主角

5.1 一句话本质

5.2 白话理解

5.3 类比理解

5.4 严谨定义

5.5 一个简单演示

6. 四层关系总结

7. 常见误区速查

8. 练习与思考

练习 1：概念梳理

练习 2：辨一辨

练习 3：观察一下

延伸阅读

本文总结

相关文章

探索更多内容

评论 (0)