大模型的前世今生 —— 从 1956 到 ChatGPT

📍 本文适合完全零基础读者，预计阅读 10 分钟。本专题第 2/8 篇。

你将学到：AI 是怎么从 70 年前的一个想法变成今天你手机里的 DeepSeek 的。

---

学习目标

🎯 学完本文后，你将能够：

- 说出 AI 发展史上的 5 个关键里程碑

- 理解为什么 AI 在最近几年突然爆发

- 认识当前主流的 AI 模型名字（GPT、DeepSeek、豆包等），不再一脸懵

---

前置唤醒

📚 开始之前，你需要理解：

- 人工智能（AI）、机器学习（ML）、深度学习（DL）、大语言模型（LLM）的包含关系（见本专题第 1 篇）

---

1. 引子：你手机里的 AI，背后是 70 年的故事

你可能觉得 DeepSeek、豆包这些 AI 工具是"突然冒出来"的。但其实，你今天能跟 AI 聊天，背后是几十万科研人员花了近 70 年的心血。

如果把 AI 的发展比作一部电影，那前面 60 多年都是漫长的铺垫，真正的"高潮"其实只发生在最近三四年。

✨ 一句话记住：AI 不是横空出世的奇迹，而是 70 年技术积累的量变到质变。

---

2. 第一阶段：1956-2010，漫长的探索与寒冬

2.1 起点：1956 年达特茅斯会议

1956 年夏天，一群年轻的计算机科学家在美国达特茅斯学院开了个会。他们中有一个叫约翰·麦卡锡（John McCarthy）的人，第一次提出了「Artificial Intelligence」（人工智能）这个名字。

他们的目标很朴素：让机器能像人一样思考。当时的他们信心满满，认为这个问题十年内就能解决。结果呢？花了快 70 年。

2.2 早期的兴奋与失望

接下来的几十年，AI 经历了多次"期望膨胀 → 失望 → 资金断流"的循环，历史上叫AI 寒冬（AI Winter）。

1960 年代：研究人员做出了能证明数学定理、能下棋的程序，大家很兴奋。但很快发现这些程序出了实验室就什么都不会。

1980 年代：专家系统（Expert System）流行——把人类专家的知识写成规则，让程序照着执行。但问题是，规则太多写不完，而且世界一变规则就得全改。

1990 年代：IBM 的"深蓝"（Deep Blue）计算机打败了国际象棋世界冠军卡斯帕罗夫。这是个里程碑，但深蓝只能下棋，别的什么都不会。

🤔 思考暂停：你有没有发现，这一时期的 AI 都有一个共同问题——只能做一件事。下棋的只会下棋，看病的只会看一种病。这和我们今天用的"什么都能聊"的 AI 完全不同。

造成这个问题的最核心原因是：所有的规则都要人手工编写。而世界太复杂了，人类根本写不完所有规则。

✨ 一句话记住：没有机器学习的时代，AI 只能做"专才"，做不了"通才"。

---

3. 第二阶段：2012，深度学习的转折点

3.1 一场比赛改变了一切

2012 年，发生了一件在当时看起来不起眼、但事后被证明是历史转折的事。

有一个叫 ImageNet 的图像识别比赛——给 AI 看 100 万张照片，让它说出每张照片里有什么东西。以前最好的 AI 错误率在 25% 左右。

这一年，一个叫亚历克斯·克里热夫斯基（Alex Krizhevsky）的研究生，用了一种叫深度学习的方法，把错误率降到了 16%——比第二名好了整整 10 个百分点。

🔗 类比映射：就像奥运会百米赛跑，大家成绩都在 10 秒左右，突然有个人跑出了 9 秒——所有人都知道，时代变了。

3.2 为什么 2012 年这么重要？

因为 2012 年同时凑齐了 AI 爆发的三大条件：

条件说明类比---------大数据互联网产生了海量数据（照片、文字、视频）有了足够的"教材"强算力GPU（显卡）让计算速度提升了百倍有了足够快的"大脑"好算法深度学习比传统方法效果好太多有了更好的"学习方法"

这三大条件缺一不可。之前没有大数据和强算力的时候，深度学习理论再好也没用——就像给你一本世界名厨菜谱，但你连锅都没有。

✨ 一句话记住：2012 = 大数据 + 强算力 + 深度学习，三个条件首次同时凑齐。

---

4. 第三阶段：2017，Transformer 诞生

4.1 一篇改变世界的论文

2017 年，Google 的几位研究员发表了一篇论文，标题很朴素：《Attention Is All You Need》（注意力就是你所需要的全部）。

这篇论文提出了一个叫 Transformer 的模型架构。这个名字你可能不熟，但它是今天所有大模型的"地基"。GPT 基于它，DeepSeek 基于它，豆包、文心一言、通义千问——全部基于它。

💬 简单来说，Transformer 的核心创新是让模型能"一边读一边注意重点"。

以前的模型读文字是一个字一个字读的，读到后面就忘了前面。Transformer 不一样——它可以同时看一整段话，并自动判断哪些词之间的关系最重要。

比如这句话：「小明把书放在桌上，后来它不见了。」

传统模型可能搞不清"它"指的是"小明"还是"书"。Transformer 能分析出"它"和"书"的关系最紧密——这就是自注意力机制（Self-Attention）。

🤔 思考暂停：你可以把 Transformer 想象成一个超强的"阅读理解老师"。普通人读长文章读到后面会忘记前面，但 Transformer 永远记得全文每一个词之间的关系。

---

5. 第四阶段：2022，ChatGPT 引爆全球

5.1 为什么是 ChatGPT？

在 ChatGPT 之前，其实已经有 GPT-1、GPT-2、GPT-3 了。但普通人对它们几乎一无所知。

2022 年 11 月，OpenAI 公司做了一个聪明的决定：把 GPT 包装成一个聊天界面，免费开放给所有人用。

结果呢？ChatGPT 在 2 个月内用户突破 1 亿，成为历史上增长最快的应用。

🔗 类比映射：GPT-3 像一个藏在实验室里的超级引擎，ChatGPT 给它装上了方向盘和座椅，普通人终于能"开"了。

5.2 为什么说它改变了世界？

因为在此之前，AI 是"专家工具"——只有程序员和研究人员才会用。ChatGPT 让任何一个会用手机打字的人都能用上 AI。

一个老奶奶不需要懂代码，只需要在对话框里打字：「帮我写一封给孙子的生日祝福」，AI 就能帮她做到。

AI 第一次真正走进了每一个普通人的生活。

✨ 一句话记住：ChatGPT 的意义不是技术突破，而是让 AI 从"实验室"走进了"客厅"。

---

6. 第五阶段：2025-2026，中国大模型全面崛起

如果说 2023-2024 年是"美国领跑"，那 2025-2026 年就是中国全面追赶并开始超越的时期。

6.1 一个震撼全球的名字：DeepSeek

2025 年初，一家叫"深度求索"的中国公司发布了 DeepSeek 模型。它性能比肩 GPT-4，但训练成本只有后者的几分之一，而且完全开源——任何人都能下载、研究、使用。

这在全球引起了轰动。因为在此之前，大家普遍认为训练顶尖模型需要烧几十亿美元。DeepSeek 证明了：聪明的方法比烧钱更重要。

6.2 百花齐放的国产模型

今天在中国，你至少有这些选择：

模型背后的公司一句话特点---------豆包字节跳动中文最强，日常全能，免费好用DeepSeek深度求索推理能力突出，开源标杆Kimi月之暗面超长文本处理王者通义千问阿里云综合均衡，中文创作好文心一言百度百度生态整合，最新版本性能对标国际顶级

6.3 一组数字感受一下

截至 2025 年底：

中国生成式 AI 用户突破 6 亿人

豆包累计安装量超 26 亿次

中国 AI 核心产业规模突破 1.2 万亿元

✨ 一句话记住：2025 是中国大模型的"破局之年"，从此不再是美国一家独大。

---

7. 为什么是现在爆发？三个条件终于凑齐了

回顾整个历史，你会发现 AI 其实一直在等三样东西：

text

大数据 ─┐
强算力 ─┼─→ 2012年开始凑齐 → 2017年Transformer → 2022年ChatGPT引爆
好算法 ─┘

大数据 ─┐

强算力 ─┼─→ 2012年开始凑齐 → 2017年Transformer → 2022年ChatGPT引爆

好算法 ─┘

大数据：互联网 30 年积累了人类历史上最大的文本和图像数据库

强算力：GPU（显卡）的性能每两年翻一倍，训练大模型终于可行

好算法：Transformer 架构是"临门一脚"，之前的算法都不够好

就像做菜——食材（数据）、灶火（算力）、菜谱（算法）三个条件缺一不可。AI 等了 70 年，终于等齐了这三样。

---

8. 常见误区速查

误区真相------"AI 是最近几年才有的"AI 概念 1956 年就诞生了，近 70 年历史"ChatGPT 是第一个 AI 聊天工具"之前已有多个聊天机器人，ChatGPT 是第一个"出圈"的"中国 AI 落后美国很多"2025 年起中国已在大量指标上追上甚至超越"大模型全靠美国技术"DeepSeek 等证明中国也能原创顶尖技术

---

9. 练习与思考

练习 1：时间线填空

请把下列事件按时间顺序排列：

A. ChatGPT 发布 B. Transformer 论文发表 C. 达特茅斯会议 D. DeepSeek 震惊全球

正确顺序：C（1956）→ B（2017）→ A（2022）→ D（2025）

如果你排错了，回顾本文第 2、4、5、6 节。

</details>

练习 2：思考题

"为什么 AI 在 2012 年之前发展那么慢，之后却突飞猛进？"——用自己的话回答。

<summary>查看思路引导</summary>

核心要点：2012 年同时凑齐了 AI 爆发的三个条件——大数据（互联网积累）、强算力（GPU 性能飞跃）、好算法（深度学习突破）。在此之前，三者从未同时具备。

想想看——就像你想做一顿大餐，但以前要么没食材，要么没灶台，要么没菜谱。

</details>

练习 3：查一查

你现在打开手机，能不能找到至少 3 个在用 AI 的 App？你最常用的 AI 工具是哪个？

<summary>查看思路引导</summary>

常见答案：豆包、DeepSeek、Kimi、通义千问、文心一言、抖音（推荐算法）、淘宝（推荐算法）、美图秀秀（AI 美颜）、微信输入法（AI 联想词）……

你会发现——AI 真的已经无处不在。

</details>

---

延伸阅读

好奇大模型具体是怎么训练出来的？ → 见本专题第 3 篇「大模型是怎么"学会"东西的？」

想了解这些 AI 工具怎么用？ → 见本专题第 7 篇「零基础工具实战指南」

---

本文总结

💡 核心收获：

- 70 年的马拉松，最后 3 年冲刺：AI 1956 年诞生，经历了多次寒冬，直到 2022 年才真正走进普通人的生活。

- 三个条件同时凑齐才爆发：大数据 + 强算力 + Transformer 架构，缺一个都不行。

- 中国不再是追随者：2025 年起，DeepSeek 等国产模型证明了中国也能做出世界顶尖的 AI。

⚠️ 注意事项：本文只梳理了关键里程碑，省略了大量中间过程（如专家系统、贝叶斯网络、SVM 等传统方法）。下一篇我们将深入大模型的训练过程，了解它是怎么从"一张白纸"变成"什么都会"的。

大模型的前世今生 —— 从 1956 到 ChatGPT

大模型的前世今生 —— 从 1956 到 ChatGPT

学习目标

前置唤醒

1. 引子：你手机里的 AI，背后是 70 年的故事

2. 第一阶段：1956-2010，漫长的探索与寒冬

2.1 起点：1956 年达特茅斯会议

2.2 早期的兴奋与失望

3. 第二阶段：2012，深度学习的转折点

3.1 一场比赛改变了一切

3.2 为什么 2012 年这么重要？

4. 第三阶段：2017，Transformer 诞生

4.1 一篇改变世界的论文

5. 第四阶段：2022，ChatGPT 引爆全球

5.1 为什么是 ChatGPT？

5.2 为什么说它改变了世界？

6. 第五阶段：2025-2026，中国大模型全面崛起

6.1 一个震撼全球的名字：DeepSeek

6.2 百花齐放的国产模型

6.3 一组数字感受一下

7. 为什么是现在爆发？三个条件终于凑齐了

8. 常见误区速查

9. 练习与思考

练习 1：时间线填空

练习 2：思考题

练习 3：查一查

延伸阅读

本文总结

相关文章

探索更多内容

评论 (0)