大模型的前世今生 —— 从 1956 到 ChatGPT
📍 本文适合完全零基础读者,预计阅读 10 分钟。本专题第 2/8 篇。
你将学到:AI 是怎么从 70 年前的一个想法变成今天你手机里的 DeepSeek 的。
---
学习目标
🎯 学完本文后,你将能够:
- 说出 AI 发展史上的 5 个关键里程碑
- 理解为什么 AI 在最近几年突然爆发
- 认识当前主流的 AI 模型名字(GPT、DeepSeek、豆包等),不再一脸懵
---
前置唤醒
📚 开始之前,你需要理解:
- 人工智能(AI)、机器学习(ML)、深度学习(DL)、大语言模型(LLM)的包含关系(见本专题第 1 篇)
---
1. 引子:你手机里的 AI,背后是 70 年的故事
你可能觉得 DeepSeek、豆包这些 AI 工具是"突然冒出来"的。但其实,你今天能跟 AI 聊天,背后是几十万科研人员花了近 70 年的心血。
如果把 AI 的发展比作一部电影,那前面 60 多年都是漫长的铺垫,真正的"高潮"其实只发生在最近三四年。
✨ 一句话记住:AI 不是横空出世的奇迹,而是 70 年技术积累的量变到质变。
---
2. 第一阶段:1956-2010,漫长的探索与寒冬
2.1 起点:1956 年达特茅斯会议
1956 年夏天,一群年轻的计算机科学家在美国达特茅斯学院开了个会。他们中有一个叫约翰·麦卡锡(John McCarthy)的人,第一次提出了「Artificial Intelligence」(人工智能)这个名字。
他们的目标很朴素:让机器能像人一样思考。当时的他们信心满满,认为这个问题十年内就能解决。结果呢?花了快 70 年。
2.2 早期的兴奋与失望
接下来的几十年,AI 经历了多次"期望膨胀 → 失望 → 资金断流"的循环,历史上叫AI 寒冬(AI Winter)。
🤔 思考暂停:你有没有发现,这一时期的 AI 都有一个共同问题——只能做一件事。下棋的只会下棋,看病的只会看一种病。这和我们今天用的"什么都能聊"的 AI 完全不同。
造成这个问题的最核心原因是:所有的规则都要人手工编写。而世界太复杂了,人类根本写不完所有规则。
✨ 一句话记住:没有机器学习的时代,AI 只能做"专才",做不了"通才"。
---
3. 第二阶段:2012,深度学习的转折点
3.1 一场比赛改变了一切
2012 年,发生了一件在当时看起来不起眼、但事后被证明是历史转折的事。
有一个叫 ImageNet 的图像识别比赛——给 AI 看 100 万张照片,让它说出每张照片里有什么东西。以前最好的 AI 错误率在 25% 左右。
这一年,一个叫亚历克斯·克里热夫斯基(Alex Krizhevsky)的研究生,用了一种叫深度学习的方法,把错误率降到了 16%——比第二名好了整整 10 个百分点。
🔗 类比映射:就像奥运会百米赛跑,大家成绩都在 10 秒左右,突然有个人跑出了 9 秒——所有人都知道,时代变了。
3.2 为什么 2012 年这么重要?
因为 2012 年同时凑齐了 AI 爆发的三大条件:
这三大条件缺一不可。之前没有大数据和强算力的时候,深度学习理论再好也没用——就像给你一本世界名厨菜谱,但你连锅都没有。
✨ 一句话记住:2012 = 大数据 + 强算力 + 深度学习,三个条件首次同时凑齐。
---
4. 第三阶段:2017,Transformer 诞生
4.1 一篇改变世界的论文
2017 年,Google 的几位研究员发表了一篇论文,标题很朴素:《Attention Is All You Need》(注意力就是你所需要的全部)。
这篇论文提出了一个叫 Transformer 的模型架构。这个名字你可能不熟,但它是今天所有大模型的"地基"。GPT 基于它,DeepSeek 基于它,豆包、文心一言、通义千问——全部基于它。
💬 简单来说,Transformer 的核心创新是让模型能"一边读一边注意重点"。
以前的模型读文字是一个字一个字读的,读到后面就忘了前面。Transformer 不一样——它可以同时看一整段话,并自动判断哪些词之间的关系最重要。
比如这句话:「小明把书放在桌上,后来它不见了。」
传统模型可能搞不清"它"指的是"小明"还是"书"。Transformer 能分析出"它"和"书"的关系最紧密——这就是自注意力机制(Self-Attention)。
🤔 思考暂停:你可以把 Transformer 想象成一个超强的"阅读理解老师"。普通人读长文章读到后面会忘记前面,但 Transformer 永远记得全文每一个词之间的关系。
---
5. 第四阶段:2022,ChatGPT 引爆全球
5.1 为什么是 ChatGPT?
在 ChatGPT 之前,其实已经有 GPT-1、GPT-2、GPT-3 了。但普通人对它们几乎一无所知。
2022 年 11 月,OpenAI 公司做了一个聪明的决定:把 GPT 包装成一个聊天界面,免费开放给所有人用。
结果呢?ChatGPT 在 2 个月内用户突破 1 亿,成为历史上增长最快的应用。
🔗 类比映射:GPT-3 像一个藏在实验室里的超级引擎,ChatGPT 给它装上了方向盘和座椅,普通人终于能"开"了。
5.2 为什么说它改变了世界?
因为在此之前,AI 是"专家工具"——只有程序员和研究人员才会用。ChatGPT 让任何一个会用手机打字的人都能用上 AI。
一个老奶奶不需要懂代码,只需要在对话框里打字:「帮我写一封给孙子的生日祝福」,AI 就能帮她做到。
AI 第一次真正走进了每一个普通人的生活。
✨ 一句话记住:ChatGPT 的意义不是技术突破,而是让 AI 从"实验室"走进了"客厅"。
---
6. 第五阶段:2025-2026,中国大模型全面崛起
如果说 2023-2024 年是"美国领跑",那 2025-2026 年就是中国全面追赶并开始超越的时期。
6.1 一个震撼全球的名字:DeepSeek
2025 年初,一家叫"深度求索"的中国公司发布了 DeepSeek 模型。它性能比肩 GPT-4,但训练成本只有后者的几分之一,而且完全开源——任何人都能下载、研究、使用。
这在全球引起了轰动。因为在此之前,大家普遍认为训练顶尖模型需要烧几十亿美元。DeepSeek 证明了:聪明的方法比烧钱更重要。
6.2 百花齐放的国产模型
今天在中国,你至少有这些选择:
6.3 一组数字感受一下
截至 2025 年底:
✨ 一句话记住:2025 是中国大模型的"破局之年",从此不再是美国一家独大。
---
7. 为什么是现在爆发?三个条件终于凑齐了
回顾整个历史,你会发现 AI 其实一直在等三样东西:
大数据 ─┐
强算力 ─┼─→ 2012年开始凑齐 → 2017年Transformer → 2022年ChatGPT引爆
好算法 ─┘大数据 ─┐
强算力 ─┼─→ 2012年开始凑齐 → 2017年Transformer → 2022年ChatGPT引爆
好算法 ─┘
就像做菜——食材(数据)、灶火(算力)、菜谱(算法)三个条件缺一不可。AI 等了 70 年,终于等齐了这三样。
---
8. 常见误区速查
---
9. 练习与思考
练习 1:时间线填空
请把下列事件按时间顺序排列:
A. ChatGPT 发布 B. Transformer 论文发表 C. 达特茅斯会议 D. DeepSeek 震惊全球
<details>
<summary>查看答案</summary>
正确顺序:C(1956)→ B(2017)→ A(2022)→ D(2025)
如果你排错了,回顾本文第 2、4、5、6 节。
</details>
练习 2:思考题
"为什么 AI 在 2012 年之前发展那么慢,之后却突飞猛进?"——用自己的话回答。
<details>
<summary>查看思路引导</summary>
核心要点:2012 年同时凑齐了 AI 爆发的三个条件——大数据(互联网积累)、强算力(GPU 性能飞跃)、好算法(深度学习突破)。在此之前,三者从未同时具备。
想想看——就像你想做一顿大餐,但以前要么没食材,要么没灶台,要么没菜谱。
</details>
练习 3:查一查
你现在打开手机,能不能找到至少 3 个在用 AI 的 App?你最常用的 AI 工具是哪个?
<details>
<summary>查看思路引导</summary>
常见答案:豆包、DeepSeek、Kimi、通义千问、文心一言、抖音(推荐算法)、淘宝(推荐算法)、美图秀秀(AI 美颜)、微信输入法(AI 联想词)……
你会发现——AI 真的已经无处不在。
</details>
---
延伸阅读
---
本文总结
💡 核心收获:
- 70 年的马拉松,最后 3 年冲刺:AI 1956 年诞生,经历了多次寒冬,直到 2022 年才真正走进普通人的生活。
- 三个条件同时凑齐才爆发:大数据 + 强算力 + Transformer 架构,缺一个都不行。
- 中国不再是追随者:2025 年起,DeepSeek 等国产模型证明了中国也能做出世界顶尖的 AI。
⚠️ 注意事项:本文只梳理了关键里程碑,省略了大量中间过程(如专家系统、贝叶斯网络、SVM 等传统方法)。下一篇我们将深入大模型的训练过程,了解它是怎么从"一张白纸"变成"什么都会"的。