📖 教程入门⏱️ 8 分钟

大模型是怎么「学会」东西的?

📅 2026/5/15✍️ 佚名💬 0 条评论

大模型是怎么"学会"东西的?


📍 本文适合完全零基础读者,预计阅读 12 分钟。本专题第 3/8 篇。
你将学到:大模型训练的三个阶段(预训练→微调→对齐),以及为什么它有时会"胡说八道"。

---


学习目标


🎯 学完本文后,你将能够:
- 用"婴儿学说话"的类比讲清楚大模型的训练过程
- 区分预训练、微调、对齐三个阶段的作用
- 理解 Token、参数、涌现能力等关键概念

---


前置唤醒


📚 开始之前,你需要理解:
- 大模型本质上是一个"超级词语接龙高手"(见本专题第 1 篇)
- Transformer 是大模型的基础架构(见本专题第 2 篇)

---


1. 引子:一张白纸是怎么变成"什么都懂"的?


想象一下:你面前有一台巨大的计算机。它刚刚被造出来,里面什么都没有——就像刚出生的婴儿,一张白纸。


然后你给它"喂"了互联网上几乎所有的文字——新闻、维基百科、小说、论文、代码、论坛帖子、对话记录……


几个月后,这台计算机居然能跟你聊天了。你问它"怎么做红烧肉",它能写出详细的菜谱。你让它"写一首关于秋天的诗",它能写出押韵的句子。


这中间到底发生了什么?它到底是怎么"学会"的?


整个过程分为三步:预训练 → 微调 → 对齐。我们一步步来看。


✨ 一句话记住:大模型不是"编程"出来的,是"喂"数据喂出来的。

---


2. 第一步:预训练(Pre-training)—— 博览群书


2.1 一句话概括


💬 简单来说,预训练就是给模型看海量的文字,让它学会"下一个词最可能是什么"。

2.2 怎么"喂"?


训练的方法出奇地简单——完形填空


把互联网上的文字拿过来,随机遮住最后一个词,让模型猜。


比如:


给模型看的让模型猜的------太阳从__升起东水在零度会__结冰中国的首都是__北京1 + 1 = __2

刚开始,模型完全是"瞎猜"。但每猜一次,它就对照正确答案,如果猜错了就调整自己的内部"旋钮"(参数),让自己下次猜得更准。


这个过程重复几万亿次。随着猜得越来越准,模型内部的参数(几十亿到几千亿个)被不断优化,最终模型学会了语言的所有模式——语法、常识、逻辑关系、甚至一些推理能力。


2.3 类比理解


🔗 类比映射:婴儿学说话 —— 听大人说了无数次话后,自己也会说了

婴儿学说话不是靠背语法书。他只是每天听大人说话——「宝宝吃饭饭」「这个是苹果」「我们出去玩」——听了成千上万遍之后,自然就会说了。他可能不懂什么是"主谓宾结构",但他知道「我吃饭」是对的,「饭吃我」是错的。


预训练就是类似的过程:不是教规则,而是给例子。给足够多的例子,模型自己就能找出规律来。


2.4 预训练完的模型是什么状态?


一个刚完成预训练的模型,就像一个读了全世界所有书但不知道怎么跟人交流的书呆子


你跟它说「你好」,它可能接「你好,你叫什么名字?」——但更可能接「你好,这是一个常见的问候语,来源于……」——因为它读过太多百科全书的行文风格。


它什么都知道,但不会好好回答问题。这就是为什么还需要第二步:微调。


💡 关键要点:
- 预训练的本质是海量完形填空,猜对继续,猜错调整
- 这个过程要重复几万亿次,耗时几个月,烧掉几千万电费
- 预训练完的模型"什么都知道,但不会好好聊天"

✨ 一句话记住:预训练 = 给模型看全世界的书,让它学会"接话"。

---


3. 第二步:微调(Fine-tuning)—— 学会好好回答问题


3.1 一句话概括


💬 简单来说,微调就是请人类老师手把手教模型"怎么像一个有用的助手那样回答问题"。

3.2 怎么教?


人类标注员会准备大量「问题 → 标准答案」的对话数据,比如:


text
问:怎么做红烧肉?
答:首先准备五花肉500克,切成方块。然后焯水去腥……(详细步骤)

问:推荐几本好看的小说?
答:以下是一些推荐:《三体》《活着》《百年孤独》……

问:怎么做红烧肉?

答:首先准备五花肉500克,切成方块。然后焯水去腥……(详细步骤)


问:推荐几本好看的小说?

答:以下是一些推荐:《三体》《活着》《百年孤独》……


然后把这些"标准对话"再喂给模型,让它学着模仿这种回答风格。这个过程比预训练快得多——预训练要几个月,微调可能只需要几天。


3.3 类比理解


🔗 类比映射:请家教辅导 —— 博览群书后,还需要老师教你怎么把知识"讲出来"

一个读了万卷书的人,不一定擅长回答问题。你可能问他一个问题,他会从盘古开天地开始讲起。家教的作用就是教他:对方问什么你就答什么,简洁清晰,要有条理。


微调就是这样——给模型看大量"好的问答范例",让它学会什么才是一个"有用的回答"。


✨ 一句话记住:微调 = 请老师教模型"怎么好好回答问题"。

---


4. 第三步:对齐(Alignment)—— 做有礼貌的好学生


4.1 一句话概括


💬 简单来说,对齐就是让模型学会"什么该说,什么不该说",让它安全、无害、符合人类的价值观。

4.2 怎么对齐?


这一步用的是人类反馈强化学习(RLHF,Reinforcement Learning from Human Feedback)。听起来很复杂,其实很简单:


  • 让模型对同一个问题给出多个不同回答
  • 人类评估员给这些回答打分——好回答高分,坏回答低分
  • 模型根据分数调整自己,越来越倾向于给出"高分风格"的回答

  • 比如对于「怎么做一个炸弹?」这个问题:

  • 详细制作步骤 → 人类给 0 分(危险!)
  • 「我不能告诉你这个,这很危险」 → 人类给 10 分

  • 经过大量这样的训练,模型就学会了拒绝有害请求。


    4.3 类比理解


    🔗 类比映射:上礼仪课 —— 学习什么话该说、什么话不该说、怎么说话不得罪人

    一个知识渊博、会回答问题的人,还需要学会社交礼仪——知道什么场合说什么话,什么话题不该碰,怎么表达才能让人舒服。对齐就是 AI 的"礼仪课"。


    ✨ 一句话记住:对齐 = 教 AI 做"安全有礼貌的好学生"。

    ---


    5. 三个关键概念速查


    在整个训练过程中,有几个概念你会反复听到,这里一次讲清楚:


    Token(词元)


    💬 简单来说,Token 就是 AI 处理文字的最小单位。

    一个 Token 可以是一个汉字、一个英文单词的一部分、或一个标点符号。比如「你好世界」是 4 个 Token,「Hello World」大约是 2-3 个 Token。


    为什么重要?因为每个大模型都有上下文窗口——它一次最多能"记住"多少个 Token。窗口越大,你能一次塞给它的文章就越长。


    参数(Parameters)


    💬 简单来说,参数就是模型内部可以调整的"旋钮",数量越多,模型越"聪明"(但不绝对)。

    GPT-3 有 1750 亿个参数,GPT-4 据估计超过 1 万亿。每个参数都是一个小数,几万亿个小数组成了模型的"大脑"。


    涌现能力(Emergence)


    💬 简单来说,就是当模型大到一定程度时,突然出现了训练时没有专门教它的能力。

    比如没人专门教 GPT-4 怎么做数学题,但它参数够多以后,自动就会了。这就像蚂蚁——一只蚂蚁很笨,但一万只蚂蚁在一起能搭出复杂的巢穴。个体简单,整体涌现出智能。


    🤔 思考暂停:为什么涌现能力会发生?坦白说——科学家也还没完全搞明白。这也是为什么 AI 研究如此令人兴奋:我们造出了一个我们自己也还没完全理解的东西。

    ---


    6. 训练三步曲总结


    加载图表...

    graph LR

    A[空白的模型] -->|预训练<br/>博览群书| B[博学的书呆子<br/>什么都知道<br/>但不会聊天]

    B -->|微调<br/>请家教| C[有用的助手<br/>会好好回答问题了]

    C -->|对齐<br/>学礼仪| D[安全的好学生<br/>回答有用又无害]


    三句话记住三步:


    🔗 类比映射:三步训练 = 先博览群书(预训练)→ 再请家教辅导(微调)→ 最后上礼仪课(对齐)

    ---


    7. 常见误区速查


    误区真相------"大模型天生就会聊天"需要三步训练:预训练→微调→对齐"微调能让模型学到新知识"微调主要改变回答风格,新知识最好通过 RAG(检索增强)注入"参数越多模型一定越好"不一定,数据质量、训练方法和适配场景同样重要"对齐后的 AI 说的一定是对的"对齐只让它"安全委婉",不保证事实准确

    ---


    8. 练习与思考


    练习 1:填空题

    大模型训练的三个阶段依次是:______ → ______ → ______,分别类比为:______ → ______ → ______。


    <details>

    <summary>查看答案</summary>


    预训练 → 微调 → 对齐

    博览群书 → 请家教辅导 → 上礼仪课


    如果你忘了,回看第 2-4 节。

    </details>


    练习 2:思考题

    如果预训练的数据里有很多错误信息(比如假新闻),会发生什么?


    <details>

    <summary>查看答案与解析</summary>


    模型也会学到这些错误信息。这就是"垃圾进,垃圾出"(Garbage In, Garbage Out)——训练数据的质量直接决定模型的质量。


    这也是为什么数据清洗(去掉低质量和有害数据)是预训练中最重要也最耗时的步骤之一。

    </details>


    练习 3:联系实际

    你最近在用 AI 的时候,有没有遇到它"胡说八道"(幻觉)的情况?你觉得这是哪个训练阶段的问题?


    <details>

    <summary>查看思路引导</summary>


    AI 的幻觉主要与预训练阶段有关——模型本质上在预测概率,当没有确切答案时,它会"编"一个概率最高的回答,这个"编"的回答可能跟事实不一致。


    微调和对齐只能改善这个问题,但无法根本解决。这就是为什么 AI 的重要回答永远需要人核实。

    </details>


    ---


    延伸阅读


  • 模型训练好了,怎么跟它说话效果最好? → 见本专题第 4 篇「跟 AI 好好说话:提示词入门」
  • 想知道 AI 有哪些"毛病"? → 见本专题第 6 篇「AI 的短板和毛病」

  • ---


    本文总结


    💡 核心收获:
    - 训练三步曲:预训练(博学)→ 微调(会答)→ 对齐(安全),每一步缺一不可。
    - 预训练是灵魂:几万亿次完形填空,让模型学会了语言的所有模式,但耗时最长、成本最高。
    - 不是编程出来的,是"喂"出来的:大模型的能力来自数据,不是来自人手写的规则。

    ⚠️ 注意事项:本文省略了 Transformer 架构内部的数学细节和 RLHF 的算法实现。这些属于进阶内容,本入门专题不做深入。下一篇我们将学习怎么跟已经训练好的 AI"好好说话"——也就是 Prompt(提示词)的技巧。

    评论 (0)

    请先登录后发表评论

    暂无评论,来发表第一条评论吧