AI知识中心 / 学习路线 / 大模型强化学习与强化微调:从策略梯度到前沿算法 / RL基础与策略梯度:看懂大模型强化学习的必备知识
📖 教程入门⏱️ 18 分钟

RL基础与策略梯度:看懂大模型强化学习的必备知识

📅 2026/6/14✍️ 管理员💬 0 条评论

RL基础与策略梯度:看懂大模型强化学习的必备知识


强化学习在LLM中不是在教模型"算对答案",而是在教模型"选对答案"——在多个合理输出中,按偏好排序,让好回答的概率压过坏回答。

📍 本文适合有ML基础但未接触过RL的工程师阅读,预计阅读 18 分钟。

---


1. 技术概述:为什么LLM需要强化学习?


1.1 强化学习是什么?——先理解"试错学习"


在讲"大模型的强化学习"之前,先把"强化学习"本身是什么说清楚。不然一上来就讲MDP、策略梯度,就像教人游泳时先讲流体力学——方向没错,但对初学者不友好。


一个谁都能懂的类比:训狗


你想教狗学会"坐下"。每次它坐下,你给一块零食;每次它站着或乱跑,你就不给。


  • 刚开始:狗完全不知道你想要什么,它会叫、会转圈、会趴下——全是随机尝试
  • 偶然一次坐下:你给了零食。狗的脑回路:"哎?刚才我做啥了?好像屁股一贴地就有吃的"
  • 反复几十轮后:狗发现"坐下→零食"这个规律最稳定,于是看到你的手势就自动坐下——它学会了

  • 这就是强化学习的本质:通过"尝试→得到反馈→调整行为"的循环,从零学会做最优决策。


    把这个过程抽象成规范的语言,就是强化学习的经典框架——智能体-环境交互循环(Agent-Environment Loop)


    加载图表...

    把"训狗"填进这个框架里,顺便预览一下LLM怎么对应:


    强化学习概念🐕 训狗的场景🤖 LLM的场景---------------------------------------智能体(Agent)狗大模型状态(State)你的手势、说话语气已经生成的文本(prompt + 之前的tokens)动作(Action)坐下 / 趴下 / 叫从词表中选择下一个token奖励(Reward)零食 / 没零食回答质量评分策略(Policy)"看到手势→坐下"的决策规则模型参数:给定上文,预测下个token的概率分布

    RL跟监督学习有什么本质不同?


    监督学习需要"标准答案"——每道题旁边标好了正确答案。RL不需要标准答案,只需要一个打分机制。你不知道"坐下"和"趴下"哪个才是你要的,你只知道"坐下给了零食,趴下没给"。RL通过反复尝试,自己找出哪个行为得分最高。


    这正是LLM需要RL的原因:对于"怎么回答才算好",我们往往写不出标准答案(否则直接用SFT就行),但我们能说清楚"A比B好"。RL就是让模型在A和B之间反复比较,学会"为什么A比B好"。


    💡 关键要点:强化学习 = Agent在环境中试错 → 按奖励信号调整策略 → 最终学会最优决策。LLM的RL = 模型生成回答 → 打分 → 调整参数,循环往复。

    1.2 策略梯度是什么?——用数学方法调整"决策偏好"


    现在你有了RL的直觉概念。下一个问题:怎么用数学方法,实质性地更新一个策略?


    策略就是"决策规则"


    先从"策略"(Policy)说起。策略本质上就是从"我看到什么"到"我该做什么"的映射,用数学表示就是:


    策略 π:状态 s → 动作 a 的概率分布


    即:π(as)=P(在当前状态s下采取动作a)\pi(a|s) = P(\text{在当前状态s下采取动作a})


  • 狗的 π:"看到举手" → "90%坐下,5%趴下,5%站着"
  • LLM的 π:输入"你好" → 输出概率 {"Hello": 30%, "Hi": 25%, "你好": 15%, ...}

  • RL训练的目标,就是把策略从"瞎猜"调成"精准决策"——让对的动作概率尽可能高。


    一个致命难题:离散采样不可导


    如果你是用深度学习(反向传播)训练模型的老手,你可能下意识想:"奖励就是损失函数,梯度反传不就完了?"


    问题出在采这一步:


    输入 → 模型 → 概率分布(好:60%, 坏:40%) → 🎲采样得到"坏" → 奖励 = -1,此处不可导!(没法对"投骰子投出了几"求梯度)


    常规深度学习中,模型输出一个连续值,直接和标签对比求loss反向传播——整个链条连续可导。但在RL中,模型输出的是概率分布,然后从分布中随机采样一个离散动作——这个"随机选一个"的操作打断了梯度链条。


    这就是RL和普通深度学习最根本的分歧:我们要优化的对象(奖励)不能直接对动作求导,因为动作是离散采样得到的。


    策略梯度的破局思路:绕过采样,直接调概率分布


    既然"动作→奖励"这条路不通(采样挡中间),那就换个思路——不求"奖励对动作的导数",而是求"期望奖励对策略参数的导数"。


    策略梯度的核心是"对数导数技巧"(log-derivative trick):


    logπ(as)=π(as)π(as)\nabla \log \pi(a|s) = \frac{\nabla \pi(a|s)}{\pi(a|s)}

    不用纠结它的推导,重点在于:∇log π(a|s) 不需要知道"选了这个动作后奖励是多少"——它只跟模型自己的输出有关,完全可以在模型内部计算。这就绕过了采样的不可导问题。


    一个极其直观的类比:调骰子


    想象你有一个内部权重可调的骰子。初始每个面概率 1/6。每次投骰子按结果给钱:


    投出数字奖励---------------1 ~ 3-1 元(亏了)4 ~ 50 元(不亏不赚)6+10 元(血赚)

    你的目标:调整骰子内部权重,争取长期赚钱最多。


    你没法直接算出"最佳权重"——因为骰子是随机的,投出什么不完全归你管。但你可以这样做:


  • 按当前权重投 100 次骰子
  • 记录每次的结果和奖励
  • 投出 6 的那些次(奖励高)→ 增大生成6的内部权重
  • 投出 1~3 的那些次(奖励低)→ 减小对应权重
  • 用更新后的骰子回到第1步,继续试

  • 几十轮后,这个骰子会越来越偏向投出6——不是"必定投出6",而是6的概率从1/6涨到远高于1/6。


    这个过程的数学表达就是策略梯度定理


    J(θ)=Eτπθ[tlogπθ(atst)R(τ)]\nabla J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_t \nabla \log \pi_\theta(a_t | s_t) \cdot R(\tau) \right]

    逐词翻译:

  • ∇J(θ):期望奖励关于策略参数θ的梯度(我们想要的更新方向)
  • E_{τ~π_θ}:对当前策略生成的各种行为轨迹取平均
  • ∇log π_θ(a_t | s_t):每个动作的概率梯度——"增大这个动作的概率,会往什么方向调参数"
  • R(τ):整个轨迹的奖励——"这个动作干得好不好"
  • 两者相乘:好动作往概率增大的方向多调,坏动作往概率减小的方向调

  • 翻译成一句话:用奖励信号当权重,对对数概率求梯度——好动作放大,坏动作压缩。


    第2节会把这个公式的推导一步步拆开展示,这里你只需要记住核心直觉:


    策略梯度 = 试(按当前策略采样生成)→ 评(打奖励分)→ 调(好动作↑,坏动作↓),循环往复。

    1.3 SFT的边界在哪里?


    先搞清楚一个问题:既然SFT(监督微调)已经能让模型回答问题了,为什么还需要RL?


    SFT的本质是"模仿"——给模型看"问题-标准答案"对,让它学会按格式输出。但SFT有一个根本缺陷:它无法区分多个正确答案之间的好坏。


    举个例子:你问模型"解释一下什么是梯度下降"。


    SFT模型可能生成三种回答:

  • A:「梯度下降是一种优化算法,通过沿梯度反方向迭代更新参数来最小化损失函数。」——简洁专业,概率30%
  • B:「嗯,梯度下降嘛,就是沿着山坡往下走,找到最低点。想象你在雾里下山,每次迈一步,哪个方向最陡就往哪走……」——生动有趣,概率30%
  • C:「梯度下降(Gradient Descent)是由Cauchy于1847年提出的……」——学究风格,概率30%

  • 对SFT来说,这三个都是训练数据里出现过的模式,都是"正确"的——它会随机选一个。SFT没有"偏好"。RL的作用就是告诉模型:在你的场景下,A比B好,B比C好——按这个偏好重新分配概率。


    💡 关键要点:SFT让模型"会回答",RL让模型"回答得好"。

    1.4 RL在LLM技术栈中的位置


    加载图表...

    预训练给了模型"知识",SFT给了模型"格式",RL给了模型"品味"。三个环节缺一个,模型都不好用——预训练不够模型就"无知",SFT不够模型就"不会说话",RL不够模型就"不讨人喜欢"。


    ---


    2. 核心原理:把LLM输出建模成强化学习问题


    2.1 先理解MDP:从"试错循环"到"数学框架"


    在1.1中我们用"训狗"类比和"智能体-环境循环"图建立了RL的运行直觉。但要从直觉升级到可编程的算法,需要一个数学模型来精确描述决策过程。


    马尔可夫决策过程(Markov Decision Process, MDP) 就是这个数学框架。它把Agent-Env循环中的每个概念都精确化,定义了一组数学对象:


  • 状态空间 S:所有可能"处境"的集合。LLM中,S = 所有可能的文本序列(无限大但可数的集合)。
  • 动作空间 A:所有可能"选择"的集合。LLM中,A = 词表里的所有token(通常几万到几十万个)。
  • 转移函数 P(s'|s, a):给定当前状态s和动作a,转移到下一个状态s'的概率。LLM的转移是确定性的——选了token "好"后,下一状态一定是"原文+好",没有随机分叉。
  • 奖励函数 R(s, a):即时奖励值。LLM中的奖励是稀疏的(sparse reward):中途不奖励,只有说完整个回答后才给一个总评分。

  • MDP还有一个核心假设——马尔可夫性质(Markov Property):下个状态只取决于当前状态和当前动作,和历史怎么走过来没关系。LLM天然满足这个性质:下一个token的选择只取决于"截至目前生成的文本",与"上个月生成过什么"完全无关。


    现在把1.1中"训狗→LLM"对照表升级为MDP的正式映射:


    MDP要素经典RL(如Atari游戏)LLM中的对应--------------------------------------------状态 State游戏画面已生成的全部文本(prompt + 已输出tokens)动作 Action手柄按键从词表中选择下一个token奖励 Reward得分/通关人类偏好打分 / 规则验证评分策略 Policy π(a\s)游戏AI的参数LLM本身的参数(给定上下文,预测下一个token的概率分布)

    这个映射是理解LLM强化学习的关键:LLM每生成一个token,就是做一次MDP"动作";生成完整个回答后,获得一个"奖励"——这个奖励可能是人类标注的偏好分数,也可能是"数学答案对不对"这样的规则判断。


    LLM的MDP有两个独特的简化特征


    (1)转移确定性:选择token y_t后,新状态就是旧状态拼上y_t——没有任何随机性。这让状态转移变得极其简单。

    (2)回合制(Episodic)+ 稀疏奖励:一个prompt-answer对就是一个完整的episode,episode结束时才获得奖励。中途没有即时奖励信号。


    加载图表...

    2.2 策略梯度的数学原理——从直觉到公式


    在1.2中我们用"调骰子"建立了策略梯度的直觉。现在把直觉翻译成精确的数学——每一步都有明确的由来。


    第一步:定义优化目标


    LLM的策略就是模型参数θ。给定一个prompt,模型按策略 π_θ 逐token生成回答。这一整条生成路径叫轨迹(trajectory)τ


    τ=(s1a1s2a2sTaT)\tau = (s_1 \to a_1 \to s_2 \to a_2 \to \cdots \to s_T \to a_T)

    从初始状态(prompt)出发,一路选token直到生成结束符(EOS)。


    生成完成后,我们给这条轨迹打一个总奖励 R(τ)。我们的目标是:


    找到最优参数 θ,使得按策略 π_θ 采样得到的轨迹,期望奖励最大。

    写成数学:


    J(θ)=Eτπθ[R(τ)]J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} [R(\tau)]

    J(θ) 就是"给定策略参数θ,平均能拿多少奖励"——我们希望它越大越好。


    第二步:对期望求梯度——对数导数技巧


    要让 J(θ) 变大,需要求它的梯度 ∇J(θ)——"期望奖励随参数θ变化的斜率"。问题来了:J(θ)里有一个期望运算(对采样轨迹取平均),还有一个采样过程(π_θ 随机生成轨迹),怎么求导?


    先把期望展开成积分形式:


    J(θ)=R(τ)πθ(τ)dτ\nabla J(\theta) = \nabla \int R(\tau) \cdot \pi_\theta(\tau) \, d\tau

    交换梯度和积分(数学上温和条件下成立):


    =R(τ)πθ(τ)dτ= \int R(\tau) \cdot \nabla \pi_\theta(\tau) \, d\tau

    这里出现了 ∇π_θ(τ)——"轨迹概率对参数的梯度"。这个东西不好直接算。但有一个关键的数学恒等式来救场:


    f(x)=f(x)logf(x)\nabla f(x) = f(x) \cdot \nabla \log f(x)

    把 π_θ(τ) 当成 f(x):


    =R(τ)πθ(τ)logπθ(τ)dτ= \int R(\tau) \cdot \pi_\theta(\tau) \cdot \nabla \log \pi_\theta(\tau) \, d\tau

    把积分写回期望形式:


    =Eτπθ[R(τ)logπθ(τ)]= \mathbb{E}_{\tau \sim \pi_\theta} \left[ R(\tau) \cdot \nabla \log \pi_\theta(\tau) \right]

    这一步是整个策略梯度的灵魂——我们把"采样轨迹概率的梯度"转化成了"轨迹对数概率的梯度"。而 ∇log π_θ(τ) 只跟模型自己输出的对数概率有关,完全不涉及不可导的采样步骤。对数导数技巧在这里的作用就是"绕开那个堵在路中间的离散采样"。


    第三步:把轨迹分解为token序列


    一个轨迹τ是由T个token组成的序列:a_1, a_2, ..., a_T。根据概率链式法则,轨迹的联合概率 = 每个条件概率的乘积:


    πθ(τ)=πθ(a1s1)πθ(a2s2)...πθ(aTsT)\pi_\theta(\tau) = \pi_\theta(a_1|s_1) \cdot \pi_\theta(a_2|s_2) \cdot ... \cdot \pi_\theta(a_T|s_T)

    两边取对数:


    logπθ(τ)=t=1Tlogπθ(atst)\log \pi_\theta(\tau) = \sum_{t=1}^{T} \log \pi_\theta(a_t | s_t)

    两边取梯度:


    logπθ(τ)=t=1Tlogπθ(atst)\nabla \log \pi_\theta(\tau) = \sum_{t=1}^{T} \nabla \log \pi_\theta(a_t | s_t)

    代入第二步的结果,得到策略梯度定理的最终形式:


    J(θ)=Eτπθ[t=1Tlogπθ(atst)R(τ)]\nabla J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=1}^{T} \nabla \log \pi_\theta(a_t | s_t) \cdot R(\tau) \right]

    这个公式在说什么?逐层翻译


    内层:轨迹中每个token,计算它的log概率关于参数的梯度方向,乘以整个轨迹的总奖励。


    外层:用当前策略采样很多条轨迹,取平均——消除单次采样的随机性。


    翻译成人话:


    对于每个生成的token,计算它的log概率对参数的梯度方向,然后乘以整个回答获得的奖励。奖励越高,梯度幅度越大,该token的概率就被"拉"得越狠。采样多条轨迹取平均,让更新信号稳定。

    核心公式拆解:

  • ∇log π_θ(a_t|s_t) ——"如果我稍微调一下参数,这个token的概率会往什么方向变化?"
  • R(τ) ——"这个回答整体得了多少分?"
  • 两个一乘 ——"得分高的回答里,所有token都往概率增大的方向调;得分低的回答里,所有token都往概率减小的方向调"

  • 一个微型数值例子:让公式"活"起来


    用一个2-token的例子来感受公式实际怎么工作。


    假设词表只有 {"好", "坏"} 两个token,对prompt "今天天气" 模型最多生成2个token就结束。


    当前策略 π_θ 下的概率分布:


    位置P(好)P(坏)------------------token 10.60.4token 20.70.3

    模型采样一次,生成了 τ = "好" + "坏",整个回答的奖励 R(τ) = +0.5。


    计算梯度贡献:


  • token_1 = "好":log π(好) = log(0.6) = -0.511,∇log π(好) 表示"参数往哪个方向调能让'好'的概率变大"。
  • - 本次贡献 = ∇log π(好) × 0.5 → 正向更新,幅度由+0.5缩放


  • token_2 = "坏":log π(坏) = log(0.3) = -1.204,∇log π(坏) 表示"参数往哪个方向调能让'坏'的概率变大"。
  • - 本次贡献 = ∇log π(坏) × 0.5 → 也是正向,因为总奖励+0.5 > 0


    注意这里的反直觉后果:明明是"坏"token,但因为整体奖励是正的,梯度还是在增大"坏"的概率! 这是REINFORCE的朴素缺陷——它不会区分"哪个token贡献了大奖励,哪个token只是搭便车"。这就是第3节要讨论的信用分配问题优势函数的由来。


    这个微型例子让你直观看清策略梯度的学习信号本质:它不关心"这个token本身好不好",它只关心"生成了这个token的那条完整轨迹好不好"。好轨迹里的所有token都受益,坏轨迹里的所有token都受罚。


    💡 关键要点:策略梯度 = 采样轨迹 → 打总分 → 每个token按总分加权更新。核心突破是用对数导数技巧把"对采样的梯度"转化成"对log概率的梯度",绕过了离散采样不可导的障碍。

    2.3 REINFORCE:最原始的策略梯度


    REINFORCE算法是1992年提出的,虽然简单得朴素,但它包含了所有现代LLM RL算法的DNA。流程只有三步:


    (1) 采样:用当前策略生成一个完整的回答(一个episode)

    (2) 打分:给这个回答一个奖励值 R

    (3) 更新:对回答中每个token,loss = -log_prob × R,反向传播


    用代码表达最直观:


    python
    def reinforce_step(model, prompt, reward_fn):
        # 1. 采样:生成一个完整回答
        log_probs = []
        tokens = []
        state = prompt
        for _ in range(max_len):
            logits = model(state)
            probs = torch.softmax(logits, dim=-1)
            token = torch.multinomial(probs, 1)  # 按概率采样,保证探索性
            log_probs.append(torch.log(probs[token]))
            tokens.append(token)
            state = torch.cat([state, token])
            if token == eos_token:
                break
    
        # 2. 打分:整个回答的质量
        response = decode(tokens)
        reward = reward_fn(response)  # 比如:数学题答案检查,对=1,错=-1
    
        # 3. 更新:好回答增大log_prob,坏回答减小log_prob
        loss = -sum(log_probs) * reward  # 核心!log_prob × reward
        loss.backward()
        optimizer.step()

    教学生做题的类比:REINFORCE就像让学生做一套卷子,做完后老师只给一个总分,然后说"这套卷子所有题目都按这个总分来调整你的解题习惯"。很明显,这个方式很粗糙——一道10分的题答错了,一道2分的题也答错了,但都按同一个总分来"惩罚"。这就是信用分配问题


    💡 关键要点:REINFORCE=采样→全序列打分→log_prob×reward反向传播。简单但方差大。

    ---


    3. 深入理解:从REINFORCE到实用算法的三座桥


    REINFORCE虽然原理简洁,但直接用在LLM上有三个致命问题,而现代算法(PPO、GRPO等)本质上就是为了解决这三个问题而生的:


    3.1 方差问题 → 优势函数


    REINFORCE的问题是:每次采样和打分都有很大的随机性。同一个prompt,模型可能这次运气好生成了好回答、下次运气差生成了差回答——梯度信号波动剧烈,训练不稳定。


    解决方案:不直接用原始奖励,而是用"优势"(Advantage)——这个回答比平均水平好还是差。


    A=RbaselineA = R - \text{baseline}

    baseline最简单的形式就是所有采样回答的平均奖励。回答了80分,平均是70分,那优势就是+10——这个回答"还行,可以学"。如果真的优秀得了95分,优势就是+25,梯度信号会更强。


    一个具体例子来感受方差问题:


    假设你让模型回答同一道数学题两次(同一个prompt),两次都碰巧答对了,但因为奖励函数里有些随机噪声——比如打分时微小的格式差异、或者RM本身就是概率性的——第一次得了85分,第二次得了75分。


    如果直接用原始奖励 R 更新:

  • 第一次更新幅度 ∝ 85(大步正向更新)
  • 第二次更新幅度 ∝ 75(还是正向,但步子略小)

  • 两次回答本质相同,更新幅度却差了10个单位——这就是方差。


    如果用优势 A = R - baseline(baseline取两次平均=80):

  • 第一次优势 = +5,第二次优势 = -5
  • 两个更新幅度对称且绝对值都很小(因为两次回答确实差不多好)

  • 优势函数的本质:去掉奖励的"绝对水平",只保留"相对好坏"的差异。 这大幅降低了随机噪声对训练的影响——两次一样的表现不该有截然不同的更新力度。


    这就是优势函数(Advantage Function)的直觉,也是为什么PPO需要Value Model来精确估计baseline、GRPO用组内平均来近似baseline。


    3.2 信用分配问题


    前面REINFORCE的例子中,整套卷子的所有题目都按同一个总分来调整——信用分配(Credit Assignment)问题:一个回答里有100个token,但可能只有其中10个对"回答质量好"有贡献。凭什么全部token都按同一个奖励来更新?


    这个问题的解法是GAE(Generalized Advantage Estimation,广义优势估计),它是PPO的核心组件之一。简单来说,GAE给每个token分配不同的"贡献权重"——离奖励信号越近的token,被认为贡献越大。第2篇会详细展开。


    3.3 步子太大问题 → Clipping


    策略梯度是按"梯度的方向"走的,但如果一次更新步子太大,策略可能会变得面目全非——原来会说的话突然不会说了。


    解决方案:限制每次更新的幅度,这就是PPO名字里"Proximal"的含义——保持"近端"、不要跑太远。第2篇重点展开。


    💡 关键要点:REINFORCE的三个问题(方差、信用分配、步子太大)正好对应PPO的三个核心组件。

    ---


    4. 常见误区


    误区一:"RL就是让模型随机探索"


    RL不等于随机。LLM RL始终有KL散度约束在拉住模型,不让它偏离SFT模型太远。纯粹放开探索的后果是模型会退化成"胡言乱语的奖励黑客"——专挑奖励函数的漏洞而没有实际意义。这也是为什么2025年前后的RLHF实践中,KL系数的调优往往是花费时间最多的环节。


    误区二:"奖励函数可以像loss一样直接反向传播求导"


    不行。奖励函数作用于离散的token选择过程,而离散采样不可导——你选"好"还是"坏"是一个离散决策,没法求梯度。这就是为什么RL需要用策略梯度(采样+期望梯度)而不是直接的反向传播。这个区别是RL和普通深度学习最根本的差异之一。


    误区三:"PPO和GRPO是全新的东西"


    本质上,PPO = REINFORCE + Clipping + Advantage,GRPO = PPO - Critic + 组内归一化。所有LLM RL算法都是REINFORCE的后裔,核心的"log_prob × reward"骨架没变过。理解了REINFORCE,你就理解了所有LLM RL算法的基因。


    ---


    5. 本篇总结


    这一篇我们建立了三个核心认知:


  • LLM的RL就是对文本生成过程建模为MDP——状态是已有文本,动作是选token,奖励是偏好分数/规则验证
  • 策略梯度的灵魂就一句话:好token的概率乘以正奖励被放大,坏token的概率乘以负奖励被压缩
  • REINFORCE是所有现代LLM RL算法的祖宗,PPO和GRPO只是在它基础上加了稳定化技巧

  • 🔗 下一篇预告:REINFORCE方差大、训练不稳定。PPO如何通过裁剪机制和GAE优势估计,让RL训练变得"像定速巡航一样稳"?而且为什么PPO需要同时维护4个模型(Actor、Reference、Reward Model、Critic),显存直接翻倍?

    ---


    参考资源


  • 论文
  • - 《Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning》(Williams, 1992) — REINFORCE原始论文,策略梯度的起点

    - 《Proximal Policy Optimization Algorithms》(Schulman et al., 2017) — PPO论文,下一篇文章的核心

  • 推荐延伸阅读
  • - HuggingFace Deep RL Course — 免费的在线RL教程,有配套代码

    - 《Reinforcement Learning: An Introduction》(Sutton & Barto, 2018) — RL圣经,第13章讲策略梯度


    📚 继续学习:大模型强化学习与强化微调:从策略梯度到前沿算法

    这篇是「大模型强化学习与强化微调:从策略梯度到前沿算法」学习路径的第 1 篇,共 3

    回到学习路径 →

    评论 (0)

    请先登录后发表评论

    暂无评论,来发表第一条评论吧