进阶3 篇文章·约 1 小时 2 分钟

大模型强化学习与强化微调:从策略梯度到前沿算法

面向有机器学习基础、想系统理解大模型强化学习(RLHF/DPO/GRPO)及强化微调(RFT)完整技术栈的算法工程师和技术管理者。从必需的RL基础概念出发,沿算法演进脉络逐一讲透 PPO→DPO→GRPO→DAPO 及最新趋势。

开始学习
学习进度0 / 3 已完成

一步一个脚印,坚持学完你就是下一个大模型专家

课程章节

1
RL基础与策略梯度:看懂大模型强化学习的必备知识免费

--- 在讲"大模型的强化学习"之前,先把"强化学习"本身是什么说清楚。不然一上来就讲MDP、策略梯度,就像教人游泳时先讲流体力学——方向没错,但对初学者不友好。 一个谁都能懂的类比:训狗 你想教狗学会"坐下"。每次它坐下,你给一块零食;每次它站着或乱跑,你就不给。 - 刚开始:狗完全不知道你想要什么,它会叫、会转圈、会趴下——全是随机尝试 - 偶然一次坐下:你给了零食。狗的脑回路:"哎?刚才我做...

入门18 分钟阅读
2
PPO与RLHF:大模型对齐的奠基之作免费

--- PPO(Proximal Policy Optimization,近端策略优化)的本质是"小步快跑"——每次只更新一点点,用裁剪(Clip)和KL约束两把锁确保策略不会一夜之间面目全非。 在LLM场景中,PPO是RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)第三阶段的优化器。它承接了第1篇讲的REINFORCE骨架,...

进阶22 分钟阅读
2
PPO与RLHF:大模型对齐的奠基之作免费

--- PPO(Proximal Policy Optimization,近端策略优化)的本质是"小步快跑"——每次只更新一点点,用裁剪(Clip)和KL约束两把锁确保策略不会一夜之间面目全非。 在LLM场景中,PPO是RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)第三阶段的优化器。它承接了第1篇讲的REINFORCE骨架,...

进阶22 分钟阅读

继续探索其他学习路线