大模型强化学习与强化微调:从策略梯度到前沿算法
面向有机器学习基础、想系统理解大模型强化学习(RLHF/DPO/GRPO)及强化微调(RFT)完整技术栈的算法工程师和技术管理者。从必需的RL基础概念出发,沿算法演进脉络逐一讲透 PPO→DPO→GRPO→DAPO 及最新趋势。
开始学习一步一个脚印,坚持学完你就是下一个大模型专家
课程章节
--- 在讲"大模型的强化学习"之前,先把"强化学习"本身是什么说清楚。不然一上来就讲MDP、策略梯度,就像教人游泳时先讲流体力学——方向没错,但对初学者不友好。 一个谁都能懂的类比:训狗 你想教狗学会"坐下"。每次它坐下,你给一块零食;每次它站着或乱跑,你就不给。 - 刚开始:狗完全不知道你想要什么,它会叫、会转圈、会趴下——全是随机尝试 - 偶然一次坐下:你给了零食。狗的脑回路:"哎?刚才我做...
--- PPO(Proximal Policy Optimization,近端策略优化)的本质是"小步快跑"——每次只更新一点点,用裁剪(Clip)和KL约束两把锁确保策略不会一夜之间面目全非。 在LLM场景中,PPO是RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)第三阶段的优化器。它承接了第1篇讲的REINFORCE骨架,...
--- PPO(Proximal Policy Optimization,近端策略优化)的本质是"小步快跑"——每次只更新一点点,用裁剪(Clip)和KL约束两把锁确保策略不会一夜之间面目全非。 在LLM场景中,PPO是RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)第三阶段的优化器。它承接了第1篇讲的REINFORCE骨架,...
继续探索其他学习路线
LLM进阶:从会用到底层精通
高级专为AI从业者设计的高阶LLM技术教程,从Transformer数学本质到2026前沿趋势,构建完整的底层精通能力
工程师AI转型实战
进阶为有编程经验的工程师设计的LLM实战学习路径。从会用API到能训练模型,10篇文章覆盖Transformer、训练全流程、RAG、LoRA微调、Agent开发、模型部署和评测。
大模型零基础入门
入门专为零基础用户设计——不懂编程、不懂数学也能学会用AI。8篇文章带你从了解大模型是什么到能用AI搞定日常工作。
如何把 AI 用得更好
入门一本写给所有人的「AI 使用心法」,从搞懂 AI 怎么想开始,到能搭建自动化工作流,最终成为能理性驾驭 AI 的高手。不需要编程基础,只需会打字。