进阶3 篇文章·约 1 小时 2 分钟

大模型强化学习与强化微调：从策略梯度到前沿算法

面向有机器学习基础、想系统理解大模型强化学习（RLHF/DPO/GRPO）及强化微调（RFT）完整技术栈的算法工程师和技术管理者。从必需的RL基础概念出发，沿算法演进脉络逐一讲透 PPO→DPO→GRPO→DAPO 及最新趋势。

学习进度0 / 3 已完成

一步一个脚印，坚持学完你就是下一个大模型专家

课程章节

--- 在讲"大模型的强化学习"之前，先把"强化学习"本身是什么说清楚。不然一上来就讲MDP、策略梯度，就像教人游泳时先讲流体力学——方向没错，但对初学者不友好。一个谁都能懂的类比：训狗你想教狗学会"坐下"。每次它坐下，你给一块零食；每次它站着或乱跑，你就不给。 - 刚开始：狗完全不知道你想要什么，它会叫、会转圈、会趴下——全是随机尝试 - 偶然一次坐下：你给了零食。狗的脑回路："哎？刚才我做...

入门18 分钟阅读

PPO与RLHF：大模型对齐的奠基之作免费

--- PPO（Proximal Policy Optimization，近端策略优化）的本质是"小步快跑"——每次只更新一点点，用裁剪（Clip）和KL约束两把锁确保策略不会一夜之间面目全非。在LLM场景中，PPO是RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）第三阶段的优化器。它承接了第1篇讲的REINFORCE骨架，...

进阶22 分钟阅读

PPO与RLHF：大模型对齐的奠基之作免费

进阶22 分钟阅读

继续探索其他学习路线

LLM进阶：从会用到底层精通

高级

专为AI从业者设计的高阶LLM技术教程，从Transformer数学本质到2026前沿趋势，构建完整的底层精通能力

工程师AI转型实战

进阶

为有编程经验的工程师设计的LLM实战学习路径。从会用API到能训练模型，10篇文章覆盖Transformer、训练全流程、RAG、LoRA微调、Agent开发、模型部署和评测。

大模型零基础入门

入门

专为零基础用户设计——不懂编程、不懂数学也能学会用AI。8篇文章带你从了解大模型是什么到能用AI搞定日常工作。

如何把 AI 用得更好

入门

一本写给所有人的「AI 使用心法」，从搞懂 AI 怎么想开始，到能搭建自动化工作流，最终成为能理性驾驭 AI 的高手。不需要编程基础，只需会打字。