RLHF:SFT → 奖励模型 → PPODPO:无需奖励模型,直接用偏好数据优化维度RLHFDPO-----------------实现复杂度高低训练稳定性中高计算成本高中资源充足选 RLHF,快速迭代选 DPO。