标签：RLHF

【九】在线RL：GRPO 与 DAPO 的推导与代码实现

2026年3月10日

推导 GRPO 如何用组采样替代 value model，再推导 DAPO 的四项修正。
【八】离线RL：DPO 与 SimPO 的推导与代码实现

2026年3月9日

从 RLHF 的 KL 约束目标出发，推导 DPO 如何把 reward model 和 PPO 压缩成二分类 loss，再推导 SimPO 如何进一步砍掉 reference model。
【七】基础RL：从策略梯度定理到 PPO 算法

2026年3月8日

从策略梯度定理开始，推导 REINFORCE、Advantage、GAE，直到 PPO。把每一步的数学直觉讲清楚，再用 LLM 的四模型架构和代码实战加深理解。
【六】长上下文 SFT 与双卡 BranchParallel + SimPO 代码实现

2026年3月7日

完整代码走读：如何用 unsloth + TRL 在 RTX 3090 上跑 32K SFT，以及如何从 CPOTrainer 出发实现 80K Branch-Parallel SimPO。包含原始框架代码与自定义修改的逐段对比。
【五】SimPO 训练与 BranchParallel 策略实现

2026年3月6日

在 2×RTX 3090 上把 Agent 轨迹的 SimPO 偏好训练从 24K OOM 推到 80K。核心不是堆优化技巧，而是搞清楚 80K 序列里哪些 token 才算 completion。

【九】在线RL：GRPO 与 DAPO 的推导与代码实现