标签:SFT
-
【六】长上下文 SFT 与双卡 BranchParallel + SimPO 代码实现
完整代码走读:如何用 unsloth + TRL 在 RTX 3090 上跑 32K SFT,以及如何从 CPOTrainer 出发实现 80K Branch-Parallel SimPO。包含原始框架代码与自定义修改的逐段对比。
-
【四】SFT 微调
在单张 RTX 3090 上对 Qwen3-8B 做 32K 长上下文 SFT。QLoRA、Flash Attention 2、gradient checkpointing 和 gradient offload 各自解决什么问题,以及一个差点让训练全挂的 CUBLAS 半精度 bug。