标签:TraceForge
-
【九】在线RL:GRPO 与 DAPO 的推导与代码实现
推导 GRPO 如何用组采样替代 value model,再推导 DAPO 的四项修正。
-
【八】离线RL:DPO 与 SimPO 的推导与代码实现
从 RLHF 的 KL 约束目标出发,推导 DPO 如何把 reward model 和 PPO 压缩成二分类 loss,再推导 SimPO 如何进一步砍掉 reference model。
-
【七】基础RL:从策略梯度定理到 PPO 算法
从策略梯度定理开始,推导 REINFORCE、Advantage、GAE,直到 PPO。把每一步的数学直觉讲清楚,再用 LLM 的四模型架构和代码实战加深理解。
-
【六】长上下文 SFT 与双卡 BranchParallel + SimPO 代码实现
完整代码走读:如何用 unsloth + TRL 在 RTX 3090 上跑 32K SFT,以及如何从 CPOTrainer 出发实现 80K Branch-Parallel SimPO。包含原始框架代码与自定义修改的逐段对比。
-
【五】SimPO 训练与 BranchParallel 策略实现
在 2×RTX 3090 上把 Agent 轨迹的 SimPO 偏好训练从 24K OOM 推到 80K。核心不是堆优化技巧,而是搞清楚 80K 序列里哪些 token 才算 completion。
-
【四】SFT 微调
在单张 RTX 3090 上对 Qwen3-8B 做 32K 长上下文 SFT。QLoRA、Flash Attention 2、gradient checkpointing 和 gradient offload 各自解决什么问题,以及一个差点让训练全挂的 CUBLAS 半精度 bug。
-
【三】动态调用图的实现与压缩
为 Debug Agent 提供运行时调用图。用 pytest hook 精准注入 sys.settrace,采集函数级调用边,再用 crash 邻域提取 + 模块级聚合两层压缩,把 232 条边压成 Agent 可消费的上下文。含 4 个真实 SWE-bench 实例的压缩效果对比。
-
【二】SWE-bench 评测与 Docker 测评环境构建
在 SWE-bench Verified 100 个真实 GitHub issue 上评测 Debug Agent。记录评测管道的设计(Docker 环境、并发 runner、调用图采集、诊断 + 修复两级评测),以及 9 个 Docker 环境踩坑。
-
【一】Debug Agent 的设计与踩坑
如何让 LLM 通过 PDB 做运行时调试:3 个工具的设计取舍、ReAct 循环的工程细节、subagent 隔离架构,以及 6 个从真实评测中踩出来的坑。
-
【零】TraceForge 系列专题:用 PDB 给 Agent 装上调试器
TraceForge 项目的完整技术博客索引。从 Agent 设计、评测基建、动态调用图,到长上下文训练优化和 RLHF 算法手推,共 10 篇。