文章 | 传衡博客

2026

三月 ¹⁵

手撕大模型核心算子

2026年3月18日

从零实现大模型最常用的核心算子：GELU/SiLU/Sigmoid、Softmax、LayerNorm/RMSNorm、SelfAttention/MHA/KV Cache、RoPE、SwiGLU、MLE，以及反向传播。每个算子附面试重点和代码实现。
Activation Checkpointing：用时间换显存的艺术

2026年3月17日

从零讲解 Activation Checkpointing（梯度检查点）技术，用草稿纸类比建立直觉，提供 PyTorch 代码示例，对比主流框架实现，帮助初学者理解显存优化的核心原理。
MHA vs MQA vs GQA vs MLA：四种 Attention 机制显存与性能全对比

2026年3月17日

GQA 通过分组共享 KV，在保持精度的同时将显存压缩到 MHA 的 1/8；MLA 进一步用低秩投影压缩 KV Cache，在 4096 长度下显存占用相比 MHA 降低 8 倍以上。用具体的数值计算和配置示例，彻底理解四种 Attention 机制的本质差异和选型逻辑。
LoRA 与 QLoRA：从低秩适配到双重量化

2026年3月16日

LoRA 将可训练参数压缩到原模型的 0.1%，QLoRA 进一步通过 4-bit Normal Float 量化和双重量化，让 65B 模型能在单张 48GB 显卡上微调。用一个简单的浮点数列表，彻底理解 QLoRA 的两阶段量化。
FlashAttention2 原理与数值推导

2026年3月16日

FlashAttention2 通过 tiling 和 online softmax 把 attention 的显存从 O(n²) 降到 O(n)，在 A100 上比 v1 快 2 倍。用一个 4×4 的矩阵手动计算一遍，彻底理解 FlashAttention2 是如何在线更新 softmax 分母和最大值的。
【九】在线RL：GRPO 与 DAPO 的推导与代码实现

2026年3月10日

推导 GRPO 如何用组采样替代 value model，再推导 DAPO 的四项修正。
【八】离线RL：DPO 与 SimPO 的推导与代码实现

2026年3月9日

从 RLHF 的 KL 约束目标出发，推导 DPO 如何把 reward model 和 PPO 压缩成二分类 loss，再推导 SimPO 如何进一步砍掉 reference model。
【七】基础RL：从策略梯度定理到 PPO 算法

2026年3月8日

从策略梯度定理开始，推导 REINFORCE、Advantage、GAE，直到 PPO。把每一步的数学直觉讲清楚，再用 LLM 的四模型架构和代码实战加深理解。
【六】长上下文 SFT 与双卡 BranchParallel + SimPO 代码实现

2026年3月7日

完整代码走读：如何用 unsloth + TRL 在 RTX 3090 上跑 32K SFT，以及如何从 CPOTrainer 出发实现 80K Branch-Parallel SimPO。包含原始框架代码与自定义修改的逐段对比。
【五】SimPO 训练与 BranchParallel 策略实现

2026年3月6日

在 2×RTX 3090 上把 Agent 轨迹的 SimPO 偏好训练从 24K OOM 推到 80K。核心不是堆优化技巧，而是搞清楚 80K 序列里哪些 token 才算 completion。
【四】SFT 微调

2026年3月5日

在单张 RTX 3090 上对 Qwen3-8B 做 32K 长上下文 SFT。QLoRA、Flash Attention 2、gradient checkpointing 和 gradient offload 各自解决什么问题，以及一个差点让训练全挂的 CUBLAS 半精度 bug。
【三】动态调用图的实现与压缩

2026年3月4日

为 Debug Agent 提供运行时调用图。用 pytest hook 精准注入 sys.settrace，采集函数级调用边，再用 crash 邻域提取 + 模块级聚合两层压缩，把 232 条边压成 Agent 可消费的上下文。含 4 个真实 SWE-bench 实例的压缩效果对比。
【二】SWE-bench 评测与 Docker 测评环境构建

2026年3月3日

在 SWE-bench Verified 100 个真实 GitHub issue 上评测 Debug Agent。记录评测管道的设计（Docker 环境、并发 runner、调用图采集、诊断 + 修复两级评测），以及 9 个 Docker 环境踩坑。
【一】Debug Agent 的设计与踩坑

2026年3月2日

如何让 LLM 通过 PDB 做运行时调试：3 个工具的设计取舍、ReAct 循环的工程细节、subagent 隔离架构，以及 6 个从真实评测中踩出来的坑。
【零】TraceForge 系列专题：用 PDB 给 Agent 装上调试器

2026年3月1日

TraceForge 项目的完整技术博客索引。从 Agent 设计、评测基建、动态调用图，到长上下文训练优化和 RLHF 算法手推，共 10 篇。

文章

手撕大模型核心算子

Activation Checkpointing：用时间换显存的艺术

MHA vs MQA vs GQA vs MLA：四种 Attention 机制显存与性能全对比

LoRA 与 QLoRA：从低秩适配到双重量化

FlashAttention2 原理与数值推导

【九】在线RL：GRPO 与 DAPO 的推导与代码实现

【八】离线RL：DPO 与 SimPO 的推导与代码实现

【七】基础RL：从策略梯度定理到 PPO 算法

【六】长上下文 SFT 与双卡 BranchParallel + SimPO 代码实现

【五】SimPO 训练与 BranchParallel 策略实现

【四】SFT 微调

【三】动态调用图的实现与压缩

【二】SWE-bench 评测与 Docker 测评环境构建

【一】Debug Agent 的设计与踩坑

【零】TraceForge 系列专题：用 PDB 给 Agent 装上调试器