精选
-
【零】TraceForge 系列专题:用 PDB 给 Agent 装上调试器
TraceForge 项目的完整技术博客索引。从 Agent 设计、评测基建、动态调用图,到长上下文训练优化和 RLHF 算法手推,共 10 篇。
最新文章
-
手撕大模型核心算子
从零实现大模型最常用的核心算子:GELU/SiLU/Sigmoid、Softmax、LayerNorm/RMSNorm、SelfAttention/MHA/KV Cache、RoPE、SwiGLU、MLE,以及反向传播。每个算子附面试重点和代码实现。
-
Activation Checkpointing:用时间换显存的艺术
从零讲解 Activation Checkpointing(梯度检查点)技术,用草稿纸类比建立直觉,提供 PyTorch 代码示例,对比主流框架实现,帮助初学者理解显存优化的核心原理。
-
MHA vs MQA vs GQA vs MLA:四种 Attention 机制显存与性能全对比
GQA 通过分组共享 KV,在保持精度的同时将显存压缩到 MHA 的 1/8;MLA 进一步用低秩投影压缩 KV Cache,在 4096 长度下显存占用相比 MHA 降低 8 倍以上。用具体的数值计算和配置示例,彻底理解四种 Attention 机制的本质差异和选型逻辑。
-
LoRA 与 QLoRA:从低秩适配到双重量化
LoRA 将可训练参数压缩到原模型的 0.1%,QLoRA 进一步通过 4-bit Normal Float 量化和双重量化,让 65B 模型能在单张 48GB 显卡上微调。用一个简单的浮点数列表,彻底理解 QLoRA 的两阶段量化。
-
FlashAttention2 原理与数值推导
FlashAttention2 通过 tiling 和 online softmax 把 attention 的显存从 O(n²) 降到 O(n),在 A100 上比 v1 快 2 倍。用一个 4×4 的矩阵手动计算一遍,彻底理解 FlashAttention2 是如何在线更新 softmax 分母和最大值的。
-
【九】在线RL:GRPO 与 DAPO 的推导与代码实现
推导 GRPO 如何用组采样替代 value model,再推导 DAPO 的四项修正。