标签:PyTorch
-
手撕大模型核心算子
从零实现大模型最常用的核心算子:GELU/SiLU/Sigmoid、Softmax、LayerNorm/RMSNorm、SelfAttention/MHA/KV Cache、RoPE、SwiGLU、MLE,以及反向传播。每个算子附面试重点和代码实现。
-
Activation Checkpointing:用时间换显存的艺术
从零讲解 Activation Checkpointing(梯度检查点)技术,用草稿纸类比建立直觉,提供 PyTorch 代码示例,对比主流框架实现,帮助初学者理解显存优化的核心原理。