标签:FlashAttention
-
FlashAttention2 原理与数值推导
FlashAttention2 通过 tiling 和 online softmax 把 attention 的显存从 O(n²) 降到 O(n),在 A100 上比 v1 快 2 倍。用一个 4×4 的矩阵手动计算一遍,彻底理解 FlashAttention2 是如何在线更新 softmax 分母和最大值的。
FlashAttention2 通过 tiling 和 online softmax 把 attention 的显存从 O(n²) 降到 O(n),在 A100 上比 v1 快 2 倍。用一个 4×4 的矩阵手动计算一遍,彻底理解 FlashAttention2 是如何在线更新 softmax 分母和最大值的。