标签:Attention
-
MHA vs MQA vs GQA vs MLA:四种 Attention 机制显存与性能全对比
GQA 通过分组共享 KV,在保持精度的同时将显存压缩到 MHA 的 1/8;MLA 进一步用低秩投影压缩 KV Cache,在 4096 长度下显存占用相比 MHA 降低 8 倍以上。用具体的数值计算和配置示例,彻底理解四种 Attention 机制的本质差异和选型逻辑。
GQA 通过分组共享 KV,在保持精度的同时将显存压缩到 MHA 的 1/8;MLA 进一步用低秩投影压缩 KV Cache,在 4096 长度下显存占用相比 MHA 降低 8 倍以上。用具体的数值计算和配置示例,彻底理解四种 Attention 机制的本质差异和选型逻辑。