标签：Attention | 传衡博客

MHA vs MQA vs GQA vs MLA：四种 Attention 机制显存与性能全对比

2026年3月17日

GQA 通过分组共享 KV，在保持精度的同时将显存压缩到 MHA 的 1/8；MLA 进一步用低秩投影压缩 KV Cache，在 4096 长度下显存占用相比 MHA 降低 8 倍以上。用具体的数值计算和配置示例，彻底理解四种 Attention 机制的本质差异和选型逻辑。