标签:Quantization
-
LoRA 与 QLoRA:从低秩适配到双重量化
LoRA 将可训练参数压缩到原模型的 0.1%,QLoRA 进一步通过 4-bit Normal Float 量化和双重量化,让 65B 模型能在单张 48GB 显卡上微调。用一个简单的浮点数列表,彻底理解 QLoRA 的两阶段量化。
LoRA 将可训练参数压缩到原模型的 0.1%,QLoRA 进一步通过 4-bit Normal Float 量化和双重量化,让 65B 模型能在单张 48GB 显卡上微调。用一个简单的浮点数列表,彻底理解 QLoRA 的两阶段量化。