LoRA congela los pesos del modelo preentrenado e inyecta matrices de descomposicion de bajo rango entrenables en cada capa. Esto reduce dramaticamente el numero de parametros entrenables (a menudo en 10.000x) y los requisitos de memoria. QLoRA combina LoRA con la cuantizacion para una eficiencia aun mayor, permitiendo el ajuste fino de modelos grandes en hardware de consumo.










