La cuantizacion convierte los pesos del modelo de formatos de alta precision (float de 32 bits) a formatos de menor precision (8-bit, 4-bit, o incluso 2-bit). Esto reduce el tamano del modelo, los requisitos de memoria y acelera la inferencia con una perdida minima de calidad. Permite ejecutar modelos grandes en GPUs de consumo. Los formatos comunes incluyen GGUF, GPTQ y AWQ.
