Cuantizacion

Una tecnica que reduce el tamano del modelo y el uso de memoria utilizando numeros de menor precision para los pesos del modelo.

La cuantizacion convierte los pesos del modelo de formatos de alta precision (float de 32 bits) a formatos de menor precision (8-bit, 4-bit, o incluso 2-bit). Esto reduce el tamano del modelo, los requisitos de memoria y acelera la inferencia con una perdida minima de calidad. Permite ejecutar modelos grandes en GPUs de consumo. Los formatos comunes incluyen GGUF, GPTQ y AWQ.

AI Tools Related to Cuantizacion

unsloth-studio

Freemium

llama-cpp

Free

Back to glossary

Cuantizacion

AI Tools Related to Cuantizacion

Related Terms

Cuantizacion

AI Tools Related to Cuantizacion

Related Terms