La quantification convertit les poids du modele de formats haute precision (float 32 bits) en formats de precision inferieure (8-bit, 4-bit, voire 2-bit). Cela reduit la taille, les besoins memoire et accelere l'inference avec une perte de qualite minimale. Cela permet d'executer de grands modeles sur des GPU grand public.
