Quantification

Une technique qui reduit la taille du modele et l'utilisation memoire en utilisant des nombres de precision inferieure pour les poids.

La quantification convertit les poids du modele de formats haute precision (float 32 bits) en formats de precision inferieure (8-bit, 4-bit, voire 2-bit). Cela reduit la taille, les besoins memoire et accelere l'inference avec une perte de qualite minimale. Cela permet d'executer de grands modeles sur des GPU grand public.

Outils IA lies a Quantification

Processeurs AWS Graviton

Meilleure performance par prix pour les charges de travail cloud

Paid

Unsloth Studio

Interface web sans code, hors ligne pour entraîner et exécuter des modèles IA ouverts.

Freemium

llama.cpp

Bibliothèque C/C++ open source pour l'inférence LLM locale et efficace.

Free

Termes associes

LoRA (Low-Rank Adaptation)Inference Grand Modele de Langage (LLM)

Retour au glossaire