La tokenisation est la premiere etape du traitement de texte pour les modeles IA. Le texte est divise en tokens, qui peuvent etre des mots, sous-mots ou caracteres. L'approche la plus courante est le Byte Pair Encoding (BPE). Le nombre de tokens est important car les LLMs ont des limites de fenetre de contexte mesurees en tokens.







