La tokenizacion es el primer paso en el procesamiento de texto para modelos de IA. El texto se divide en tokens, que pueden ser palabras, subpalabras o caracteres. El enfoque mas comun es Byte Pair Encoding (BPE). La cantidad de tokens es importante porque los LLMs tienen limites de ventana de contexto medidos en tokens. Una palabra equivale tipicamente a 1-3 tokens.









