Les mecanismes d'attention permettent aux modeles de ponderer dynamiquement l'importance des differents elements d'entree. L'auto-attention, coeur des transformers, permet a chaque position d'une sequence de considerer toutes les autres positions. Cela capture les dependances a longue portee, une limitation majeure des architectures precedentes comme les RNN.







