Los mecanismos de atencion permiten a los modelos ponderar dinamicamente la importancia de los diferentes elementos de entrada. La autoatencion, el nucleo de los transformers, permite que cada posicion en una secuencia atienda a todas las demas posiciones. Esto permite a los modelos capturar dependencias de largo alcance y relaciones contextuales, lo cual era una limitacion importante de arquitecturas anteriores como las RNN.






