El aprendizaje por refuerzo entrena agentes mediante prueba y error en un entorno. El agente realiza acciones, recibe recompensas o penalizaciones, y aprende a maximizar la recompensa acumulada. El RLHF (RL a partir de retroalimentacion humana) es una tecnica clave utilizada para alinear los LLMs con las preferencias humanas, haciendo que los chatbots sean mas utiles y seguros.


