Aprendizaje por Refuerzo (RL)

Un tipo de machine learning donde un agente aprende a tomar decisiones recibiendo recompensas o penalizaciones por sus acciones.

El aprendizaje por refuerzo entrena agentes mediante prueba y error en un entorno. El agente realiza acciones, recibe recompensas o penalizaciones, y aprende a maximizar la recompensa acumulada. El RLHF (RL a partir de retroalimentacion humana) es una tecnica clave utilizada para alinear los LLMs con las preferencias humanas, haciendo que los chatbots sean mas utiles y seguros.