El RLHF se utiliza para alinear los modelos de lenguaje con los valores y preferencias humanos. Evaluadores humanos clasifican las salidas del modelo, y estas clasificaciones entrenan un modelo de recompensa. El modelo de lenguaje se ajusta luego mediante aprendizaje por refuerzo para maximizar esta recompensa. El RLHF es una razon clave por la que los chatbots modernos como ChatGPT y Claude son utiles, honestos e inofensivos.










