L'apprentissage par renforcement entraine des agents par essai et erreur dans un environnement. L'agent effectue des actions, recoit des recompenses ou penalites, et apprend a maximiser la recompense cumulative. Le RLHF (RL a partir de retours humains) est une technique cle utilisee pour aligner les LLMs avec les preferences humaines.



