La recherche en alignement IA vise a creer des systemes IA qui font de facon fiable ce que les humains veulent. Cela inclut rendre les modeles utiles, honnetes et inoffensifs. Les techniques incluent le RLHF, l'IA constitutionnelle, le red-teaming et les benchmarks de securite.










