La investigacion en alineamiento de IA busca crear sistemas de IA que hagan de forma confiable lo que los humanos quieren. Esto incluye hacer que los modelos sean utiles, honestos e inofensivos. Las tecnicas incluyen RLHF, IA constitucional, red-teaming y benchmarks de seguridad. Empresas como Anthropic, OpenAI y DeepMind investigan activamente el alineamiento para prevenir riesgos potenciales de sistemas de IA avanzados.










