Alineación de la inteligencia artificial

En el campo de la inteligencia artificial, la investigación sobre la alineación o el alineamiento (en inglés, AI alignment) se ocupa de buscar formas de dirigir el desarrollo de los sistemas de inteligencia artificial en conformidad con los objetivos e intereses de sus diseñadores.^{[lower-alpha 1]}Si un sistema es competente, pero persigue objetivos que no han sido previstos por los investigadores, se dice que no está alineado.^{[lower-alpha 2]}

La alineación de los sistemas de inteligencia artificial incluye los siguientes problemas: la dificultad de especificar completamente todos los comportamientos deseados y no deseados; el uso de objetivos intermedios fáciles de especificar que omiten restricciones deseables; trampas para obtener recompensas, por medio de las cuales los sistemas encuentran lagunas en dichos objetivos intermedios, creando efectos colaterales;^[4] objetivos instrumentales, como la búsqueda de poder, que ayudan al sistema a lograr sus objetivos finales;^[2]^[5]^[6]^[7] y objetivos emergentes que sólo se hacen patentes cuando el sistema se implementa en nuevas situaciones y distribuciones de datos.^[6]^[8] Estos problemas afectan a sistemas comerciales como robots,^[9] modelos de lenguaje,^[10]^[11] vehículos autónomos,^[12] y sistemas de recomendación de redes sociales.^[10]^[5]^[13] Se cree que los problemas son tanto más probables cuanto más capaz es el sistema, ya que en parte resultan de una alta capacidad.^[14]^[6]

La comunidad de investigadores de la inteligencia artificial y las Naciones Unidas han exigido tanto soluciones basadas en la investigación técnica como soluciones políticas para garantizar que los sistemas estén alineados con los valores humanos.^{[lower-alpha 3]}

La alineación de sistemas es parte de un campo de estudio más amplio llamado seguridad de la inteligencia artificial (en inglés, AI safety), es decir, el estudio de cómo construir sistemas de inteligencia artificial que sean seguros.^[6]^[17] Las vías para la investigación de la alineación incluyen el aprendizaje de los valores y las preferencias humanas, el desarrollo de inteligencia artificial honesta, la supervisión extensible, el examen e interpretación de modelos de inteligencia artificial, y la prevención de comportamientos emergentes, como la búsqueda de poder.^[6]^[18] La investigación de la alineación tiene conexiones con la investigación de la interpretabilidad,^[19] la solidez,^[6]^[17] la detección de anomalías, la incertidumbre calibrada,^[19] la verificación formal,^[20] el aprendizaje por preferencias,^[21]^[22]^[23] la ingeniería de seguridad,^[6] la teoría de juegos,^[24]^[25] la equidad algorítmica,^[17]^[26] y las ciencias sociales,^[27] entre otros.

[lower-alpha 1]

[lower-alpha 2]

[4]

[2]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[lower-alpha 3]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]