Dans le domaine de l'intelligence artificielle (IA), le contrôle des capacités de l'IA, également appelé confinement de l'IA, vise à accroître notre capacité à surveiller et à contrôler le comportement des systèmes d'IA, en particulier pour les intelligences générales artificielles ou les superintelligences artificielles. Le but est de réduire le risque posé par l'IA si elle est mal alignée. Cependant, le contrôle des capacités devient moins efficace à mesure que les agents deviennent plus intelligents et que leur capacité à exploiter des failles augmente, ce qui peut entraîner un risque existentiel. Par conséquent, le philosophe d'Oxford Nick Bostrom et d'autres recommandent les méthodes de contrôle des capacités uniquement en complément des méthodes d'alignement[1].

Thumb

Motivation

Une hypothétique superintelligence qui ne serait pas confinée pourrait, selon ses objectifs, prendre des mesures entraînant l'extinction humaine[2]. Presque quel que soit ses objectifs, un agent intelligent est incité à survivre et acquérir des ressources, selon le concept de convergence instrumentale[3]. Ce genre de phénomènes peut amener un agent ayant des objectifs apparemment inoffensifs à adopter des comportements dangereux. Par exemple, un système extrêmement avancé ayant pour seul but de résoudre l'hypothèse de Riemann, une conjecture mathématique, pourrait décider de tenter de convertir la planète en supercalculateur géant, s'il juge que ça augmenterait ses chances de trouver une démonstration[4].

Une difficulté majeure du contrôle des capacités est que les réseaux de neurones sont par défaut très difficiles à interpréter[5]. Cela rend plus difficile la détection de la tromperie ou d'autres comportements indésirables. Les progrès en interprétabilité pourraient donc atténuer cette difficulté[6].

Articles connexes

Notes et références

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.