cover image

Vision par ordinateur

Branche de l’intelligence artificielle appliquée au traitement d'images / De Wikipedia, l'encyclopédie libre

La vision par ordinateur est un domaine scientifique et branche de l’intelligence artificielle qui traite de la façon dont les ordinateurs peuvent acquérir une compréhension de haut niveau à partir d'images ou de vidéos numériques. Du point de vue de l'ingénierie, il cherche à comprendre et à automatiser les tâches que le système visuel humain peut effectuer[1],[2],[3].

Vue d'artiste d'un Rover automatique explorant la surface de Mars. Il est équipé sur son sommet de deux caméras vidéo lui conférant une vision stéréoscopique.

Les tâches de vision par ordinateur comprennent des procédés pour acquérir, traiter, analyser et « comprendre » des images numériques, et extraire des données afin de produire des informations numériques ou symboliques, par ex. sous forme de décisions[4],[5],[6],[7]

Dans ce contexte, la compréhension signifie la transformation d'images visuelles (l'entrée de la rétine) en descriptions du monde qui ont un sens pour les processus de pensée et peuvent susciter une action appropriée. Cette compréhension de l'image peut être vue comme l’acquisition d'informations symboliques à partir de données d'image à l'aide de modèles construits à l'aide de la géométrie, de la physique, des statistiques et de la théorie de l'apprentissage[8].

La discipline scientifique de la vision par ordinateur s'intéresse à la théorie des systèmes artificiels qui extraient des informations à partir d'images. Les données d'image peuvent prendre de nombreuses formes, telles que des séquences vidéo, des vues de plusieurs caméras, des données multidimensionnelles à partir d'un scanner 3D ou d'un appareil de numérisation médical. La discipline technologique de la vision par ordinateur cherche à appliquer les modèles théoriques développés à la construction de systèmes de vision par ordinateur.

Les sous-domaines de la vision par ordinateur comprennent la détection d'événements, le suivi vidéo, la reconnaissance d'objets, l'apprentissage, l'indexation, l'estimation de mouvement, la modélisation de scènes 3D et la restauration d'image