Loading AI tools
branche de l’intelligence artificielle appliquée au traitement d'images De Wikipédia, l'encyclopédie libre
La vision par ordinateur est un domaine scientifique et une branche de l’intelligence artificielle qui traite de la façon dont les ordinateurs peuvent acquérir une compréhension de haut niveau à partir d'images ou de vidéos numériques. Du point de vue de l'ingénierie, il cherche à comprendre et à automatiser les tâches que le système visuel humain peut effectuer[1],[2],[3].
Les tâches de vision par ordinateur comprennent des procédés pour acquérir, traiter, analyser et « comprendre » des images numériques, et extraire des données afin de produire des informations numériques ou symboliques, par ex. sous forme de décisions[4],[5],[6],[7].
Dans ce contexte, la compréhension signifie la transformation d'images visuelles (l'entrée de la rétine) en descriptions du monde qui ont un sens pour les processus de pensée et peuvent susciter une action appropriée. Cette compréhension de l'image peut être vue comme l’acquisition d'informations symboliques à partir de données d'image, par l'emploi de modèles s’appuyant sur la géométrie, la physique, les statistiques et la théorie de l'apprentissage[8].
La discipline scientifique de la vision par ordinateur s'intéresse à la théorie des systèmes artificiels qui extraient des informations à partir d'images. Les données d'image peuvent prendre de nombreuses formes, telles que des séquences vidéo, des vues de plusieurs caméras, des données multidimensionnelles à partir d'un scanner 3D ou d'un appareil de numérisation médical. La discipline technologique de la vision par ordinateur cherche à appliquer les modèles théoriques développés à la construction de systèmes de vision par ordinateur.
Les sous-domaines de la vision par ordinateur comprennent la détection d'événements, le suivi vidéo, la reconnaissance d'objets, l'apprentissage, l'indexation, l'estimation de mouvement, la modélisation de scènes 3D et la restauration d'image
Le développement de la vision par ordinateur a commencé dans les universités pionnières de l'intelligence artificielle à la fin des années 1960. L’objectif était d’imiter le système visuel humain, première étape pour doter les robots d'un comportement intelligent[9]. En 1966, on croyait que cela pouvait être réalisé grâce à un projet d'été, en attachant une caméra à un ordinateur et en lui faisant « décrire ce qu'il voyait »[10].
Ce qui distinguait la vision par ordinateur du domaine prédominant du traitement d'images numériques à cette époque était le désir d'extraire une structure tridimensionnelle d'images dans le but de parvenir à une compréhension complète de la scène. Des études dans les années 1970 ont formé les premières bases de nombreux algorithmes de vision par ordinateur qui existent aujourd'hui, y compris l'extraction des bords d'images, l'étiquetage des lignes, la modélisation non polyédrique et polyédrique, la représentation d'objets sous forme d'interconnexions de structures plus petites, le flux optique et estimation de mouvement[11].
La décennie suivante a vu des études basées sur une analyse mathématique plus rigoureuse et des aspects quantitatifs de la vision par ordinateur. Ceux-ci incluent le concept d'espace d'échelle, l'inférence de la forme à partir de divers indices tels que l'ombrage, la texture et la mise au point, et les modèles de contour connus sous le nom de serpents. Les chercheurs ont également réalisé que bon nombre de ces concepts mathématiques pouvaient être traités dans le même cadre d'optimisation que la régularisation et les champs aléatoires de Markov[12].
Dans les années 1990, certains des thèmes de recherche précédents sont devenus plus actifs que les autres. La recherche sur les reconstructions projectives 3D a permis de mieux comprendre l'étalonnage de caméras. Avec l'avènement des méthodes d'optimisation pour la calibration des caméras, on s'est rendu compte que de nombreuses idées avaient déjà été explorées dans la théorie de l'ajustement des faisceaux dans le domaine de la photogrammétrie. Cela a conduit à des méthodes pour des reconstructions 3D éparses de scènes à partir de plusieurs images. Des progrès ont été réalisés sur le problème de la correspondance stéréo dense et d'autres techniques stéréo à vues multiples. Dans le même temps, des variations de coupe graphique ont été utilisées pour résoudre la segmentation d'image.
Cette décennie a également marqué la première fois que des techniques d'apprentissage statistique ont été utilisées dans la pratique pour reconnaître les visages dans les images (voir Eigenface). Vers la fin des années 90, un changement important s'est produit avec l'interaction accrue entre les domaines de l'infographie et de la vision par ordinateur. Cela comprenait le rendu basé sur l'image, l'interpolation de vue, l'assemblage d'images panoramiques et le premier rendu de champ lumineux.
Des travaux récents ont vu la résurgence des méthodes basées sur les fonctionnalités, utilisées en conjonction avec des techniques d'apprentissage automatique et des cadres d'optimisation complexes[12],[13], Les progrès des techniques d'apprentissage en profondeur ont donné une nouvelle vie au domaine de la vision par ordinateur. La précision des algorithmes d'apprentissage en profondeur sur plusieurs ensembles de données de vision par ordinateur de référence pour des tâches allant de la classification, de la segmentation et du flux optique a surpassé les méthodes antérieures.
La physique du solide est un domaine étroitement lié à la vision par ordinateur. La plupart des systèmes de vision par ordinateur reposent sur des capteurs d'image, qui détectent le rayonnement électromagnétique, qui se présente généralement sous la forme de lumière visible ou infrarouge. Les capteurs sont conçus en utilisant la physique quantique. Le processus par lequel la lumière interagit avec les surfaces est expliqué en utilisant la physique. La physique explique le comportement de l'optique qui est au cœur de la plupart des systèmes d'imagerie. Les capteurs d'image sophistiqués nécessitent même la mécanique quantique pour fournir une compréhension complète du processus de formation d'image[14]. En outre, divers problèmes de mesure en physique peuvent être résolus en utilisant la vision par ordinateur, par exemple le mouvement dans les fluides.
Un autre domaine qui joue un rôle important dans la vision par ordinateur est la neurobiologie, en particulier l'étude du système de vision biologique. Au cours du siècle dernier, une étude approfondie des yeux, des neurones et des structures cérébrales a été consacrée au traitement des stimuli visuels chez les humains et chez divers animaux. Cela a conduit à une description grossière, mais complexe, de la façon dont les systèmes de vision « réels » fonctionnent pour résoudre certaines tâches liées à la vision. Ces résultats ont conduit à un sous-domaine de la vision par ordinateur où les systèmes artificiels sont conçus pour imiter le traitement et le comportement des systèmes biologiques, à différents niveaux de complexité. En outre, certaines des méthodes basées sur l'apprentissage développées dans le cadre de la vision par ordinateur (par exemple, l'analyse et la classification d'images et de caractéristiques basées sur le réseau neuronal et l'apprentissage profond) ont leur expérience en biologie.Certains volets de la recherche sur la vision par ordinateur sont étroitement liés à l'étude de la vision biologique - en effet, tout comme de nombreux volets de la recherche sur l'IA sont étroitement liés à la recherche sur la conscience humaine et à l'utilisation des connaissances stockées pour interpréter, intégrer et utiliser les informations visuelles. Le domaine de la vision biologique étudie et modélise les processus physiologiques derrière la perception visuelle chez l'homme et d'autres animaux. La vision par ordinateur, quant à elle, étudie et décrit les processus mis en œuvre dans les logiciels et le matériel derrière les systèmes de vision artificielle. L'échange interdisciplinaire entre la vision biologique et la vision par ordinateur s'est avéré fructueux dans les deux domaines[15].
Un troisième domaine lié à la vision par ordinateur est le traitement du signal. De nombreuses méthodes de traitement de signaux à une variable, typiquement des signaux temporels, peuvent être étendues de manière naturelle au traitement de signaux à deux variables ou de signaux à variables multiples en vision par ordinateur. Cependant, en raison de la nature spécifique des images, il existe de nombreuses méthodes développées dans le domaine de la vision par ordinateur qui n'ont pas d'équivalent dans le traitement de signaux à une variable. Avec la multi dimensionnalité du signal, cela définit un sous-champ dans le traitement du signal dans le cadre de la vision par ordinateur.
La navigation robotique traite parfois de la planification de chemin autonome pour que les systèmes robotiques naviguent dans un environnement[16]. Une compréhension détaillée de ces environnements est nécessaire pour les parcourir. Des informations sur l'environnement pourraient être fournies par un système de vision par ordinateur, agissant comme un capteur de vision et fournissant des informations de haut niveau sur l'environnement et le robot.
De nombreuses méthodes de vision par ordinateur sont basées sur les statistiques, l'optimisation ou la géométrie.
Une part importante du domaine est consacrée à l’implémentation de la vision par ordinateur; comment les méthodes existantes peuvent être réalisées dans diverses combinaisons de logiciels et de matériel, ou comment ces méthodes peuvent être modifiées afin de gagner en vitesse de traitement sans perdre trop de performances. La vision par ordinateur est également utilisée dans le commerce électronique de la mode, la recherche de brevets, les meubles et l'industrie de la beauté.
Les applications vont des tâches telles que les systèmes de vision industriels qui, par exemple, inspectent les bouteilles qui défilent sur une ligne de production, à la recherche sur l'intelligence artificielle et les ordinateurs ou robots capables de comprendre le monde qui les entoure. Dans de nombreuses applications de vision par ordinateur, les ordinateurs sont préprogrammés pour résoudre une tâche particulière, mais les méthodes basées sur l'apprentissage sont de plus en plus courantes.
Des exemples d'applications de la vision par ordinateur comprennent des systèmes pour :
L'apprentissage des formes 3D a été une tâche difficile en vision par ordinateur. Les progrès récents de l'apprentissage en profondeur ont permis aux chercheurs de créer des modèles capables de générer et de reconstruire des formes 3D à partir de cartes de profondeur ou de silhouettes à une ou plusieurs vues de manière transparente et efficace.
L'un des domaines d'application les plus importants est la vision par ordinateur médicale, ou traitement d'images médicales, caractérisé par l'extraction d'informations à partir de données d'image pour diagnostiquer un patient. On peut l’utiliser dans la détection de tumeurs, d'artériosclérose ou d'autres changements malins; les mesures des dimensions des organes, du débit sanguin, etc. en sont un autre exemple. La vision par la recherche médicale en fournissant de nouvelles informations: par exemple, sur la structure du cerveau ou sur la qualité des traitements médicaux. Les applications de la vision par ordinateur dans le domaine médical incluent également l'amélioration des images interprétées par l'homme - images ultrasonores ou radiographiques par exemple - pour réduire l'influence du bruit.
Un deuxième domaine de l’application de la vision par ordinateur est l’industrie, parfois appelée vision industrielle, où des informations sont extraites dans le but de soutenir un processus de fabrication. Un exemple est le contrôle de la qualité de produits finis ou en cours de finalité dans le but de détecter des défauts. Un autre exemple est la mesure de la position et l’orientation de différents produits qui ont besoin d’être saisis par un bras de robot. La vision industrielle est également largement utilisée dans les processus agricoles pour éliminer les aliments de certains matériaux en vrac, processus appelé tri optique[18].
Les applications militaires sont probablement l'un des domaines les plus importants de la vision par ordinateur. Les exemples évidents sont la détection de soldats ou de véhicules ennemis et le guidage de missiles. Des systèmes plus avancés de guidage de missile envoient le missile vers une zone plutôt qu'une cible spécifique, et la sélection de la cible est effectuée lorsque le missile atteint la zone grâce à des données d'image acquises localement. Les concepts militaires modernes, tels que la « conscience du champ de bataille », impliquent que divers capteurs, y compris des capteurs d'image, fournissent un ensemble riche d'informations sur une scène de combat qui peuvent ensuite être utilisées pour prendre des décisions stratégiques. Dans ce cas, le traitement automatique des données est utilisé pour réduire la complexité et pour fusionner les informations de plusieurs capteurs dans le but d’augmenter la fiabilité.
L'un des nouveaux domaines d'application est celui des véhicules autonomes, qui comprennent les submersibles, les véhicules terrestres (petits robots avec roues, voitures ou camions), les véhicules aériens et les véhicules aériens sans pilote (UAV). Le niveau d'autonomie va de véhicules entièrement autonomes (sans pilote) à des véhicules où différents systèmes basés sur la vision par ordinateur aide dans certaines situations particulières le pilote ou conducteur. Les véhicules entièrement autonomes utilisent généralement la vision par ordinateur pour la navigation, par ex. pour savoir où il se trouve, ou pour produire une carte de son environnement (SLAM) et pour détecter les obstacles. Il peut également être utilisé pour détecter certains événements spécifiques à un domaine particulier, par exemple, un UAV à la recherche d'incendies de forêt. Des exemples de systèmes de soutien sont les systèmes d'avertissement d'obstacles dans les voitures et les systèmes d'atterrissage autonome des avions. Plusieurs constructeurs automobiles ont fait la démonstration de systèmes de conduite autonome de voitures, mais cette technologie n'a toujours pas atteint un niveau où elle peut être mise sur le marché. Il existe de nombreux exemples de véhicules militaires autonomes allant à des missiles avancés aux drones pour des missions de reconnaissance ou le guidage de missiles. L'exploration spatiale est déjà en cours avec des véhicules autonomes utilisant la vision par ordinateur, par exemple, Curiosity de la NASA et le rover Yutu-2 de la CNSA.
Des matériaux tels que le caoutchouc et le silicium sont utilisés pour créer des capteurs qui permettent des applications telles que la détection de micro-ondulations et l'étalonnage des mains robotiques. Le caoutchouc peut être utilisé afin de créer un moule qui peut être placé sur un doigt, à l'intérieur de ce moule se trouvent plusieurs jauges de contrainte.
Le moule à doigt et les capteurs pourraient alors être placés sur une petite feuille de caoutchouc contenant un réseau de broches en caoutchouc. Un utilisateur peut alors porter le moule à doigt et tracer une surface. Un ordinateur peut alors lire les données des jauges de contrainte et mesurer si une ou plusieurs broches sont poussées vers le haut. Si une épingle est poussée vers le haut, l'ordinateur peut la reconnaître comme une imperfection de la surface. Ce type de technologie est utile pour recevoir des données précises sur les imperfections sur une très grande surface[19]. Une autre variante de ce capteur de moule de doigt est des capteurs qui contiennent une caméra suspendue en silicium. Le silicium forme un dôme autour de l'extérieur de la caméra et dans le silicium on a des marqueurs ponctuels qui sont également espacés. Ces caméras peuvent ensuite être placées sur des appareils tels que des mains robotisées afin de permettre à l'ordinateur de recevoir des données tactiles très précises[20].
Avec l’utilisation croissante des médias sociaux, la disponibilité d’internet et l’extension de la couverture de la téléphonie mobile, la place des médias citoyens dans la documentation des crimes de guerre, de la répression gouvernementale et plus généralement des violations des droits de l’homme s’est considérablement agrandie[22].
L’analyse de tous les documents vidéos et images requiert beaucoup de personnel, ce qui peut avoir un cout important. Il faut aussi noter que les compétences linguistiques et les connaissances culturelles et géographiques peuvent limiter le nombre de chercheurs capables d’effectuer cette analyse et qu’il peut être émotionnellement difficile de regarder des vidéos dépeignant des scènes de guerre ou d’agressions[23].
Dans la majorité des cas, le travail manuel des analystes reste nécessaire. Cependant, les techniques de vision par ordinateur sont de plus en plus utilisées par les spécialistes[24] (par exemple: Carnegie Mellon University Center for Human Rights Science, Human Rights Watch, New York University Human Rights Methodology Lab, Carr Center for Human Rights de l'Université Harvard,...)
En effet, ces techniques offrent des possibilités inédites. Premièrement, la vision par ordinateur offre la capacité de rechercher rapidement dans de grands volumes de vidéos des incidents ou des événements spécifiques. Elle permet par exemple de détecter de nombreux types d’objets qui intéressent les chercheurs en droits de l’homme comme les hélicoptères, les avions et autres véhicules militaires[25]. Cette technique est également en mesure détecter des sons particuliers comme des coups de feu ou des explosions.
Ensuite, la vision par ordinateur permet de mieux comprendre les relations entre différents incidents grâce à une analyse globale de grandes collections d’événements[26].L’utilisation de la vision par ordinateur dans ce contexte permet donc aux enquêteurs de ne pas devoir s’appuyer sur une seule vidéo pour la compréhension d’un événement. Elle permet aussi d’augmenter la quantité de données utilisées pour placer l’événement dans son contexte.
Cependant, il est important de noter que la vision par ordinateur ne peut pas remplacer totalement l’activité humaine dans ce domaine[27],[28]. Tout d’abord, la reconstruction et l’analyse d’événements seront toujours limitées par la qualité et la quantité des données. Ensuite, le jugement humain est important pour donner un sens et un contexte au travail effectué par le système de vision par ordinateur. Un exemple important qui souligne l’importance du jugement humain est l’analyse de la provenance des vidéos[24]. Même si les algorithmes de vision par ordinateur sont capables d’analyser de grandes collections de vidéos pour éviter le détournement d’événements, il faut pouvoir prendre en compte le contexte d’origine de la vidéo.
Ce phénomène est très présent sur les réseaux sociaux où les acteurs ne sont généralement pas neutres et ont tendance à publier en masse des vidéos supportant une cause précise[22].Il est donc important de placer les actions décrites dans leur contexte pour pouvoir pleinement les comprendre. Cela nécessite d’avoir des archives vidéos complètes et d'utiliser des formes plus traditionnelles de preuves médico-légales et de témoignages humains. Par exemple, dans les cas de violence policière, il est important de connaître les interactions antérieures entre les policiers et les personnes concernées. La capacité d’analyser de grands volumes de vidéos ne garantit donc pas que la vérité soit découverte car les vidéos ne fournissent toujours qu’une perspective sur les événements, pas une vue omnisciente ou un récit maître[22].
Le fonctionnement des voitures autonomes repose sur la capacité d’analyse visuelle du milieu dans lequel elles se déplacent. Cette analyse est permise par des techniques de vision par ordinateur. L’utilisation de la vision par ordinateur et des technologies connexes dans ce domaine soulève plusieurs problématiques et souligne l’importance de la responsabilité dans les décisions prises par des programmes informatiques assistant la conduite[29].
En mai 2016, un automobiliste est décédé au volant d’une Tesla modèle Salors que sa voiture était en mode auto-pilote[30]. Cet événement tragique est considéré comme le premier accident mortel vérifié d’une voiture en conduite autonome. La voiture n’avait pas été en mesure de détecter un tracteur qui traversait la route à un croisement. L’analyse des données fournies par la voiture, retraçant le parcours de l’automobiliste avant l’accident ont permis de déterminer que la voiture roulait trop vite et que le conducteur répondait aux stimulations périodiques de la voiture. Les données informatiques ne comprenaient cependant aucune explication des décisions prises par le pilotage automatique dans les instants précédant l’accident ou détails sur la façon précise dont l’information visuelle avait été traitée[31],[32]
Dans un premier temps, lorsqu’un accident de la route est inévitable, le système informatique indique, après analyse de l’environnement, le comportement que la voiture doit adopter. En utilisant les informations dont il dispose grâce au système de vision par ordinateur (prédiction des déplacements pouvant mener à des blessures graves, trajectoires bloquées p.ex.), le programme informatique pourrait être amené à choisir entre privilégier la survie des passagers de la voiture ou des personnes externes[33]. Ces décisions de vie ou de mort en cas d’accident sont centrales dans le domaine de l’éthique des algorithmes. Elles constituent l’une des préoccupations de gouvernance principale et rappellent également l’importance d’apporter un cadre légal où les constructeurs et les concepteurs peuvent être tenus responsables[34].
Les voitures (partiellement) autonomes sont contrôlées par des systèmes informatiques construits autour de diverses techniques d’apprentissage comme l’apprentissage profond et l’apprentissage adaptatif. Les données traitées par ces programmes sont acquises par différents types de capteurs (radar, Lidar, GPS). L’utilisation extensive de l’apprentissage profond pourrait transférer l’ensemble des décisions vers la machine et rendre la responsabilité éventuelle des concepteurs des modèles peu évidente à prouver[35],[36]. On observe un phénomène analogue à celui d’une boite noire, dans laquelle la réaction observée dans une certaine situation est prédite mais l’explication précise du raisonnement à l’origine de l’action reste opaque[37].
Plusieurs acteurs importants du marché de l’automobile impliqués dans des projets d’automatisation de la conduite utilisent des combinaisons de structures informatiques et logicielles différentes. Ces approches distinctes ainsi que les désaccords techniques entre les différents constructeurs soulignent l’importance de développer un cadre législatif suffisant pour définir les standards relatifs à l’intégration de certaines technologies dans le domaine de la conduite assistée[29].
Un autre enjeu lié à l’utilisation des voitures autonomes est la vulnérabilité du code informatique qui régit le mouvement de la voiture[38]. Si un tiers parvient à accéder au code informatique, il peut accéder aux algorithmes responsables du fonctionnement et détecter les éventuelles faiblesses. En 2016, la chaîne américaine ME-tv annonçait que des pirates informatiques avaient réussi à modifier le programme informatique d’une Tesla modèle S[39]. Ils avaient supprimé tous les avertissements que le système envoyait à l’utilisateur, indiquant entre autres au pilote de mettre ses mains sur le volant[40].
Il existe une longue histoire d'utilisation de l'imagerie dans l’étude de l’art[41],[42].Peu de temps après la découverte des rayons X au 19e siècle, ceux-ci ont été utilisés pour révéler des sous-dessins et des pentimenti. Plus tard, la photographie infrarouge et la réflectographie ont été exploitées à des fins similaires. Des techniques comme l’imagerie multi-spectre et l’analyse de la fluorescence sont utilisées encore aujourd’hui pour révéler des caractéristiques des œuvres comme la composition des pigments[43],[44]. Historiquement, les images résultantes produites par ces techniques ainsi que les données générées par les instruments étaient analysées par des spécialistes de l’art[45].
Au cours des dernières décennies, un certain nombre de chercheurs formés en vision par ordinateur, en traitement d'image, en infographie et en histoire de l'art ont développé des méthodes informatiques rigoureuses pour résoudre un grand nombre de problèmes de l’histoire de l’art.
On constate que le recours à l'imagerie numérique dans l'étude de l’art est en forte croissance[42].
Ces méthodes permettent d’étudier certaines caractéristiques difficiles à analyser à l’œil nu. Elles ont notamment permis de mieux comprendre les relations entre la structure des coups de pinceaux et les différentes échelles et couleurs dans la Sainte famille ou de détecter des anomalies de perspective dans le portrait Arnolfini de van Eyck[46].
La puissance de ces méthodes informatiques provient entre autres des points ci-dessous :
Les méthodes couramment utilisées dans le domaine comprennent : les procédures basées sur les pixels individuels, les surfaces, l’analyse de perspectives, les méthodes de déformation de l’art courbe, l’analyse informatique de l’éclairage, des coups de pinceaux, de la craquelure, l’analyse graphique simple et des méthodes optiques[42].
Un exemple assez probant de l’utilisation des diverses méthodes de vision par ordinateur dans l’étude de l’art est le « Next Rembrandt Project »[49].
The Next Rembrandt est un projet issu d’une collaboration entre Microsoft, ING et la TU DELFT qui avait pour but de créer une peinture originale imitant le style du peintre Rembrandt Van Rijn en utilisant des techniques d’analyse d’image des œuvres existantes.
La première étape consistait en l’analyse de l’ensemble des œuvres existantes à l’aide de scans tridimensionnels à haute résolution. Les images ont été traitées avec des algorithmes d’apprentissage automatique pour augmentation leur résolution. Ceci a permis de générer une base de données numériques de 150 gigaoctets qui a servi de base de données pour le reste du projet.
Après une analyse informatique extensive de la démographie des personnes représentées dans son œuvre, les chercheurs ont déterminé les caractéristiques les plus communes. Les caractéristiques étudiées comprenaient l’orientation de la tête, la présence de barbe/moustache, le type d’habits et l’âge. Après analyse de la base des données, les chercheurs ont conclu que le profil le plus commun était un homme caucasien entre trente et quarante habillé en noir avec un col blanc et avec le visage orienté vers la droite.
Les chercheurs ont ensuite développé un modèle générant des traits de visage se basant sur les caractéristiques des œuvres de Rembrandt. Les spécificités comprennent l’utilisation fréquente du contraste entre la lumière et l’obscurité, le type de géométrie utilisé par le peintre pour représenter les visages, la composition et la géométrie du matériel de peinture. Enfin, après avoir généré la peinture en deux dimensions, une analyse du relief et des types de coups de pinceaux des œuvres existantes de Rembrandt a permis de recréer une texture similaire.
Les chercheurs ont créé une carte de hauteur à l'aide de deux algorithmes différents qui ont trouvé des modèles de texture des surfaces de toile et des couches de peinture. Les informations ont été transformées en données de hauteur, ce qui a permis d'imiter les coups de pinceau utilisés par Rembrandt
Les domaines d’application principaux de la vision par ordinateur médicale sont la radiologie, la dermatologie, la pathologie ou l'ophtalmologie.
L’introduction d’appareils qui utilisent des algorithmes de vision par ordinateur dans le contexte clinique a soulevé la question de la responsabilité légale en cas d’erreur. Certains acteurs soulignent la nécessité d’adapter le cadre légal de ce domaine[50]. Les questions soulevées concernent principalement le contexte d'utilisation de ces techniques, leur degré d’intervention ou encore les responsabilités des différents acteurs lors de potentiels accidents. Ces acteurs[50] soulignent l'importance de la transparence des algorithmes qui régissent les machines de vision par ordinateur. D’un point de vue légal, la plupart des fautes professionnelles sont prononcées lorsque le médecin s’est écarté des pratiques médicales classiques[51].
Un autre point souligné par ces acteurs est l'importance de la justification du raisonnement ayant mené à un diagnostic médical. Il existe de nombreuses techniques qui permettent aux modèles d'apprentissage automatique médicaux de justifier leurs décisions. Une de ces techniques consiste en la superposition informatique d’une carte thermique avec l'image médicale analysée. Ceci permet de confirmer que les algorithmes de vision par ordinateur basent leur diagnostic sur l'analyse de parties pertinentes de l'image. Les cartes thermiques sont générées en utilisant diverses techniques d’apprentissage automatique comme la visualisation d’activation de classe[52] ou la cartographie de la saillance[53]. Des méthodes de générations permettent également de prendre en considération le contexte médical en listant les principaux facteurs, diagnostics, et analyses démographiques qui ont contribué à cette décision[50].
La question de la responsabilité et la qualification des algorithmes et des dispositifs de vision par ordinateur en tant que produit ou service est centrale sur le plan juridique. En effet, le traitement juridique varie sensiblement en fonction du statut accordé[51]. Les algorithmes de vision par ordinateur destinés à automatiser une tâche clinique sont généralement catégorisés[54] par la FDA comme des dispositifs médicaux. Ils sont soit incorporés comme dispositifs médicaux traditionnels ou soit classifiés en tant que logiciels de guide de dispositif médical.
La reconnaissance faciale est une des utilisations les plus fréquentes de la vision par ordinateur. Elle permet de déterminer si des visages apparaissant sur des images différentes correspondent à la même personne. Si les images ont été prises dans les mêmes conditions (distance, éclairage, expression,...), alors le problème se simplifie à la mesure de quelques caractéristiques du visage. Dans des situations réelles, ce n’est généralement pas le cas et les informaticiens ont dû utiliser la vision par ordinateur pour développer des méthodes afin d’identifier les visages présents dans les documents audio-visuels[55].
L’intérêt envers le domaine des algorithmes de vision par ordinateur a augmenté de manière importante à partir des années 2015. De nombreux acteurs cinématographiques et médiatiques participent à la vulgarisation de cette technologie, entre autres Netflix avec le documentaire « Coded Bias »[56] présenté au festival de Sundance à Zurich et au Festival du film et forum international sur les droits humains de Genève (FIFDH) en 2020. « Coded Biais » est un documentaire traitant des différentes conséquences indésirables de l’utilisation d’algorithmes de vision par ordinateur. Le téléspectateur est invité à suivre Joy Buolamwin, une chercheuse du MIT, qui, après s’être rendue compte qu’un logiciel de reconnaissance faciale ne reconnaissait pas les visages de personnes noires mais bien celui de personnes blanches, investigue l’origine de ce problème. L’enquête de la chercheuse indique une réelle omniprésence de biais dans les algorithmes de vision par ordinateur, touchant majoritairement les femmes ainsi que les personnes de couleurs. L’algorithme utilisé par Amazon pour trier les candidatures d’application pour des offres de travail, des algorithmes offrant de meilleurs accès aux soins et à des meilleurs crédits immobiliers à des personnes blanches qu’à des personnes de couleurs sont pointés du doigt. Le documentaire s’intéresse également à l'utilisation de ces algorithmes dans des perspectives commerciales et de surveillance de masse. Par exemple, le gouvernement central chinois a utilisé des algorithmes de vision par ordinateur pour identifier les manifestants indépendantistes à Hong-Kong en 2019. Le film se base sur des témoignages de différentes personnes victimes de ces biais au quotidien. La réalisatrice met en avant l’importance que ces technologies soit d’une part bien plus soumises à des juridictions strictes mais aussi la nécessité que ces algorithmes soient développés par des entreprises à but non lucratif, ce qui permettrait notamment une plus large acceptation de ces technologies par les populations[57].
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.