Loading AI tools
élimination des informations personnelles dans les données De Wikipédia, l'encyclopédie libre
L' anonymisation de données (a fortiori personnelles) consiste à modifier le contenu ou la structure de ces données afin de rendre très difficile ou impossible la « ré-identification » des personnes (physiques ou morales) ou des entités concernées (ce qui implique de bien définir ce que signifie dans ce cadre le concept d’identifiabilité[1]). Les anglophones parlent aussi parfois de De-Identification (DE-ID)[2].
Le choix d'anonymiser des données résulte souvent d'un compromis déontologique, juridique et éthique, entre une volonté ou une obligation de protéger les individus et leurs données personnelles. L'anonymisation est en particulier employée pour la diffusion et le partage[3] de données jugées d'intérêt public, comme les données ouvertes (Open data).
L'utilisation de données anonymisées soulève encore des questions juridiques et éthiques car elle peut aussi être une « barrière » ou un frein[4] à la recherche médicale, « observationnelle »[5]. De même, de nombreuses exceptions à cette règle (par exemple pour certaines données médicales, concernant la défense ou la sécurité intérieure) sont intégrées dans le droit des pays démocratiques. Cette utilisation s'accompagne parfois d'une limite à la durée de conservation.
Si la notion de confidentialité des données personnelles — en particulier médicales – remonte à Hippocrate[6], le stockage et traitement informatique à large échelle de données personnelles ont récemment bouleversé cette question.
Les États-Unis et les États membres de l'Union européenne se sont peu à peu doté d'une législation nationale ou supranationale sur la protection de la confidentialité des données, y compris des données informatisées (en Europe depuis la Directive 95/46/CE sur la protection des données personnelles) qui a imposé aux États membres d'harmoniser leur législation en la matière avant le , y compris concernant le transfert de données vers des pays hors-Union européenne par exemple (enjeu important puisque pour des raisons de coûts, le traitement ou l'exploitation de certaines données peuvent être externalisés et délocalisés hors d'Europe).
La directive européenne ne concerne que les données non anonymisées et stipule que l'utilisation de « données anonymes » ne relève pas de sa compétence : selon le considérant 26 de la directive, « les principes de la protection des données ne s'appliquent pas aux données rendues anonymes d'une manière telle que la personne concernée n'est plus identifiable ». ce qui a été confirmé et précisé par la jurisprudence en Angleterre et au Pays de Galles (arrêt de la Cour d'appel). Les premiers textes (nationaux ou européens) étaient peu précis sur la manière dont il faut anonymiser les données nominatives ou personnelles.
Pour certaines données, l'anonymisation nécessite encore le consentement des personnes concernées, et de manière générale, le fait de se réserver la possibilité de désanonymiser la donnée avant un certain délai (au moyen d'une ou plusieurs clés de déchiffrement en général) devrait aussi requérir le consentement préalable des personnes concernées.
On cherche maintenant à améliorer la sécurité des transferts de données sans freiner les flux de transferts ni entraver les besoins légitimes de circulation de données à grain fin (ce qui peut par exemple être crucial pour la médecine à distance)[7].
Les enjeux sont à la fois éthiques, juridiques, informationnels et de bonne gouvernance[8],[9].
En outre, des enjeux nouveaux sont nés de l'apparition de l'Internet qui a augmenté l'accès à l'information, permis à des personnes d'offrir aux autres - parfois inconsidérément ou en étant mal informé des risques - des éléments de sa vie privée (via les blogs et forums, ou pages personnelles par exemple), rendant plus difficile le « droit à l'oubli ». Des efforts sont faits depuis les années 1990 au moins pour informer les patients de l'utilisation possible de leurs données médicales ou de certaines données plus ou moins personnelles, et de leur droit à la vie privée. Ces efforts doivent être renforcés par une réglementation européenne unifiée a estimé le parlement européen en 2013-2014 et selon la vice-présidente Viviane Reding (commissaire à la Justice de l'UE) « La protection des données se fait en Europe. De solides règles de protection des données doivent être la marque de l'Europe. Après des scandales d'espionnage des données mondiales par les Américains, la protection des données est plus que jamais un facteur de compétitivité... »[10].
Dans certains contextes ou pour des raisons personnelles, une personne peut souhaiter l'anonymat (ou pouvoir utiliser un pseudonyme, ou refuser que son nom soit cité, son visage montré, etc.). L'anonymat est obligatoire quand la loi impose de protéger certaines données personnelles ou données sensibles en les anonymisant, ce qui peut permettre une certaine réutilisation de données d'intérêt public et général (bien commun), sans menacer la personne.
La pseudo-anonymisation provisoire (en réalité, un masquage de l'identité de son auteur) d'une copie d'examen permet à l'examinateur de moins être influencé par le nom, la classe ou la nationalité de l'élève.
Selon le contexte, l'anonymisation d'un personne dans un débat, un reportage, etc. lui permet d'échapper à d'éventuelles représailles, à une stigmatisation ou simplement à un accès non souhaitable à sa vie privée, mais elle peut en revanche parfois nuire à la crédibilité de cette personne ou à la qualité (en termes de précision) de l'information. L'anonymisation d'une donnée contenant des éléments personnels diminue parfois la valeur de cette donnée du point de vue statistique, de sa pertinence ou de son utilité pour la Recherche.
L'anonymisation des fichiers d'enquêtés produits lors de sondages d'opinion est une opération qui peut revêtir un sens sociologique. La sociologue Emmanuelle Zolesio suggère aux sociologues qui analysent des données anonymisées de ne pas envisager l'anonymisation de façon déconnectée du reste de l'analyse des entretiens. Pour les cas où l'enquêteur « offre un retour à ses enquêtés en leur faisant lire les résultats de sa recherche », il existe des méthodes pour anonymiser des données dans les cas où les enquêtés se connaissent et peuvent se reconnaître malgré les changements de noms faits par l'enquêteur[11].
Des enjeux particuliers concernent la lutte contre le spam ciblé[12], la protection des données de santé et plus généralement biomédicales (dont code génétique), avec par exemple l'établissement de registres du cancer, de registres de maladie, de cartographie épidémiologique, etc. Dans ce domaine, la recherche médicale ou écoépidémiologique, ou les organismes de santé[13], ont parfois impérativement besoin de données permettant d'identifier le patient (et l'obligation systématique de passer par le consentement à utilisation de données personnelles par chaque patient induirait un biais important d'interprétation de la donnée et peut être un frein à la recherche[14],[15],[16],[17]). Les utilisateurs de ces données sont alors soumis à des prescriptions particulières. Dans certains pays l'obligation de confidentialité est encore renforcée pour certaines maladies (ex : maladies sexuellement transmissibles).
Dans le cadre des diffusions de certaines données publiques contenant des informations privées, et notamment dans le cadre de l'open data (données ouvertes), certaines données doivent obligatoirement être « anonymisées » pour leur réutilisation par des tiers, selon les lois en vigueur[18].
Un enjeu permanent est de mettre à jour la réglementation et les bonnes pratiques, et de préciser ses interprétations possibles[4] alors que les possibilités informatiques de croiser des données issues de l'Internet évoluent rapidement. Les contrôleurs de données sont également particulièrement concernés.
Les déclarations de certaines maladies (dites « maladies à déclaration obligatoire » ou MDO) sont anonymisées de manière irréversible (SIDA/VIH par exemple en France) afin de protéger au mieux les patients, tout en permettant d'améliorer la veille sanitaire, la prévention et les études épidémiologiques.
Avec les progrès et la diminution des coûts de l'analyse génétique, émergent de nouveaux enjeux de bioéthique[19] : à quel point une donnée anonyme est anonyme ? s'interrogeaient en 2012 Harald Schmidt Shawneequa Callier[20], et d'autres[21]. De plus le génome d'une personne contient aussi des informations a priori personnelles sur ses ascendants. Déjà en 2008, des acteurs du secteur de la génomique tels Greenbaum et al. se demandaient en 2008 si l'anonymat génétique n'est pas déjà perdu[22].
Le partage et même la publication en open data de données génomiques anonymisées se sont montrés être d'un grand intérêt pour les avancées de la médecine en particulier et de la science en général[23], mais tout en étant source d'inégalités et de risques nouveaux en cas de mauvais usage de certaines données.
En 2008, le NIH a durci ses règles de sécurisation, après qu'un article ait démontrant qu'il est possible de détecter fiablement l'ADN d'une personne même si cet ADN représente moins de 1 % du volume total d'ADN analysé[24]. Peu après l'un des haut-responsables du NIH, via une lettre au Journal Science pressait la communauté scientifique de « considérer attentivement comment ces données étaient partagées, et à prendre des précautions appropriées » pour protéger la confidentialité des données médicales et la vie privée des patients ou participants à des programmes d'études génétiques[25].
George Church, l'un des créateurs du Personal Genome Project (PGP) était déjà préoccupé par le fait que l'ADN est « l'identifiant numérique ultime de l'individu et que beaucoup de ses traits peuvent être ainsi identifiés », estimant donc que promettre aux donneurs d'échantillons d'ADN une totale protection de la vie privée et de la confidentialité serait impossible et malhonnête. En outre, la désidentification de tels échantillons appauvrirait la fois des données génotypiques et phénotypiques, c'est pourquoi ce programme est devenu selon Misha Angrist (l'un des fondateurs du projet) le plus connu pour son approche particulièrement poussée (sans précédent) de consentement éclairé[26] : chaque participant doit passer un examen portant sur ses connaissances des questions scientifiques et de confidentialité génomiques et donner son accord de renonciation à la vie privée et la confidentialité de leurs données génomiques et des dossiers de santé personnels. 100 000 participants devraient être concernés par ce seul programme. Ceci peut être source de biais d'interprétation, car le programme n'a retenu que des individus pouvant tolérer l'incertitude (acceptant de donner un consentement éclairé). L'ampleur de ce biais ne peut à ce jour être mesurée, mais les résultats finaux devront en tenir compte.
De par le monde, de nouvelles méthodes dévaluation des enjeux[27] et d'anonymisation d'analyses génétiques sont testées[28].
Une fois retiré les identifiants habituels d'un texte, il peut y rester des noms de ville, de lieux, des expressions particulières qui permettraient d'identifier son auteur ou la personne dont on parle. Des logiciels spécialisés peuvent repérer ces éléments en comparant le texte à des ressources linguistiques tels que des listes de lieux ou villes, noms d’hôpitaux ou d’institutions de soins, expressions rationnelles, etc. Nombre de ces logiciels ont cependant été conçu pour l'anglais et doivent être "françisés" ou adaptés à d'autres langues.
L'anonymisation peut être réalisée « à la source » par l'entité produisant les données, ou « en sortie », après traitement et analyse.
Dans un nombre croissant de pays, l'anonymisation est réalisée par des entreprises agréées, « par un personnel nommé et dont le contrat de travail peut être révoqué en cas de violation de la confidentialité du patient »[29]. En Europe, une convention (European Convention for the Protection of Human Rights and Fundamental freedoms) précise que la vie privée comprend la vie privée d'une personne, de sa famille, son domicile et aussi sa correspondance.
Une première étape, minimale consiste à supprimer les identifiants des fiches ou des bases de données concernées ; ces identifiants sont généralement :
L'étape suivante consistera à appliquer aux fichiers ou bases de données des « filtres » et « transformations cryptographiques » (exemple : chiffrement et/ou hachage de données par un algorithme dédié, par exemple SHA pour Secure Hash Algorithm), mais avant ce travail, le gestionnaire des données procède ou fait procéder à une étude clarifiant son besoin d'anonymisation, ses objectifs et ses exigences (exemple : doit-il y avoir une réversibilité possible de l'anonymisation ?), hiérarchisant le cas échéant les données à protéger, selon leur degré de « sensibilité » et en fonction de la finalité du traitement que doivent ensuite subir les informations. Il peut ainsi produire et comparer plusieurs scénarios d'anonymisation pour mieux choisir la solution lui semblant la plus pertinente (en fonction de ses exigences[30], et des exigences de la Loi). Dans tous les cas l'anonymisation doit résister aux attaques par dictionnaire.
Plusieurs phases et niveaux d'anonymisation se succèdent parfois : par exemple l’hôpital procède à une première anonymisation, le centre de traitement des données peut ensuite compléter ce travail, et les utilisateurs secondaire (chercheurs en général) peuvent encore sur-anonymiser la donnée retravaillée (avant sa publication dans une revue ou distribution à d'autres utilisateurs)[30]. De nombreuses méthodes existent (effacement de certaines données et/ou transcodage manuel, translation mathématique, transformation automatique par un logiciel ad hoc) ; utilisation de pseudonymes par exemple pour le couple médecin/patient ; de chiffrement (généralement avec une clé publique - éventuellement fragmentée - possédée par l'autorité compétente) ; mono-anonymisation, bi-anonymisation ou multi-anonymisation[30].
Dans le domaine médical, la notion d'identité anonymisée et de ré-identification du patient concerne les moyens directs et indirects de ré-identification (ex : nom, adresse...)[31] mais également les données chiffrées si le moyen de décryptage est disponible[32].
Pour limiter les risques de fuites d'informations, une personne (ex : un patient) ne figure dans une base de données anonymes que si cela est obligatoire ou vraiment utile[30], et à un projet peut n'être associée qu'une seule base anonymisée. Une sécurité juridique accrue est obtenue si toutes les personnes y figurant ont donné leur consentement (par écrit ou via la fourniture de son identifiant, pour une étude de nature médico-commerciale, par exemple)[30], mais ce type de base induit des biais d'interprétation.
Bien entendu, à chaque niveau de production ou stockage de données :
De telles données sont de plus en plus utilisées dans de nombreux domaines (Recherche, statistique, gestion administrative, études de marché...), Ces données appartiennent par exemple aux catégories suivantes :
Parfois, il faut interdire toute possibilité de ré-identification, ce qui implique un processus irréversible d'anonymisation, par une méthode ayant prouvé sa robustesse aux inférences[37],[38],[39] (par inférence on entend ici la reconstitution illégale de données confidentielles non directement accessibles, par le moyen de recherche et mise en correspondance de plusieurs données légitimement accessibles, révélant certaines informations sur une personne. Le type d'inférence concerné peut être inductif, déductif, abductif ou probabiliste[40] ;
Des moyens sophistiqués semblent néanmoins pouvoir dans certains cas au moins permettre non pas une ré-identification certaine mais d'établir des probabilités que telle personne corresponde à un certain jeu de données[41]. Des logiciels permutant certaines valeurs des tables de données (de manière que les données personnelles deviennent fausses, sans que la statistique globale soit faussée) et/ou introduisant aléatoirement du bruit peuvent rendre le recoupement a posteriori beaucoup plus difficile[30].
L'anonymisation de textes (ex : corpus de courriels, ou corpus de réponse à un questionnaire d'entretien…) ayant un coût significatif, les corpus anonymisés réutilisables sont assez rares[42].
Certains auteurs comme Pete Warden estiment qu'il est devenu impossible de réellement tout à fait anonymiser certaines données et qu'il va falloir apprendre à travailler avec cette limite. En effet, les chercheurs ont montré qu'un individu pouvait être retrouvé dans une base de données médicales en connaissant son sexe, code postal et sa date de naissance[43], dans une base de données téléphoniques sur base de quatre points de géolocalisation[44] ou encore dans une base de données de cartes bleues en connaissant quatre magasins et jours où celui-ci a utilisé sa carte[45].
Selon lui, prétendre qu'une donnée est totalement anonymisée peut en outre procurer un « faux sentiment de sécurité »[46].
Il recommande de ne pas abandonner l'anonymisation (car elle freine et rend couteux le processus de reconstruction), mais il faut aussi diffuser plus intelligemment les données, en limitant si possible leur niveau de précision, et en apprenant des experts (des sociologues, médecins, économistes et d'autres travaillent sur ces questions depuis plusieurs décennies).
Les chercheurs Luc Rocher, Julien M. Hendrickx et Yves-Alexandre de Montjoye estiment quant à eux que les standards d'anonymisation en vigueur en 2019 sont insuffisants, notamment du point de vue du règlement général sur la protection des données de l'Union européenne, car ils permettent une réidentification par recoupement avec d'autres bases de données. Selon leur modèle, 99,98 % des résidents des États-Unis pourraient être ré-identifiés dans n'importe quel jeu de données à partir de quinze variables démographiques[47].
L'anonymisation peut être organisationnelle, cryptographique ou irréversible (fonction à sens unique). L'anonymisation est par définition irréversible, s'il est possible de remonter à la personne originelle, on appelle cela de la pseudonymisation. L'un des moyens de sécuriser une donnée en conservant la possibilité d'une ré-identification ultérieure est d'utiliser une carte à puce qui peut aléatoirement générer et mémoriser plusieurs identifiants anonymes secondaires[30].
Mesurer les évolutions de la perception du public concernant les procédures actuelles et les scénarios futurs d'usages secondaires et partagés de données personnelles, dans le domaine de la santé notamment (et leurs conditions d'usage), est important pour cadrer ou faire évoluer les structures éthiques et juridiques de surveillance de l'utilisation de ces données (ex CNIL en France).
Au début des années 2000, la plupart des citoyens européens font généralement confiance aux fournisseurs de soins de santé pour traiter leurs données dans le respect de la confidentialité : selon un sondage Eurobaromètre, 84 % des citoyens de l'UE ont déclaré qu'ils faisaient confiance à la profession médicale pour cela, mais seulement 42 % des sondés connaissaient la nécessité de fournir leur accord pour que quelqu'un puisse utiliser leurs renseignements personnels, de même pour leur droit à s'opposer à certains usages de ces données[48].
Diverses enquêtes d'opinion ou études scientifiques montrent que, depuis l'avènement de l'informatisation des données, le public est au début des années 2000 prêt à accepter l’informatisation des dossiers médicaux[49], mais en restant de manière générale, et avec peu de distinction selon l'origine géographique, ethnique ou le sexe, très soucieux de la protection de la vie privée et des données personnelles. Ainsi en 2014, « Neuf Européens sur dix (92%) disent qu'ils sont préoccupés par les applications mobiles (App) susceptibles de collecter leurs données sans leur consentement »[10] et « Sept Européens sur dix sont préoccupés par l'utilisation potentielle que les entreprises peuvent faire de l'information divulguée »[10].
Selon une étude nord-américaine publiée en 2013, plus qu'à l'utilisateur ou à la nature plus ou moins sensible de l'information partagée, le public interrogé souhaitait d'abord et surtout savoir ce qui sera spécifiquement fait avec ces données personnelles.
Une autre étude de 2013 montre que le « grain » d'anonymisation (degré de floutage en quelque sorte) est aussi un souci pour le public[50]
Concernant la santé, alors que l'informatisation de la médecine se développe rapidement[51], le public admet l'importance de l'accès à la donnée non anonymisée au personnel médical responsable des soins primaires, et au patient lui-même, mais il est soucieux d'une bonne anonymisation de ces données quand elles doivent faire l'objet d'usages secondaires[52]. La propriété de l'information médicale n'est pas toujours claire[53].
Une enquête de 2004 basée sur des groupes de discussion mêlant du personnel médical et quelques personnes non-personnel de santé de « community health councils » anglais a montré qu'on ne pouvait pas a priori présumer l'acceptabilité par le public anglais d'une utilisation du contenu du dossier médical sans consentement préalable du patient. Tous soutenaient la recherche à partir de ces données, mais tout en se montrant préoccupées par les risques de diffusion indue à partir de la collecte de données faites à partir des dossiers médicaux sans consentement du patient (collecte vécue comme un manque de respect induit par la perte de contrôle du patient sur ces données). Dans les groupes interrogés lors de cette étude, l'accès aux données personnelles par des organismes externes non autorisés était une crainte communément émise. Et les informateurs-clés s'y sont montrés plus critiques vis-à-vis des scénarios et moins bien accepter les risques de dérives[54].
L'anonymisation doit donc être prise en compte, en amont dans la planification des soins et des politiques médicales[55] et les procédures d'essais cliniques, de médicaments notamment[56] et lors de la constitution de bases de données destinées à la recherche médicale[57].
L'anonymisation peut être attaquée par des attaques comme l'attaque par individualisation[58].
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.