Top Qs
Chronologie
Chat
Contexte

Wayback Machine

site web d'archivage De Wikipédia, l'encyclopédie libre

Wayback Machine
Remove ads

La Wayback Machine (littéralement « machine à revenir en arrière ») est un site web mis à disposition par l’organisme à but non lucratif américain Internet Archive afin d'offrir un accès à des clichés instantanés de pages web stockés par l'organisme. Les archives de la Wayback Machine sont mises à la disposition de tous gratuitement. Elles permettent aux utilisateurs de la plateforme de retracer l’évolution de différents sites internet à travers le temps, ainsi que de retrouver des pages web qui n’existent plus[2].

Faits en bref Adresse, Commercial ...

La Wayback Machine est considéré comme la plus grande collection d’archives web à travers le monde[3]. En octobre 2025, le nombre de pages web archivées a atteint 1000 milliards et ce chiffre augmente d’environ 500 millions de pages par jour[4]. C’est approximativement 800 000 usagers à travers le monde qui visitent la Wayback Machine tous les jours[4].

Remove ads

Historique

Dès sa création en 1996, Internet Archive commence à capturer et enregistrer des pages web afin de les archiver. Puis, en 2001, l'équipe menée par Brewster Kahle lance la Wayback Machine, qui offre une interface publique à cette base de données qui comporte à l'époque 10 milliards de pages représentant 100 térabits de données[5].

L'appellation « Wayback Machine » renvoie à des épisodes du The Rocky and Bullwinkle Show, où M. Peabody, un chien à l'air professoral et son assistant Sherman (un animal de compagnie humain), utilisent une machine à remonter le temps appelée « WABAC Machine » pour décrire des évènements historiques célèbres.

En octobre 2024, une attaque par déni de service compromet 31 millions de comptes Wayback Machine, le service est hors service pendant plusieurs jours[6]. Les motifs ainsi que les personnes derrière cette cyberattaque ne sont pas connus[7].

Remove ads

Contenu

Les pages web archivées dans la Wayback Machine peuvent être préservées selon deux méthodes. Internet Archive a majoritairement recours à des robots d’indexation pour faire sa collecte de données. Anciennement, c’était principalement le robot d’indexation de la compagnie Alexa Internet qui était utilisé, mais il y a une dizaine d’années, Internet Archive a développé son propre robot d’indexation nommé Heritrix[8]. La fréquence des instantanés est variable et dépend de plusieurs facteurs dont le nombre de liens entrants vers la page concernée[9].

Depuis 2013, les utilisateurs peuvent directement faire la sauvegarde de pages web grâce à l’outil « Save Page Now ». Cette fonctionnalité a été ajoutée dans le but de démocratiser et diversifier le contenu se trouvant dans la Wayback Machine. Il est estimé que plus de 100 URL par seconde sont sauvegardées à partir de cet outil[3].

Remove ads

Utilisation

Initialement, la Wayback Machine était perçue comme un outil permettant d’avoir accès à du contenu provenant des liens morts que les utilisateurs pouvaient rencontrer en surfant sur le web[10]. Cependant, les utilités qu’on lui donne aujourd’hui sont beaucoup plus variées, entre autres, ce site d’archivage web peut servir à soutenir le développement de nouveaux algorithmes d'apprentissage automatique, à faire la vérification des faits, dans le but de tenir les gouvernements et les personnalités publiques responsables et à protéger la propriété intellectuelle en prouvant les cas de plagiats[3],[11]. Des preuves récupérées dans la Wayback Machine ont même déjà été admises dans plusieurs tribunaux à travers le monde[12].

La Wayback Machine est également un outil très prisé pour faire de la recherche scientifique. Entre 2000 et 2013, c’est 2593 articles, livres et autres documents qui ont été écrits au sujet de la Wayback Machine[13]. Les principaux domaines d’études ayant contribué à cette littérature sont les technologies de l’information, les sciences de l’information et les sciences sociales[13].

Limites

Résumé
Contexte

Bien qu’il existe plusieurs autres projets similaires à travers le monde, la Wayback Machine se différencie par le fait que ses créateurs ont l’aspiration de sauvegarder toutes les pages web existantes, et cela sans discrimination[3]. Malgré tout, il existe un certain nombre de facteurs qui complexifient le développement de cette collection d’archives :

  • La Wayback Machine préserve principalement les pages HTML, puisque certaines méthodes de codages, telles que le JavaScript, sont plus difficiles à archiver[14]. Les pages web dynamiques présentent un grand défi pour les robots d’indexation tel que Heritrix. Ce dernier n’est pas en mesure de performer les interactions nécessaires pour initier des scripts côté serveur, ce qui empêche Heritrix de récupérer du contenu provenant d’une base de données[15].
  • Peu de contenu est sauvegardé à l’extérieur du monde occidental[16]. Une raison pouvant expliquer cette situation est que l’algorithme d’exploration utilisé par Internet Archive utilise les hyperliens trouvés sur les pages web déjà indexées afin de trouver de nouveaux sites internet[17]. Les pays dont les pages web sont peu liées peuvent donc être sous-représentés[18].
  • Les pages web payantes et les sites dont les propriétaires ont demandé d’être retirés de la Wayback Machine ne sont pas sauvegardés[19]. Depuis 2002, Internet Archive suit la Oakland Archive Policy, qui est une politique qui encadre les paramètres selon lesquels les auteurs ou les éditeurs peuvent faire la demande pour que leurs documents cessent d’être disponibles dans les archives web. Une fois mise en place, cette exclusion est rétroactive et permanente[20].
  • Certaines pages web sauvegardées dans la Wayback Machine peuvent contenir des inconsistances temporales. Dans le cas où certains éléments nécessaires à la reconstitution d’une page web selon une date spécifique ne soient pas disponibles, le logiciel de la Wayback Machine remplace les éléments manquants par d’autres éléments qui sont disponibles à la date de sauvegarde la plus rapprochée[21]. Comme il peut se passer plusieurs semaines ou plusieurs mois entre les sauvegardes d’une page web, la page qui est présentée aux utilisateurs ne reflète pas un instant précis, mais est plutôt constituée de fragments provenant de moments différents[21].
Remove ads

Notes et références

Voir aussi

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads