Internet Archive - Wikiwand

Internet Archive (Archivo de Internet) es una biblioteca digital estadounidense sin fines de lucro fundada en 1996 por Brewster Kahle.^[1]^[2]^[4] Ofrece acceso gratuito a colecciones de materiales digitalizados, incluidos sitios web, aplicaciones de software, música, audiovisuales y materiales impresos. El Archivo también aboga por un Internet libre y abierto. Hasta el 1 de septiembre de 2025, el Internet Archive albergaba más de 46 millones de materiales impresos, 15 millones de videos, 1.3 millones de programas de software, 14 millones de archivos de audio, 5.3 millones de imágenes, 279 660 conciertos y más de 1 billón de páginas web en su Wayback Machine.^[5]^[6] Su misión es proporcionar «acceso universal a todo el conocimiento».

Datos rápidos Creador, Tipo ...

Internet Archive


Creador	Brewster Kahle
Tipo	organización sin fines de lucro, sitio web, biblioteca digital y archivo web
Campo	archivado web y preservación digital
Forma legal	organización 501(c)(3)
Fundación	10 de mayo de 1996^[1]^[2]
Fundador	Brewster Kahle
Sede central	300 Funston Ave, Distrito Richmond San Francisco, California, Estados Unidos
Presidente	Brewster Kahle
Productos	Cover Art Archive
Ingresos	30 547 311 dólares estadounidenses
Beneficio neto	4 086 576 dólares estadounidenses
Activos	7 320 849 dólares estadounidenses
Empleados	169 (2022)^[3]
Miembro de	Asociación de Bibliotecas de Estados Unidos, Digital Library Federation, Digital Preservation Coalition, biblioteca del patrimonio de la biodiversidad, Project ReShare, Federación Internacional de Asociaciones de Bibliotecarios y Bibliotecas, Asociación de Publicaciones Académicas de Acceso Abierto, Coalition for Networked Information, Coalición de publicaciones académicas y recursos académicos, Alianza Nacional para la Gestión Digital, Communia, International Internet Preservation Consortium y Massachusetts History Alliance
Filiales	Internet Archive Europe
Coordenadas	37°46′56″N 122°28′18″O
Sitio web	archive.org y archivep75mbjunhxc6x4j5mwjmomyxb573v42baldlqu56ruil2oiad.onion
[editar datos en Wikidata]

El Internet Archive permite al público subir y descargar material digital a su clúster de datos, aunque la mayor parte de sus datos se recopilan de manera automática mediante sus rastreadores web, que trabajan para preservar la mayor cantidad posible de la web pública.^[7]^[8] Su archivo web, la Wayback Machine, contiene más de un billón de capturas web.^[6] El Archivo también supervisa numerosos proyectos de digitalización de libros, formando colectivamente uno de los mayores esfuerzos de digitalización de libros a nivel mundial.

Remove ads

Historia

Resumir

Contexto

Brewster Kahle fundó el Internet Archive en mayo de 1996, casi al mismo tiempo que inició la empresa de rastreo web con fines de lucro, Alexa Internet.^[9]^[10] La página más antigua conocida que fue archivada en el sitio se guardó el 10 de mayo de 1996 a las 2:42 p. m. UTC. Para octubre de ese mismo año, el Internet Archive ya había comenzado a archivar y preservar grandes cantidades de contenido de la World Wide Web.^[11]^[12]^[13]^[14]^[15] Este contenido archivado se hizo más accesible al público general en 2001 a través de la Wayback Machine.

A finales de 1999, el Archivo amplió sus colecciones más allá del archivo web, comenzando con los Archivos Prelinger. Actualmente, el Internet Archive incluye textos, audios, imágenes en movimiento y software. También alberga una serie de proyectos adicionales, como el Archivo de Imágenes de la NASA, el servicio de rastreo por contrato Archive-It, y el catálogo de libros editable tipo wiki y sitio de información bibliográfica Open Library. Poco después, el Archive comenzó a ofrecer servicios especializados enfocados en las necesidades de acceso a la información para personas con discapacidades visuales, proporcionando libros accesibles públicamente en formato DAISY (Sistema de Información Digital Accesible).^[16]

En 2023, Internet Archive tuvo que hacer frente a un litigio por parte de varias editoriales^[17]^[18] (caso Hachette v. Internet Archive), debido a que dichas editoriales consideraban que sus derechos de autor habían sido infringidos por la National Emergency Library, creada por Internet Archive durante la pandemia de COVID-19 para facilitar el acceso a los libros en un periodo en el que las bibliotecas físicas estaban cerradas. El caso se cerró en 2024, con una sentencia favorable a las editoriales.^[19]

También en 2023, Internet Archive tuvo que hacer frente a un segundo litigio, esta vez por parte de las discográficas Universal Music Group, Sony Music y Concord, debido a la iniciativa The Great 78 Project de Internet Archive, la cual pretendía digitalizar 250.000 discos fonográficos del periodo entre los años 1880 y 1960. Las discográficas mencionadas consideraban que la iniciativa infringía sus derechos de autor.^[20]^[21] La demanda fue retirada en septiembre de 2025, tras un acuerdo entre las discográficas e Internet Archive.^[22]

En octubre de 2024, Internet Archive sufrió un ataque DDoS que mantuvo el servicio inoperativo durante varios días. El ataque también incluyó el robo de 31 millones de registros de su base de datos de usuarios.^[23]

En 2025, la Wayback Machine alcanzó 1 billón (en inglés, trillion) de páginas web archivadas, convocándose una serie de eventos a lo largo del mes de octubre de ese año, para celebrarlo.^[6]

Remove ads

Infraestructura

A fecha de 2025, Internet Archive opera seis centros de datos,^[24] principalmente en California, con otros menores en otros estados de Estados Unidos, además de en Canadá y Europa. Todos ellos cuentan con sistemas de control de acceso y protección contra incendios, además de monitorización de seguridad, estando todos ellos certificados en el estándar ISO/IEC 27001, mientras que algunos de ellos cuentan con otras certificaciones adicionales.^[25]

También en 2025, Internet Archive cuenta con copias del archivo repartidas por varios lugares a lo largo del mundo, como medida de protección ante posibles desastres.^[26] En 2016, toda la redundancia existente se limitaba a un almacenamiento pareado, similar al RAID, con 2 copias que habitualmente se encontraban almacenadas en centros de datos diferentes, mientras que las copias de seguridad no eran una práctica habitual en aquel momento.^[27]

A partir de 2016, Internet Archive comenzó a trabajar en un prototipo descentralizado de su librería digital. Desde 2020, una parte del contenido de Internet Archive comenzó a ser almacenado en Filecoin.^[28] En octubre de 2023, 1 petabyte de datos había sido subido a la red de Filecoin.^[29]

Remove ads

Secciones de Internet Archive

Resumir

Contexto

Internet Archive contiene las siguientes secciones donde se albergan distintas colecciones: web, vídeo, texts (textos), audio, e images (imágenes).

Sección web

Ejemplo de archivos de la WaybackMachine:

Apple Computer
Amazon
Microsoft
BBC News
Google
Open Directory
Wikipedia

Sección vídeo (Moving Images)

Democracy Now
Cinemocracy
Net Café
Youth Media
Open Mind
Shaping San Francisco
Mosaic Middle East News
World at War
Media Burn
The BBS Documentary Video Collection.
Prelinger Archives (Colección de películas de Rick Prelinger)
Open Source Movies (Películas misceláneas de cine independiente)
Feature Films (Largometrajes de dominio público)
Computer Chronicles (Programa de televisión transmitido entre 1983 y 2002)
Election 2004 (Elecciones presidenciales de 2004)
Independent News (Noticias Independientes, 252 vídeos)
SIGGRAPH (Dedicado a los comienzos de la animación por computadora, 111 vídeos)
Brick Films (películas de cine independiente dedicado a la realización de películas cuadro por cuadro con ladrillos LEGO)
Game Videos (sección sobre la historia de los videojuegos con presentaciones de ellos y una sección beta de programas antiguos)
Film Chest Vintage Cartoons (56 dibujos animados que ya están en dominio público)
AV Geeks (ésta es una colección de Skip Elsheimer que dedicó su búsqueda por 10 años de películas de proyección en las escuelas y para militares, se incluye unos de los cortos educativos más raros como Private SNAFU: The Home Front (1943), que servía para el entrenamiento militar y cómo hacer decisiones correctas en situaciones de riesgo.)
SabuCat Movie Trailers (sección destinada a los tráileres publicitarios, un total de 103)
Universal Newsreels (antes de la era de la televisión los noticieros se proyectaban en el cine, ocasionalmente antes de una película o un show temático, Universal realizó noticieros entre 1929 y 1967. Un total de 601 vídeos.
Se incluye desde el 2007 la colección British Government Public Information Films, la colección incluyen 22 cortos de servicio público Inglés.

Sección Texts

La sección Texts del Internet Archive alberga libros digitalizados y colecciones de varias bibliotecas y de instituciones y fundaciones culturales procedentes de todo el mundo.

El Internet Archive opera unos 33 centros de escaneado en cinco países, digitalizando alrededor de 1000 libros al día, y contaba con más de 4 millones de libros (en 2013). Se descargaban 15 millones de libros al mes.^[30]

Entre aproximadamente 2006 y 2008, la Microsoft Corporation tuvo una relación especial con la sección texts del Internet Archive a través de su proyecto Live Search Books, mediante el cual escaneó más de 300 000 libros que fueron aportados a la colección, proporcionó apoyo financiero y aportó equipos de escaneado. El 23 de mayo de 2008 Microsoft anunció que interrumpía su proyecto^[31] y puso los libros escaneados a disposición sin limitación contractual y donó los equipos de escaneado.

Hacia octubre de 2007, algunos usuarios del Internet Archive empezaron a subir al Archive libros en dominio público procedentes del Google Book Search.^[32] En noviembre de 2013, había más de 900 000 libros escaneados por Google en la colección del Archive. Los libros eran idénticos a los que había en Google excepto que no tenían las marcas de agua de Google y no tenían restricciones de uso. Brewster Kahle reveló en 2013 que este esfuerzo de archivado fue coordinado por Aaron Swartz y un grupo de amigos, que bajaban libros en dominio público de Google de manera lenta y desde suficiente número de ordenadores diferentes para no sobrepasar los límites de Google. Hicieron esto para asegurar el acceso general a materiales que ya estaban en dominio público. El Archive se aseguró de que los archivos se atribuían correctamente y se enlazaban a Google. Google nunca se quejó, aunque sí algunas bibliotecas.

En noviembre de 2015 había 134 740 libros en español en el Internet Archive, de un total de 8 millones de textos, de los cuales 6 millones eran en inglés.

Sección Audio

Este artículo o sección necesita referencias que aparezcan en una publicación acreditada.

La sección Audio del Archive incluye música, audiolibros, grabaciones de programas de radio antiguos y noticieros, entre otros archivos sonoros. Hay más de 200 000 grabaciones digitales gratuitas. Hay subcolecciones también de pódcast.

Otra subcolección es el Live Music Archive, que alberga 100 000 grabaciones de conciertos tanto de artistas independientes como de artistas consagrados o de conjuntos con normas de difusión permisivas de grabaciones de conciertos como The Grateful Dead o The Smashing Pumpkins.

En esta sección Audio se alberga también la colección de audiolibros LibriVox. En enero de 2016 esta colección contenía 9500 libros en dominio público. Aunque la gran mayoría son audiolibros en inglés, hay también libros en otras lenguas, y una pequeña parte están en español.

Sección Image

Esta sección contiene colecciones de diversas procedencias. Contiene, por ejemplo, colecciones de imágenes del Metropolitan Museum of Art, mapas del Servicio Geológico de los Estados Unidos, una colección de clips de la NASA o una colección de 500 000 carátulas de discos.

Remove ads

Controversias, disputas legales y activismo

Resumir

Contexto

Este artículo o sección necesita referencias que aparezcan en una publicación acreditada.

Biblioteca Nacional de Emergencias

En medio de la pandemia de COVID-19 que cerró muchas escuelas, universidades y bibliotecas, Internet Archive anunció el 24 de marzo de 2020 que estaba creando la Biblioteca Nacional de Emergencia al eliminar las restricciones de préstamos que tenía para 1,4 millones de libros digitalizados en su biblioteca abierta, pero limitando a los usuarios a la cantidad de libros que pueden sacar y haciendo cumplir su devolución; normalmente el sitio solo permitiría un préstamo digital por cada copia física del libro que se tuviera, mediante el uso de un archivo cifrado que se volvería inutilizable una vez finalizado el período de préstamo. Esta biblioteca permanecería como tal hasta al menos el 30 de junio de 2020 o hasta que la emergencia nacional de los EE. UU. terminara, lo que ocurra después. En el lanzamiento, Internet Archive permitió a los autores y titulares de derechos presentar solicitudes de exclusión voluntaria para que sus obras se omitieran de la Biblioteca Nacional de Emergencias.

Internet Archive dijo que la Biblioteca Nacional de Emergencia abordó una "necesidad global e inmediata sin precedentes de acceso a material de lectura e investigación" debido al cierre de bibliotecas físicas en todo el mundo. Justificaron el accionar de varias maneras. Legalmente, dijeron que estaban promoviendo el acceso a esos recursos inaccesibles, lo que afirmaron era un ejercicio de los principios de Uso Justo (Fair Use). Internet Archive continuó implementando su política de préstamos digitales controlados anteriores a la Biblioteca Nacional de Emergencia, lo que significa que todavía encriptaban las copias prestadas y no era más fácil que antes para los usuarios crear nuevas copias de los libros. La determinación final de si la Biblioteca Nacional de Emergencias constituía o no un uso legítimo solo podía ser realizada por un tribunal. Moralmente, también señalaron que Internet Archive era una biblioteca registrada como cualquier otra, que pagaban ellos mismos los libros o los recibían como donaciones, y que los préstamos a través de bibliotecas eran anteriores a las restricciones de derechos de autor.

Sin embargo, Internet Archive ya había sido criticada por Autores y Editores por su enfoque de préstamo anterior, y tras el anuncio de la Biblioteca Nacional de Emergencias, los autores (como Neil Gaiman y Chuck Wendig), editores y grupos que representan a ambos tomaron cartas en el asunto, equiparando la medida a la infracción de derechos de autor y la piratería digital, y el uso de la pandemia de COVID-19 como una razón para ampliar los límites del derecho de autor (ver también: Biblioteca abierta § Acusaciones de violación de derechos de autor). Después de que los trabajos de algunos de estos autores fueran en respuesta ridiculizados, Jason Scott, de Internet Archive, pidió que los partidarios de la Biblioteca Nacional de Emergencias no denigren los libros de nadie: "Me doy cuenta de que hay un fuerte debate y desacuerdo aquí, pero los libros son vivificantes, y estos escritores los escribieron".

Demanda de editores

El funcionamiento de la Biblioteca Nacional de Emergencia es parte de una demanda presentada contra Internet Archive por cuatro importantes editoriales de libros en junio de 2020, desafiando la validez de los derechos de autor del programa de préstamos digitales controlados. En respuesta, Internet Archive cerró la Biblioteca Nacional de Emergencias el 16 de junio de 2020, en lugar del previsto para el 30 de junio de 2020, debido a la demanda. Los demandantes, apoyados por Copyright Alliance, afirmaron en su demanda que las acciones de Internet Archive constituían una "infracción masiva intencionada de derechos de autor". Además, el Sr. Senador, Thom Tillis (republicano por Carolina del Norte), Presidente del Subcomité de propiedad intelectual del Comité Judicial del Senado, dijo en una carta a Internet Archive (Archivo de Internet) que "estaba preocupado porque Internet Archive piensa que determinar el alcance de la ley de derechos de autor". En agosto de 2020, el juicio de la demanda estaba programado tentativamente para comenzar en noviembre de 2021.

Como parte de su respuesta a la demanda de los Editores, a fines del año 2020, Internet Archive (Archivo de Internet) lanzó una campaña llamada Empowering Libraries (hashtag #EmpoweringLibraries) que describió la demanda como una amenaza para todas las bibliotecas.

Además, en diciembre del año 2020, Publishers Weekly incluyó la demanda entre sus "Diez (10) mejores historias de bibliotecas del año 2020".

En un artículo preimpreso del año 2021, Argyri Panezi, argumentó que este caso "presenta 2 (dos) preguntas importantes, pero a la vez separadas, relacionadas con el acceso electrónico a las obras de la biblioteca Nacional de Emergencia; porque primero: plantea preguntas sobre la práctica legal de los préstamos digitales, y porque segundo: plantea preguntas sobre si el uso de emergencia del material protegido por derechos de autor podría ser de uso legítimo" y además, argumentó que las bibliotecas tienen un papel de servicio público para permitir que "las futuras generaciones sigan teniendo igual oportunidades de acceso, a una gran pluralidad de fuentes originales, y forma digital".

Violación de datos y ataque de denegación de servicio

Entre el 8 y el 10 de octubre de 2024,^[33]^[34]^[35] Internet Archive sufrió varios ataques de denegación de servicio (DDoS), lo cual se confirmó por Brewster Kahle.^[36] El 9 de octubre, la plataforma «Have I Been Pwned?» reportó una filtración de datos que ocurrió el 28 de septiembre de 2024, exponiendo los datos de 31 081 179 cuentas de usuarios.^[36]^[37] Kahle confirmó esta violación de seguridad, indicando que detectaron una «alteración de nuestra página web mediante una biblioteca de JavaScript; filtración de nombres de usuario, correos electrónicos y contraseñas encriptadas con sal». Además, mencionó que la biblioteca se había deshabilitado y que se estaban realizando mejoras en la seguridad del sitio.^[36]^[37] No está claro si los ataques DDoS y la filtración de datos están relacionados.^[36]

Durante los ataques, Internet Archive mostró un mensaje emergente que decía:

«¿Alguna vez has sentido que el Internet Archive funciona con palillos y está constantemente al borde de sufrir una brecha de seguridad catastrófica? Acaba de suceder. ¡Nos vemos a los 31 millones de ustedes en HIBP!»

Una organización pro-palestina de hackers llamada SN_BLACKMETA se atribuyó la responsabilidad por el hackeo de los datos de cuentas y los ataques DDoS, argumentando que lo hicieron porque el sitio web está basado en Estados Unidos.^[38]^[37]

Posición de Internet Archive sobre la preservación digital

La organización Internet Archive tiene una misión explícita de preservar el patrimonio cultural en línea, asegurando que los recursos como libros, películas, software y sitios web sean accesibles para futuras generaciones. Argumentan que la digitalización y el acceso digital son vitales para preservar el conocimiento en una era cada vez más tecnológica.

Aunque Internet Archive es una organización sin fines de lucro, su enfoque de "preservación abierta" puede ser visto como un desafío a los modelos tradicionales de distribución de contenidos y derechos de autor. Defienden que la copia de libros y otros materiales con derechos de autor para fines de preservación y acceso digital puede encuadrarse dentro de "uso justo", especialmente en el contexto de bibliotecas públicas.

Impacto de la demanda en las bibliotecas y la ley de derechos de autor

La demanda presentada por las editoriales contra Internet Archive también ha sido vista como un punto crítico en el debate sobre la ley de derechos de autor en el siglo XXI. Las bibliotecas enfrentan desafíos al tratar de equilibrar la necesidad de preservar y compartir materiales con la protección de los derechos de los autores y editores. Si se llegara a un fallo en contra de Internet Archive, podría sentar un precedente legal que dificultaría que las bibliotecas y otros archivos digitales continuaran con iniciativas similares, limitando su capacidad para compartir libros y recursos con el público de manera accesible.

Este caso también pone de relieve la tensión entre los intereses comerciales de las editoriales y el acceso público al conocimiento. A medida que más recursos bibliográficos se digitalizan, las preocupaciones sobre el control de estos materiales por parte de empresas privadas están aumentando, lo que podría llevar a que se restrinja el acceso a información esencial para la educación y la investigación.^[39]

Remove ads

Véase también

Referencias

Loading content...

Enlaces externos

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads