Loading AI tools
インターネットアーカイブが運営するウェブアーカイブサイト ウィキペディアから
ウェイバックマシン(Wayback Machine)は、インターネット上のWorld Wide Webやその他情報を扱うデジタルアーカイブ。アメリカ合衆国カリフォルニア州サンフランシスコにある非営利団体のインターネットアーカイブが2001年にサービスを開始した。
スクリーンショット | |
URL |
web |
---|---|
言語 | 英語 |
タイプ | アーカイブ |
事業地域 | 世界中(中国とロシアを除く) |
運営者 | Internet Archive |
登録 | 任意 |
開始 | 2001年10月24日[1][2] |
現在の状態 | 運営中 |
プログラミング言語 | Java、Python |
2001年、インターネットアーカイブの創設者であるブリュースター・ケールとブルース・ギリアットがウェブサイトのコンテンツが閉鎖やサイトリニューアルなどで消失する問題に対処するために立ち上げた[3]。このサービスでユーザーは「three dimensional index」と呼ばれる時間別のウェブページアーカイブを閲覧することができる[4]。ケールとギリアットはインターネットの全てをアーカイブすることと「全ての知識へのユニバーサルアクセス」を提供することを目標にウェイバックマシンを開発した[5]。
「Wayback Machine」の名はアニメーション作品「ロッキーとブルウィンクルの大冒険」に登場するキャラクターのミスター・ピーボディとシャーマンが使用する「WABACマシン」(WABACはウェイバックと発音)というタイムトラベルマシンが由来である[6][7]。シリーズ作品の1つである「Peabody's Improbable History」では日常的にWABACマシンを使って度々有名な歴史上の出来事を目の当たりにするだけでなく直接的に関与し改変したりしている。
ウェブページのキャッシュをアーカイブする作業は5年後に一般公開することを目標に1996年から始まっている。 1996年から2001年まで、集められた情報は不完全ながらデータベースとしてデジタルテープで保存されていて、ケールは研究者や科学者がアクセスできるようにしていた[8]。アーカイブが5周年を迎えた2001年に一般公開を迎え、カリフォルニア大学バークレー校にて記念式典が行われた[9]。サービス開始時点で既にアーカイブページが10億ページ以上に及んでいた[10]。
データはインターネットアーカイブが所有するLinuxノードの大規模クラスタに保存されているが[5]、時折ウェブページに再アクセスし新しいバージョンをアーカイブしている(下部の技術的詳細参照)[11]。またウェイバックマシン側がウェブサイトを「クロール」して保存できる場合に手動で検索ボックスにウェブサイトのURLを入力してキャプチャーすることができる。
2024年10月、ハクティビスト集団「BlackMeta」からのDDoS攻撃によって3100万人分のユーザーデータ(個人情報)が流出、Internet Archive運営のarchive.orgとopenlibrary.orgのサイトは停止状態となっている[12][13]。
ウェブをクロールし、一般にアクセスできるWorld Wide Webページの全て、Gopherヒエラルキー、ネットニュース(Usenet)掲示板システム、ダウンロード可能なソフトウェアを収集するために開発されたソフトウェアが「クローラー」である[14]。「クローラー」によって収集された情報はインターネット上にある情報が全て含まれているわけではなく公開者によって制限されているかアクセスできないデータベースに保存されているデータがある。部分的にキャッシュされたウェブサイトの矛盾を解決するために、2005年にインターネットアーカイブがArchive-It.orgという機関やコンテンツ制作者がデジタルコンテンツコレクションを収集して保存しデジタルアーカイブを作成するシステムを開発した[15]。
クロールは様々なソースで構築されていて一部は第三者から移入されたものやアーカイブによって内部生成されたものもある[11]。たとえばアルフレッド・P・スローン財団やアレクサ・インターネットが構築したクロールやアメリカ国立公文書記録管理局やインターネット・メモリー財団の代理としてインターネットアーカイブが運用しているクロールや、コモン・クロールのミラーがある[11]。2010年より「Worldwide Web Crawls」が作動していて世界中のウェブをキャプチャーしている[16][11]。
スナップショットの取得頻度はウェブサイトによって異なっていて[11]、「Worldwide Web Crawls」内のウェブサイトはクロール毎に一回アーカイブされたサイトがある「クロールリスト」に含まれている[11]。たとえば「Wide Crawl Number 13」は2015年1月9日に始まり、2016年7月11日に完成した[17]。しかし、複数のクロールがある時点で同時進行していることがあり、また特定のサイトが複数のクロールリストに含まれるため、サイトのクロール頻度が大きく異なることが多い[11]。
長年に渡る技術発展のように、ウェイバックマシンのストレージ容量は増大している。一般公開から2年後の2003年時点で、ウェイバックマシンの容量は月に12TB(テラ バイト)増加している。データはインターネットアーカイブ職員がカスタムデザインしたPetaBoxラックシステムに保存されている。最初の100TBのラックは2004年6月に本格稼働したが、間もなくさらなる容量のストレージが必要になることが判明した[18][19]。
2009年にインターネットアーカイブは自身のカスタマイズしたストレージアーキテクチャをSun Open Storageに移行し、サン・マイクロシステムズのカリフォルニアキャンパスにあるSun Modular Datacenterの新たなデータセンターで管理することになった[20]。2009年時点で、ウェイバックマシンは約3PB(約3000TB)のデータで構成されていて、毎月100TB(0.1PB)(ペタ バイト)の割合で増加していた[21]。
2011年、インターフェイスやアーカイブされたコンテンツの索引が更新されたウェイバックマシンの新しいかつ改善されたバージョンの公開テストが行われた[22]。同年3月、ウェイバックマシンフォーラムにて「ウェイバックマシン新バージョンのベータ版は2010年に全てのクロールされたデータのインデックスが更新されより完全なものとなり、定期的に更新を続けている。古いウェイバックマシンには2008年になっても僅かなデータしかなく、これ以上インデックスを更新する予定もなく、今年運用終了する予定である。」と発表された[23]。また2011年、インターネットアーカイブは6組のPetaBoxラックを導入したことで、ウェイバックマシンのストレージ容量は700TB(0.7PB)増加した[24]。
2013年1月、URLが2,400億に達したと発表した[25]。同年10月、ユーザーがURLを入力するだけでウェブサイトをアーカイブできる「Save a Page」機能を発表したが[26]、この機能は悪意あるバイナリをダウンロードさせる手口に悪用される脅威となった[27][28]。
2014年12月時点で、ウェイバックマシンはウェブページが4,350億、データ容量が約9PBとなり、週で20TB(0.02PB)増える割合になった[10][29][30]。
2016年7月、データ容量が約15PBに達したと発表した[31]。
2018年9月、データ容量が25PB以上に達した[32][33]。
2020年12月、データ容量が70PB以上に達した[34]。
2023年3月、ウェイバックマシンにアーカイブされているサイトの数が8000億に達した[35]。
2013年10月から2015年3月の間、アレクサの全世界ランクは163[36]から208[37]に推移している。
2022年8月にはページ数が7200億件を突破。
2023年中にはページ数が1兆に達すると言われている。
ウェイバックマシンの年別 | アーカイブページ数 |
---|---|
2005 | 40,000,000,000 |
2008 | 85,000,000,000 |
2012 | 150,000,000,000 |
2013 | 373,000,000,000 |
2014 | 400,000,000,000 |
2015 | 452,000,000,000 |
2016 | 459,000,000,000 |
2017 | 279,000,000,000 |
2018 | 310,000,000,000 |
2019 | 345,000,000,000 |
2020 | 405,000,000,000 |
2021 | 514,000,000,000 |
2022 | 640,000,000,000 |
歴史的に、ウェイバックマシンはRobots Exclusion Standard(robots.txt)の設定でウェブサイトをクロールできるかできないか、既にクロールされているか、そのウェブサイトのアーカイブが一般向けに閲覧できるかを判断している。ウェブサイト管理者は任意でrobots.txtを使ってウェイバックマシンをオプトアウトするか設定できる。robots.txtの設定を遡及的に適用していて、もしインターネットアーカイブをブロックしている場合、そのドメインから過去にアーカイブされたページも直ちに利用できなくなる。加えて、インターネットアーカイブは「時々ウェブサイト管理者が、我々に直接連絡したり、サイトのクロールやアーカイブを止めるように求めることがあり、この要求に我々は従っている。」と声明している[40]。さらに、「インターネットアーカイブは自身の資料をコレクションに追加することを望まない人のウェブサイトやその他インターネットドキュメントを保存したり提供することは考えていない。」とも述べている[41][42]。
Waybackの遡及的除外規定は2002年にカリフォルニア大学バークレー校の情報管理学部が出した、ウェブサイト管理者がサイトのアーカイブへのアクセスを阻止する権利について書かれている「Recommendations for Managing Removal Requests and Preserving Archival Integrity」の一部に基づいている[43]。Waybackは高額訴訟を避けるためにこの規定を遵守している[44]。
しかし、2017年にWaybackの遡及的除外規定が緩和され、アメリカ合衆国の政府や軍のウェブサイト両方のrobots.txtの設定に従わずクロールを行いウェブページを閲覧できるようにした。2017年4月時点で、robots.txtの無視は拡大し米国政府のウェブサイトに留まらなくなっている[45][46][47][48]。
一般向けに利用開始された2001年以降、ウェイバックマシンによるデータの収集と保存方法やアーカイブにある現行のページに関して学者によって研究されている。2013年時点で、ウェイバックマシンに関する論文は約350件ありほとんどは情報技術、図書館科学、社会科学の分野で著されている。社会科学学者は1990年代から現在までの間のウェブサイト開発が企業の成長に与えた影響を分析するためにウェイバックマシンを活用している[10]。
ウェイバックマシンがページをアーカイブした時、通常ほとんどのハイパーリンクが収集されておりネットの不安定性さが原因で壊れている可能性があってもそれらのリンクは保持される。インドの研究者はオンライン学術出版のハイパーリンクを保存するためのウェイバックマシンの能力の有効性を研究していて、実際保存されていたのはほぼ半分という結果を得た[49]。
ジャーナリストも削除されたウェブサイトや日にちの経った報道記事を閲覧したりウェブサイトコンテンツに変えるためにウェイバックマシンを使用している。得られたコンテンツは政治家に説明責任を求め、論争の場での嘘を暴くことに活用されている[50]。2014年、ウクライナからの分離独立を目指す組織のトップであるイーゴリ・ストレルコフは自身のソーシャルメディアページでの投稿で、実際は民間のマレーシア航空機だったことが判明する前にウクライナ軍機と疑われる軍用機を自軍が撃墜したことを自慢していたものの、後にその投稿を削除しウクライナ軍が撃墜したと非難したがその削除した投稿がアーカイブに残っていた[50][51]。2017年、ホワイトハウスのウェブサイトから気候変動に関する全ての参照文献が削除されたことがArchive.orgの閲覧を通して発覚しこれがredditで議論になったことが科学のための行進の原因となった。「科学者はワシントンでデモを起こす必要がある。」というユーザーのレスポンスがあった[52][53][54]。
ウェイバックマシンは多機能であるがいくつかの制限も存在する。2014年、ウェブサイトがクロールされてウェイバックマシンで閲覧できるようになるまで6ヶ月ものタイムラグがあった[55]。2018年時点ではタイムラグは3時間から10時間である[56]。ウェイバックマシンではユーザーがウェブサイトを閲覧するためにはURLを把握する必要がある[57]。
またウェイバックマシンはウェブクローラーの制限により常に作成されたウェブページが全て収録されるわけではない上、FlashプラットフォームやJavaScriptで書かれたフォームといったインタラクティブ機能はホストウェブサイトとの対話が必要なため完全にアーカイブできない。ウェブクローラーはHTML(またその派生の一種)でコードされていないものを取り出すのが困難なため結果的にハイパーリンクが壊れたり画像が失われることも多い。さらに、ウェブクローラーは他のどのサイトからもリンクされていない「孤立ページ」をアーカイブすることもできない[58][57]。ウェイバックマシンの運用を定めた特定の規則によって設定されているハイパーリンクの深さ制限により全てのページの全ハイパーリンクをアーカイブすることもできない[16]。
一部の管理者は自身のウェブサイトにrobots.txtというファイルを置くことでウェイバックマシンが発見しアーカイブすることを防いでいる。さらに、ウェブサイト管理者はインターネットアーカイブに直接問い合わせたりアーカイブからのページの削除を求めることもできる[58]。
2009年の訴訟である「Netbula, LLC v. Chordiant Software Inc.」では被告のChordiantはNetbulaにウェイバックマシンが遡ってNetbulaのサイトのアーカイブページの過去版へのアクセスを不能にしているとしてウェブサイトに置かれたrobots.txtの強制的な撤去を求めた。そのページにはChordiantがこの訴訟で有利になる材料があると考えていた[59]。
Netbulaは自社のウェブサイトを改ざんしようとしているとして申立に反対し、インターネットアーカイブを直接呼び出さなければならないと主張した[60]。インターネットアーカイブの職員はChordiantの申立を支持する意見書を提出したが、「著しい負担や費用、業務の中断無し」に他の手段でウェブページを作成することはできないとも述べている[59]。
カリフォルニア州北地区サンノゼ管区のハワード・ロイド判事はNetbulaの申立は退けたものの、ChordiantにNetbulaが求めるアーカイブページにアクセスできるように一時的にrobots.txtの無効化を求めた[59]。
2004年10月の訴訟である、「Telewizja Polska USA, Inc. v. Echostar Satellite」, No. 02 C 3293, 65 Fed. R. Evid. Serv. 673(N.D. Ill. October 15, 2004)は、訴訟の当事者がウェイバックマシンのアーカイブを有効な証拠の典拠とした初めての裁判とされている。Telewizja PolskaはTVPポロニアのプロバイダでエコースターはディッシュ・ネットワークを運営している。裁判の手続きの前に、エコースターはTelewizja Polskaウェブサイトの過去のコンテンツの証拠になるウェイバックマシンのスナップショットを提出しようとしたが、Telewizja Polskaは伝聞証拠禁止の原則や認証されていない典拠であることを理由にスナップショットを採用しないように予備的申し立てを行ったが、アランダー・キーズ判事はTelewizja Polskaによる伝聞証拠禁止の原則の主張を退け、TVPの裁判での証拠としての除外を求める予備的申し立てを認めなかった[61][62]。
いくつかの追加要件(たとえば記録保管者の正式な声明の提供)が満たされていることを条件に、米国特許商標庁や欧州特許庁は提供されたウェブページが公にアクセスできていたことを示す証拠となるインターネットアーカイブからのデータ印を承認している。これらの日付はたとえば特許出願審査で、ウェブページが先行技術として利用可能かどうかを決定するのに活用される[63]。
ウェブサイトのアーカイブには技術的制限があり、その結果として、訴訟相手がウェブサイトのアーカイブによってもたらされた結果を悪用することがある。この問題は基礎となるリンクが公開されていない故にエラーを含んでいる可能性がある場合において、ウェブページのスクリーンショットが問題、回答や専門家の証人の報告として提出してしまうことで悪化することもある。たとえばウェイバックマシンなどのアーカイブはフォームに書き込みしないゆえに、アーカイブにおいて非RESTful電子商取引データベースは含まれない[64]。
欧州では、ウェイバックマシンは著作権法に違反する可能性があると言われている。コンテンツの公開や複製を決めることができるのはそのコンテンツの作成者のみであり、インターネットアーカイブは作成者から削除要求が来たら削除しなければならないとされる[65]。ウェイバックマシンの除外規定は公式サイトのFAQページに書かれている[66]。
Wayback Machineのアーカイブ活動に関してインターネットアーカイブに対する訴訟が数多く起こされている。
2002年後半、インターネットアーカイブはウェイバックマシンから新興宗教 サイエントロジーを批判する複数のサイトを削除した[67]。この時サイト所有者の要求により削除した旨のエラーメッセージが表示されたが[68]、その後実際に削除を要求したのはサイエントロジー教会 (en) の弁護士でありサイト所有者は削除を望んでいなかったことが明らかになった[69]。
2003年、Harding Earley Follmer & Fraileyはウェイバックマシンを活用して商標問題からクライアントを弁護した。弁護士は数年前のウェブサイトの内容によって原告の主張は無効であることを論証することに成功した。原告のHealthcare Advocatesはデジタルミレニアム著作権法とコンピュータ犯罪取締法違反を含む著作権侵害を糾弾するために申し立ての相手にインターネットアーカイブを含む修正を申告した。また、Healthcare Advocatesは自身のウェブサイトにrobots.txtを導入して以降、最初の訴訟が提起された後もインターネットアーカイブはウェイバックマシンから自身のウェブサイトの過去のコピーを全て削除するべきなのに一部は未だに閲覧可能であると主張した[70]。この訴訟は法廷外で解決していて、その後ウェイバックマシンで問題が修正された[71]。
活動家のスザンヌ・シェルは2005年12月、1999年から2004年まで自身のウェブサイトの profane-justice.org をアーカイブしていたとして10万ドルの賠償を求めインターネットアーカイブを提訴した[72][73]。インターネットアーカイブは2006年1月20日、カリフォルニア北部地区連邦地方裁判所にシェルの著作権を侵害していないという判決を求める確認訴訟を起こした。これに対してシェルは自身の利用規約に違反していると主張する形でインターネットアーカイブを反訴した[74]。2007年2月13日、コロラド州連邦地方裁判所裁判官は契約違反を除き全ての反訴を退けた[73]。インターネットアーカイブはコピー行為により著作権侵害が生じたというシェルの主張を退けることは望まなかった[75]。
2007年4月25日、インターネットアーカイブとスザンヌ・シェルは共同で和解を発表した[72]。インターネットアーカイブは「…自身のウェブコンテンツをアーカイブされたくない人の資料をウェイバックマシンに入れようとは考えていない。我々はシェル氏が自身のウェブサイトに関する有効かつ法的効力のある著作権を有することを認識しており、ウェイバックマシンに彼女のウェブサイトのコンテンツを収集したことによって訴訟になってしまったことを遺憾に思う。」と、シェルは「私はインターネットアーカイブの目標の歴史的価値に敬意を表しており、その目標を阻害したり損害を与えるつもりはなかった。」と述べた[76]。
Archive.orgは現在中国でブロックされている[77][78]。暗号化されたHTTPSプロトコルに対応した後、2015年にインターネットアーカイブはロシア全域でブロックされた[79][80][50]。
Library Freedom Projectのアリソン・マクリーナ長官は「図書館員は個人のプライバシーは重視しているものの、検閲には強く反対している。」と述べている[50]。
他の脅威には自然災害[81]、サイトのユーザーに対する監視がある[82]。
ケヴィン・ヴォーンは「我々の技術的文明に継続性がある場合」に「何も手を加えられていないデータの多くが検索可能」なら「何もない」世代の長期利用において有効な方法で生き残れると考えるとしている[83]。
インターネットアーカイブには、長期的なインフラストラクチャが無くてもデータが消失する前に熱心にキャプチャーするために[84]長期間構築し続けていると記述されているとされる[85]。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.