コモン・クロール

コモン・クロール
企業形態	非営利
創業者	ジル・エルバズ（英語版）
主要人物	ピーター・ノーヴィグ、ノヴァ・スピバック（英語版）、カール・マラマッド（英語版）、カール・ボラッカー（英語版）、伊藤穰一
ウェブサイト	commoncrawl.org
対応言語	英語

コモン・クロール（英語: Common Crawl）は、非営利団体、501(c)団体の一つで、クローラ事業を行い、そのアーカイブとデータセットを自由提供している^[1]^[2]。コモン・クロールのウェブアーカイブは主に、2011年以降に収集された数PBのデータで構成されている^[3]。通常、毎月クロールを行っている^[4]。

概要企業形態, 創業者 ...

コモン・クロールはジル・エルバズ（英語版）によって設立された^[5]。顧問には、ピーター・ノーヴィグと伊藤穰一が含まれる^[6]。クロールする上では、Nofollowおよびrobots.txtポリシーを尊重する。データセットを処理するためのソースコードも公開されている。

データセットには著作権で保護された作品が含まれており、それらはフェアユースに基づいたうえでアメリカ合衆国から提供されている。他国の研究者は、文章をシャッフルしたり、共通のデータセットを参照したりするなどして、他国の著作権法を回避している^[7]。

歴史