トップQs
タイムライン
チャット
視点

コモン・クロール

ウィキペディアから

Remove ads

コモン・クロール英語: Common Crawl)は、非営利団体501(c)団体の一つで、クローラ事業を行い、そのアーカイブデータセットを自由提供している[1][2]。コモン・クロールのウェブアーカイブは主に、2011年以降に収集された数PBのデータで構成されている[3]。通常、毎月クロールを行っている[4]

概要 企業形態, 創業者 ...

コモン・クロールはジル・エルバズ英語版によって設立された[5]。顧問には、ピーター・ノーヴィグ伊藤穰一が含まれる[6]。クロールする上では、Nofollowおよびrobots.txtポリシーを尊重する。データセットを処理するためのソースコードも公開されている。

データセットには著作権で保護された作品が含まれており、それらはフェアユースに基づいたうえでアメリカ合衆国から提供されている。他国の研究者は、文章をシャッフルしたり、共通のデータセットを参照したりするなどして、他国の著作権法を回避している[7]

Remove ads

歴史

2012年、Amazon Web Servicesによってクロールを開始[8]

同年7月に、メタデータファイルとクローラーのテキスト出力を.arc英語版ファイルでリリースした[9]。そのため、以前は.arcのファイルしか含まれていなかった[9]

2012年12月、blekko英語版は2012年2月から10月までに実施したクロールでのメタデータをコモン・クロールの検索エンジンに寄付した[10]。寄付されたデータは、「スパム、ポルノ、過度すぎる検索エンジン最適化の影響を回避しながらクロールを改善する」のに役立つ結果になった[10]

2013年、カスタムクローラーの代わりにApacheソフトウェア財団Nutch英語版クローラーの使用を開始[11]。2013年11月のクロールから、従来の.arcファイルの使用からWeb ARChive形式に切り替えられた[12]

コモン・クロールのフィルタリングバージョンは、2020年に発表されたOpenAIGPT-3の学習モデルに使用された[13]

データを使用する際の課題の1つは、膨大な量のウェブデータがあるにもかかわらず、その一部のみがより良く文書化してしまうことである。これにより、コモン・クロールのデータを使用するプロジェクトの問題を診断しようとすると、課題が発生する可能性がある。解決策としては、すべてのデータセットに、その動機、構成、収集プロセス、および推奨される用途を文書化したデータシートを添付することである[14]

Remove ads

ノーヴィグ・ウェブデータサイエンス賞

SURFnet英語版との協力で、コモン・クロールはノーヴィグ・ウェブデータサイエンス賞を後援している。これはベネルクスの学生、研究者に開かれたコンテストである[15][16]

脚注

外部リンク

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads