Top Qs
Chronologie
Chat
Contexte
Common Crawl
Fondation sans but lucratif éponyme d'un moissonnage périodique et ouvert du web De Wikipédia, l'encyclopédie libre
Remove ads
Common Crawl est une organisation à but non lucratif 501(c)(3) qui explore le Web et fournit gratuitement ses archives et ses ensembles de données au public[1],[2]. Les archives Web de Common Crawl se composent de pétaoctets de données collectées depuis 2008[3]. Il effectue des crawls environ une fois par mois[4].
Common Crawl a été fondé par Gil Elbaz[5]. Peter Norvig et Joi Ito comptent parmi les conseillers de l'organisation à but non lucratif[6]. Les robots d'exploration de l'organisation respectent les politiques nofollow et robots.txt. Le code open source pour le traitement de l'ensemble de données de Common Crawl est accessible au public.
L'ensemble de données Common Crawl comprend des travaux protégés par le droit d'auteur et est distribué depuis les États-Unis dans le cadre de revendications d'utilisation équitable. Les chercheurs d'autres pays ont eu recours à des techniques telles que le mélange de phrases ou le référencement de l'ensemble de données Common Crawl pour contourner la législation sur le droit d'auteur dans d'autres juridictions[7].
L'anglais est la langue principale de 46 % des documents de la version de mars 2023 de l'ensemble de données Common Crawl. Les autres langues les plus courantes sont l'allemand, le russe, le japonais, le français, l'espagnol et le chinois, chacune représentant moins de 6 % des documents[8].
Remove ads
Histoire
Amazon Web Services a commencé à héberger les archives de Common Crawl via son programme Public Data Sets en 2012[9].
L'organisation a commencé à publier des fichiers de métadonnées et la sortie texte des robots d'exploration ainsi que des fichiers .arc en juillet 2012[10]. Les archives de Common Crawl ne comprenaient auparavant que des fichiers .arc[10].
En décembre 2012, blekko a fait don au moteur de recherche Common Crawl des métadonnées qu'il avait recueillies lors des recherches qu'il avait effectuées entre février et octobre 2012[11]. Les données offertes ont aidé Common Crawl à « améliorer son crawl tout en évitant le spam, la pornographie et l'influence d'un référencement excessif »[11].
En 2013, Common Crawl a commencé à utiliser le robot d'exploration Web (webcrawler) Nutch de l'Apache Software Foundation au lieu d'un robot d'exploration personnalisé[12]. De plus, Common Crawl est passé de l'utilisation des fichiers .arc aux fichiers .warc avec son crawl de novembre 2013[13].
Une version filtrée de Common Crawl a été utilisée pour former le modèle de langage GPT-3 d'OpenAI, annoncé en 2020[14].
Remove ads
Chronologie des données de Common Crawl
Résumé
Contexte
Les données suivantes ont été collectées à partir du blog officiel de Common Crawl[15] et de l'API de Common Crawl[16].
Remove ads
Prix Norvig de la science des données Web
En corroboration avec SURFsara, Common Crawl sponsorise le Norvig Web Data Science Award, un concours ouvert aux étudiants et chercheurs du Benelux[18],[19]. Le prix porte le nom de Peter Norvig, qui préside également le comité de sélection du prix[18].
Colossal Clean Crawled Corpus
La version de Google du Common Crawl s'appelle Colossal Clean Crawled Corpus, ou C4 en abrégé. Il a été construit pour la formation de la série de modèles linguistiques T5 en 2019[20]. Il existe quelques inquiétudes concernant le contenu protégé par le droit d'auteur dans le C4[21].
Références
Liens externes
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads