Common Crawl

	Common Crawl
	; Logo de Common crawl
Création	2007
Fondateurs	Gil Elbaz
Personnages clés	Peter Norvig; Rich Skrenta; Eva Ho
Forme juridique	501(c)(3) non lucratif
Siège social	San Francisco, Californie; Los Angeles, Californie; États-Unis
Activité	Édition et collecte de données (en)
Site web	https://commoncrawl.org/
	modifier - modifier le code - voir Wikidata

Common Crawl est une organisation à but non lucratif 501(c)(3) qui explore le Web et fournit gratuitement ses archives et ses ensembles de données au public^[1]^,^[2]. Les archives Web de Common Crawl se composent de pétaoctets de données collectées depuis 2008^[3]. Il effectue des crawls environ une fois par mois^[4].

Faits en bref Création, Fondateurs ...

Common Crawl a été fondé par Gil Elbaz^[5]. Peter Norvig et Joi Ito comptent parmi les conseillers de l'organisation à but non lucratif^[6]. Les robots d'exploration de l'organisation respectent les politiques nofollow et robots.txt. Le code open source pour le traitement de l'ensemble de données de Common Crawl est accessible au public.

L'ensemble de données Common Crawl comprend des travaux protégés par le droit d'auteur et est distribué depuis les États-Unis dans le cadre de revendications d'utilisation équitable. Les chercheurs d'autres pays ont eu recours à des techniques telles que le mélange de phrases ou le référencement de l'ensemble de données Common Crawl pour contourner la législation sur le droit d'auteur dans d'autres juridictions^[7].

L'anglais est la langue principale de 46 % des documents de la version de mars 2023 de l'ensemble de données Common Crawl. Les autres langues les plus courantes sont l'allemand, le russe, le japonais, le français, l'espagnol et le chinois, chacune représentant moins de 6 % des documents^[8].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

date de scan	Taille en TiB	Milliards de pages	Information complémentaire
Février 2025	402	2.6
Janvier 2025	460	3.0
Décembre 2024	394	2.64
Novembre 2024	405	2.68
Octobre 2024	365	2.49
Septembre 2024	410	2.8
Août 2024	327.4	2.3
Juillet 2024^[17]	360	2.5
Juin 2024	382	2.7
Mai 2024	377	2.7
Avril 2024	386	2.7	Le scan a été mené du 12 au 24 avril 2024.
Février/Mars 2024	425	3.16	Le scan a été mené du 20 février au 5 mars 2024.
Décembre 2023	454	3.35	Le scan a été réalisé du 28 novembre au 12 décembre 2023.
Juin 2023	390	3.1	Le scan a été mené du 27 mai au 11 juin 2023.
Avril 2023	400	3.1	Le scan a été mené du 20 mars au 2 avril 2023.
Février 2023	400	3.15	Le scan a été mené du 26 janvier au 9 février 2023.
Décembre 2022	420	3.35	Le scan a été mené du 26 novembre au 10 décembre 2022.
Octobre 2022	380	3.15	Le scan a été mené en septembre et octobre 2022.
Avril 2021	320	3.1
Novembre 2018	220	2.6
Octobre 2018	240	3.0
Septembre 2018	220	2.8
Août 2018	220	2.65
Juillet 2018	255	3.25
Juin 2018	235	3.05
Mai 2018	215	2.75
Avril 2018	230	3.1
Mars2018	250	3.2
Février 2018	270	3.4
Janvier 2018	270	3.4
Décembre 2017	240	2.9
Novembre 2017	260	3.2
Octobre 2017	300	3.65
Septembre 2017	250	3.01
Août 2017	280	3.28
Juillet 2017	240	2.89
Juin 2017	260	3.16
Mai 2017	250	2.96
Avril 2017	250	2.94
Mars 2017	250	3.07
Février 2017	250	3.08
Janvier 2017	250	3.14
Décembre 2016	—	2.85
Octobre 2016	—	3.25
Septembre 2016	—	1.72
Août 2016	—	1.61
Juillet 2016	—	1.73
Juin 2016	—	1.23
Mai 2016	—	1.46
Avril 2016	—	1.33
Février 2016	—	1.73
Novembre 2015	151	1.82
Septembre 2015	106	1.32
Août 2015	149	1.84
Juillet 2015	145	1.81
Juin 2015	131	1.67
Mai 2015	159	2.05
Avril 2015	168	2.11
Mars 2015	124	1.64
Février 2015	145	1.9
Janvier 2015	139	1.82
Décembre 2014	160	2.08
Novembre 2014	135	1.95
Octobre 2014	254	3.7
Septembre 2014	220	2.8
Août 2014	200	2.8
Juillet 2014	266	3.6
Avril 2014	183	2.6
Mars 2014	223	2.8	Premier crawl Nutch
Hiver 2013	148	2.3	Le scan a été mené du 4 au 22 décembre 2013.
Été 2013	?	?	Le scan a été mené de mai 2013 à juin 2013. Premier scan WARC
2012	?	?	Le scan a été mené de janvier 2012 à juin 2012. Dernier scan ARC
2009-2010	?	?	Le scan a été mené de juillet 2009 à septembre 2010.
2008-2009	?	?	Le scan a été mené de mai 2008 à janvier 2009.

Common Crawl

Histoire

Chronologie des données de Common Crawl

Prix Norvig de la science des données Web

Colossal Clean Crawled Corpus

Références

Liens externes

Wikiwand - on