Common Crawl

Common Crawl
Dades
Tipus	empresa punt com ; organització sense ànim de lucre
Indústria	edició i recol·lecció de dades
Camp de treball	web crawling (en)
Història
Creació	2008
Fundador	Gil Elbaz
Activitat
Obres destacables	CCBot (en) ;
Indicadors econòmics
Ingressos totals	300.000 $ (2011)
Actius totals	548.181 $ (2011)
Lloc web	commoncrawl.org

Common Crawl és una organització sense ànim de lucre 501(c)(3) que rastreja el web i proporciona lliurement els seus arxius i conjunts de dades al públic.^[1] L'arxiu web de Common Crawl consta de petabytes de dades recollides des del 2011.^[2] Completa els rastres generalment cada mes.^[3]

Dades ràpides Dades, Tipus ...

Common Crawl va ser fundada per Gil Elbaz. Entre els assessors de l'organització sense ànim de lucre hi ha Peter Norvig i Joi Ito.^[4] Els rastrejadors de l'organització respecten les polítiques de nofollow i robots.txt. El codi font obert per processar el conjunt de dades de Common Crawl està disponible públicament.

El conjunt de dades de Common Crawl inclou treballs protegits per drets d'autor i es distribueix des dels EUA sota reclamacions d'ús legítim. Els investigadors d'altres països han fet ús de tècniques com ara remenar frases o fer referència al conjunt de dades de rastreig comú per solucionar la llei de drets d'autor en altres jurisdiccions legals.^[5]

Amazon Web Services va començar a allotjar l'arxiu de Common Crawl a través del seu programa Public Data Sets el 2012.^[6]

L'organització va començar a publicar fitxers de metadades i la sortida de text dels rastrejadors juntament amb fitxers .arc el juliol d'aquell any.^[7] Els arxius de Common Crawl només havien inclòs fitxers .arc anteriorment.^[7]

El desembre de 2012, blekko (empresa que es dedicava a fer recerques internet) va fer una donació al motor de cerca de Common Crawl que blekko va reunir a partir dels rastreigs que va dur a terme de febrer a octubre de 2012.^[8] Les dades donades van ajudar a Common Crawl "a millorar el seu rastreig alhora que s'evitava el correu brossa, la pornografia i la influència d'un SEO excessiu".^[8]

El 2013, Common Crawl va començar a utilitzar el rastrejador web Nutch d'Apache Software Foundation en lloc d'un rastrejador personalitzat.^[9] Common Crawl va canviar d'utilitzar fitxers .arc a fitxers .warc amb el rastreig de novembre de 2013.^[10]

Es va utilitzar una versió filtrada de Common Crawl per entrenar el model de llenguatge GPT-3 d'OpenAI, anunciat el 2020. Un dels reptes de l'ús de dades de Common Crawl és que, malgrat la gran quantitat de dades web documentades, es podrien documentar millor peces individuals de llocs web rastrejats. Això pot crear reptes quan s'intenta diagnosticar problemes en projectes que utilitzen les dades de Common Crawl. Una solució proposada per Timnit Gebru, i altres, el 2020 a un dèficit de documentació a tota la indústria és que cada conjunt de dades ha d'anar acompanyat d'un full de dades que documenti la seva motivació, composició, procés de recollida i usos recomanats.

Més informació Grandària en Tibibytes (

...

Data de rastreig	Grandària en Tibibytes ( $2^{40}$ )	Milions de pàgines
Octobre 2022	380	3150
Novembre 2015	151	1820
Novembre 2011	40	500

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

Common Crawl

Referències

Wikiwand - on