Top-Fragen
Zeitleiste
Chat
Kontext
Common Crawl
Aus Wikipedia, der freien Enzyklopädie
Remove ads
Common Crawl ist eine 501(c)(3)-Nonprofit-Organisation, die öffentliche Webseiten ausliest, archiviert und die so gewonnenen Daten verfügbar macht.[1] Sie wurde 2007 von Gil Elbaz gegründet. Ein erster Crawl wurde 2011 veröffentlicht, seit 2013 archiviert die Organisation monatlich Webseiten.[2] Bereits 2017 umfasste ein Monatsarchiv über 280 TebiByte (TiB),[1] 2025 betrug die unkomprimierte Größe eines Monatsarchives über 420 TiB.[3]
Die Webcrawls umfassen große Mengen urheberrechtlich geschützter Daten und können in den USA unter Fair-Use-Richtlinien genutzt werden. In anderen Ländern ist die Nutzung rechtlich schwieriger, weshalb spezielle Verarbeitungsformate entwickelt wurden, um eine Verbreitung der Archive unter der jeweiligen Jurisdiktion zu erlauben.[4]
Ziel ist die Unterstützung von Forschung und Technologieentwicklung, indem große Datenmengen erzeugt und bereitgestellt werden, die ansonsten nur Großkonzernen zugänglich wären.[5]
Remove ads
Inhalte und Verwendung
Zusammenfassung
Kontext
Common Crawl archiviert im Monatsrhythmus Webseiten, die nicht durch eine entsprechende Direktive in der robots.txt von der Erfassung ausgeschlossen werden. Die Daten werden im warc-Format komprimiert und gespeichert.[6] Stand Oktober 2025 sind ungefähr 44,8 % der erfassten Inhalte englischsprachig, es folgen russisch (5,8 %) und deutsch (5,6 %).[7]
Zu den Webseiteninhalten legt Common Crawl auch Netzwerkgraphen an, die Verweisstrukturen auf Hostebene abbilden. 2024 umfassten diese Analysen über 480 Millionen Netzwerkknoten und 3,4 Milliarden Verbindungen,[2] die ebenfalls frei zur Verfügung gestellt werden.
Die Archive werden unter anderem durch das AWS Open Data Sponsorship Program von Amazon zur Verfügung gestellt,[8] das Internet Archive legt ebenso Mirrors der Common Crawl-Archive an.[9] In Deutschland hostet die Hochschule Hof einen deutschen Teilkorpus,[10] den German colossal, cleaned Common Crawl corpus.[11]
Genutzt werden die Archive unter anderem von Google, die mit einem bereinigten Datenset der Common Crawl-Archive ihre Sprachmodelle trainierten.[12] Ebenso verwendete OpenAI den Common Crawl zum Training ihres Sprachmodells GPT-3.[13] 2024 ergab eine Untersuchung der Mozilla Foundation, dass ein Großteil der gängigen Sprachmodelle die Common Crawl-Archive für das Training verwendeten, die zu diesem Zeitpunkt ein Volumen von über neun Petabyte umfassten.[5] Die Daten sind indessen nicht unbedingt zum direkten Training von Sprach- und KI-Modellen geeignet, da sie nicht kuratiert werden und auch Hassrede oder pornografische Inhalte beinhalten. Dennoch gelte Common Crawl als eine der „wichtigsten Quellen für Trainingsdaten für Large Language Models“ (englisch „most important sources of pre-training data for large language models (LLMs)“ und werde so intensiv genutzt, dass sie ein maßgeblicher Baustein zur Entwicklung großer Sprachmodelle und daraus entwickelter Plattformen für generative AI geworden sei.[14]
Common Crawl-Daten spielen auch im Online-Marketing eine Rolle, da sie neben Google und OpenAI auch beispielsweise von Grok, DeepSeek und Meta AI verwendet werden und angenommen wird, dass das Vorkommen einer Webseite in Common Crawl-Archiven ihre Nennung in KI-Antworten begünstigt.[2]
Remove ads
Weblinks
Einzelnachweise
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads