Common Crawl

Common Crawl
Common Crawl
Дата основания	2007
Основатели	Гил Эльбаз[англ.]
Расположение	Сан-Франциско, Лос-Анжелес Калифорния США
Ключевые фигуры	Питер Норвиг, Ричард Скрента
Сфера деятельности	издательское дело и сбор данных
Доход	▲1,3 млн $ (2023);
Сайт	commoncrawl.org

Common Crawl — некоммерческая организация, которая сканирует Интернет и бесплатно предоставляет публике свои архивы и наборы данных^[2]^[3]. Веб-архив Common Crawl на ноябрь 2024 года имеет более 250 миллиардов страниц, собранных с 2008 года^[4].

Краткие факты Дата основания, Основатели ...

Common Crawl был основан Гилом Эльбазом^[англ.]^[5]. Консультантами некоммерческой организации являются Питер Норвиг и Джой Ито^[6]. Поисковики организации придерживаются политики nofollow и robots.txt. Открытый исходный код для обработки набора данных Common Crawl находится в открытом доступе.

Набор данных Common Crawl включает работы, защищенные авторским правом, и распространяется из США на условиях добросовестного использования. Исследователи в других странах использовали такие методы, как перетасовка предложений или обращение к набору данных общего сканирования, чтобы обойти закон об авторском праве в других правовых юрисдикциях^[7].

По состоянию на июнь 2022 года в наборах данных Common Crawl 46-47 % документов английский был основным языком (за ним следовали русский, немецкий, китайский, французский, японский, испанский, причём только русский достигал доли в 6 %, остальные не более 4% каждый)^[8]. Но со временем доля английского постепенно падает и на ноябрь 2024 года составляет уже 43-44 %^[9].

[2]

[3]

[4]

[1]

[5]

[6]

[7]

[8]

[9]

Common Crawl

История

Примечания

Wikiwand - on