Loading AI tools
З Вікіпедії, вільної енциклопедії
Google Ngram Viewer або Google Books Ngram Viewer — це онлайн-пошукова система, яка складає графіки частот будь-якого набору пошукових рядків, використовуючи річну кількість n-грамів, знайдених у друкованих джерелах, опублікованих між 1500 і 2019 роками[1][2][3][4] у текстових корпусах Google англійською, китайською (спрощеною), французькою, німецькою, івритом, італійською, російською або іспанською мовами[2][5]. Ще існують деякі спеціалізовані англійські корпуси американської англійської, британської англійської та англійської художньої літератури.[6]
Програма може шукати слово чи фразу, включаючи орфографічні помилки чи тарабарщину[5]. N-грами зіставляються з текстом у межах вибраного корпуса, вибірково використовуючи правопис із урахуванням регістру (який порівнює точне використання великих букв)[7] і, якщо вони знайдені в 40 або більше книгах — відображаються як графік[8]. Google Ngram Viewer підтримує пошук за частинами мови та символами підстановки .[6] Він регулярно використовується в дослідженнях.[9][10]
Програма була розроблена Джоном Орвантом і Віллом Брокманом та випущена в середині грудня 2010 року[2][3]. Джерелом натхнення для неї послугував прототип під назвою Bookworm, створений Жаном-Батистом Мішелем та Ерезом Ейденом з Гарвардської Культурної Обсерваторії, Юанем Шенем з MIT і Стівеном Пінкером[11].
Ngram Viewer спочатку базувався на Google Books Ngram Corpus 2009 року видання. Станом на липень 2020, програма підтримувала корпуси 2009, 2012 і 2019 років.
Комами розділяються введені користувачем пошукові терміни, вказуючи на кожне окреме слово або фразу, які треба знайти[8]. Ngram Viewer повертає побудовану лінійну діаграму.
Як пристосування для більшої кількості книг, виданих протягом кількох років, дані нормалізуються як відносний рівень за кількістю книг опублікованих у кожному році[8].
Через обмеження розміру бази даних Ngram, лише збіги, знайдені в мінімум 40 книжках, індексуються в ній[8].
Набір даних піддавався критиці через його покладання на неточне OCR (Оптичне розпізнавання символів), надлишок наукової літератури та включення великої кількості неправильно датованих і категоризованих текстів.[12] Через ці помилки, а також через неконтрольованість на предмет упередженості[13] (наприклад, збільшення кількості наукової літератури, що спричиняє зниження популярності появи інших термінів), використовувати цей корпус для вивчення мови або перевірки теорій є ризикованим.[14] Оскільки датасет не містить метаданих, він може не відображати загальні лінгвістичні чи культурні зміни[15] і може лише натякати на такий ефект.
Було запропоновано інструкції, які стосуються багатьох проблем, розглянутих вище, для проведення досліджень із використанням даних із Google Ngram.[16]
Оптичне розпізнавання символів, або OCR, не завжди є надійним, і деякі символи можуть бути проскановані неправильно. Зокрема, системні помилки як плутання s і f у текстах до 19-го століття (через використання довгого s, що був схожий на вигляд до f), можуть спричинити системне зміщення. Хоча Google Ngram Viewer стверджує, що результати є надійними, починаючи з 1800 року, погане оптичне розпізнавання символів і нестача даних означають, що частоти наведені для таких мов як китайська, можуть бути точними лише починаючи з 1970 року, а попередні частини корпусу взагалі не показують жодних результатів для всіх загальних термінів та даних за кілька років, що містять більше ніж 50 % шуму.[17][18]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.