Лучшие вопросы
Таймлайн
Чат
Перспективы

Лемма (лингвистика)

начальная форма слова в лексикографии Из Википедии, свободной энциклопедии

Remove ads

Ле́мма (англ. lemma) — начальная, словарная форма слова[1]. В русском языке для существительных и прилагательных это форма именительного падежа единственного числа, для глаголов и глагольных форм — форма инфинитива. Базовое понятие в области корпусной лингвистики и автоматической обработки естественного языка. Процесс автоматического приведения слов текста к леммам называется лемматизация.

Например, фраза «Утром рано мама Милы мыла раму мылом» после лемматизации будет выглядеть так: утро, рано, мама, Мила, мыть, рама, мыло.

Remove ads

Лемма в корпусной лингвистике

В корпусной лингвистике поиск по лемме даёт контексты с упоминанием всех словоформ данной лексемы. Например, поиск по лемме кот даст контексты, содержащие кот, кота, коту, котами, котов и т. д. Этот тип поиска противопоставляется поиску по словоформе (word form search): в этом случае поиск по словоформе коту даст контексты, содержащие именно эту грамматическую форму единственного числа дательного падежа[2].

Remove ads

Лемма в информационном поиске и SEO-оптимизации

  • лемматизация запросов исключает дубли. Например, «куплю дом в Питере» и «купить дом Санкт-Петербург» — это одинаковые запросы
  • ключи в исходной форме гораздо проще отсортировать
  • появляется возможность оценить частотность того или иного запроса[3]

Примечания

Литература

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads