Lemmatizace

Lemmatizace je určení lemmatu (základního slovního tvaru) k ohýbanému slovnímu tvaru. Lemmatizátor je nástroj (např. počítačový program), který vytvoří (vyhledá v databázi) k určitému tvaru slova základní tvar, tzv. lemma.^[1]

Doplňkovou funkcí lemmatizátoru jsou informace o mluvnických kategoriích (např. jmenných a slovesných) k danému tvaru.^{[pozn. 1]} Např. pro tvar „barvě“ lemmatizátor vrátí tvar „barva“, případně doplňkovou informaci podstatné jméno, ženský rod, jednotné číslo, 3./6. pád.

Lemmatizace se např. využívá se pro vyhledávání ve fulltextových databázích. Pro fulltextové vyhledávání se ovšem využívají i podobně strukturovaná data sloužící k automatické kontrole pravopisu (např. slovníky pro hunspell).^[3]

[1]

[pozn. 1]

[3]

Lemmatizace

Využití lemmatizace

Úskalí lemmatizátoru

Dostupné lemmatizátory pro češtinu

České lemmatizátory

Zahraniční lemmatizátory

Ostatní nástroje

Poznámky

Reference

Wikiwand - on