Топ питань
Часова шкала
Чат
Перспективи

Латентно-семантичний аналіз

З Вікіпедії, вільної енциклопедії

Remove ads

Лате́нтно-семанти́чний ана́ліз (ЛСА) — метод обробки інформації природною мовою, зокрема, дистрибутивної семантики, що дозволяє аналізувати взаємозв'язок між набором документів і термінами, які в них зустрічаються, шляхом створення набору понять. ЛСА припускає, що слова, близькі за значенням, зустрічатимуться в подібних фрагментах тексту (дистрибутивна гіпотеза). З великої частини тексту створюється матриця, що вміщує кількість слів на параграф (рядки містять унікальні слова, а стовпці — текст кожного параграфа). При аналізі множини документів як вихідну інформацію ЛСА застосовує терм-документну матрицю, елементи якої свідчать про частоту використання кожного терміна в документах (TF-IDF).

За допомогою математичного методу, що називається сингулярним розкладом матриці, кількість рядків терм-документної матриці зменшують, зберігаючи при цьому структуру подібності у стовпцях. Потім слова порівнюють за допомогою обчислення косинуса кута між двома векторами (скалярний добуток векторів, поділений на добуток їх модулів), що утворено будь-якими двома рядками. Значення, близькі до 1, є дуже схожими словами, тоді як значення, близькі до 0, представляють дуже різнорідні слова.

ЛСА запатентували[1] 1988 року Scott Deerwester[en], Susan Dumais[en], Джордж Фурнас, Richard Harshman[en], Thomas Landauer[en], Karen Lochbaum і Lynn Streeter. В контексті застосування в інформаційному пошуку, його часом називають латентно-семантичним індексуванням (англ. Latent Semantic Indexing (LSI)).[2]

Remove ads

Див. також

Примітки

Джерела

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads