Топ питань
Часова шкала
Чат
Перспективи
Терм-документна матриця
З Вікіпедії, вільної енциклопедії
Remove ads
Терм-документна матриця (англ. document-term matrix, term-document matrix) — матриця, що описує частоту появи термінів у колекції документів. В терм-документній матриці рядки відповідають документам з колекції, що аналізується, а стовпці асоційовані з термінами. Існують різноманітні схеми для визначення елементів матриці. Одною з них є схема TF-IDF. Такі матриці використовуються при обробці природної мови, зокрема в методах латентно-семантичного аналізу.
Remove ads
Концепція
При створенні бази даних термінів, що задіяні у множині документів, матриця термінів формується як матриця інцидентності, рядки якої описують документи, а елементи рядків свідчать про наявність термінів в цих документах. Наприклад, якщо є два коротких документи:
- D1 = «Мені подобаються дані»
- D2 = «Мені не подобаються дані», то відповідна терм-документа матриця буде мати вигляд:
який показує, що за терміни містяться в тому чи іншому документі, та скільки разів вони зустрічаються. Такий підхід подібний до застосування матриці інцидентності при аналізі речень у корпусі слів одного документу[1].
Remove ads
Історія
![]() | В іншому мовному розділі є повніша стаття Document-term matrix(англ.). Ви можете допомогти, розширивши поточну статтю за допомогою перекладу з англійської.
|
Див. також
Примітки
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads