Лучшие вопросы
Таймлайн
Чат
Перспективы

Вероятностный латентно-семантический анализ

Из Википедии, свободной энциклопедии

Remove ads

Вероятностный латентно-семантический анализ (ВЛСА), также известный как вероятностное латентно-семантическое индексирование (ВЛСИ, особенно в области информационного поиска) — это статистический метод анализа корреляции двух типов данных. Данный метод является дальнейшим развитием латентно-семантического анализа. ВЛСА применяется в таких областях как информационный поиск, обработка естественного языка, машинное обучение и смежных областях. Данный метод был впервые опубликован в 1999 году Томасом Хофманом (Thomas Hofmann)[1].

По сравнению с обычным латентно-семантическим анализом, который основан на линейной алгебре и является способом снижения размерности матрицы (как правило, с помощью разложения диагональной матрицы по сингулярным значениям), вероятностный латентно-семантический анализ основан на смешанном разложении, в свою очередь берущим своё начало из модели скрытых классов. Данный подход более принципиален, поскольку имеет прочную основу в области статистики.

Remove ads

Варианты pLSA

  • Иерархические расширения:
    • Асимметричное: MASHA («Multinomial ASymmetric Hierarchical Analysis», «полиномиальный асимметричный иерархический анализ»)[2]
    • Симметричное: HPLSA («Hierarchical Probabilistic Latent Semantic Analysis», «Иерархический вероятностный латентно-семантический анализ»),[3]
  • Генеративные модели: разработаны для решения часто критикуемых недостатков pLSA, а именно — того, что он является неправильной порождающей моделью для новых документов.
  • Данные высшего порядка: Хотя это редко обсуждается в научной литературе, pLSA, естественно, примени́м и для данных более высокого порядка (трёхуровневых и выше), то есть он может моделировать совместное поведение трёх и более переменных. В симметричной формулировке, данной выше, это делается простым добавлением условного распределения вероятностей для этих дополнительных переменных. Это вероятностный аналог неотрицательной тензорной факторизации.
Remove ads

Примечания

См. также

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads