Векторное представление слов

Векторное представление (векторное вложение слов, вложение слов или эмбеддинги^[1]) — общее название для различных подходов к моделированию языка и обучению представлений в обработке естественного языка, направленных на сопоставление словам (и, возможно, фразам) из некоторого словаря векторов из $\mathbb {R} ^{n}$ для $n$ , значительно меньшего количества слов в словаре. Теоретической базой для векторных представлений является дистрибутивная семантика.

Существует несколько методов для построения такого сопоставления. Так, используют нейронные сети^[2] , методы снижения размерности в применении к матрицам совместных упоминаний слов (word co-occurrence matrices)^[3] и явные представления, обучающиеся на контекстах упоминаний слов (explicit representations)^[4].

Продемонстрировано, что векторные представления слов и фраз способны значительно улучшить качество работы некоторых методов автоматической обработки естественного языка (например, синтаксический анализ^[5] и анализ тональности^[6]).

[1]

[2]

[3]

[4]

[5]

[6]

Векторное представление слов

Примеры эмбеддингов

Примечания

Ссылки

Wikiwand - on