Лучшие вопросы
Таймлайн
Чат
Перспективы

Векторное представление слов

подход к моделированию языка Из Википедии, свободной энциклопедии

Векторное представление слов
Remove ads

Векторное представление (векторное вложение слов, вложение слов или эмбеддинги[1]) — общее название для различных подходов к моделированию языка и обучению представлений в обработке естественного языка, направленных на сопоставление словам (и, возможно, фразам) из некоторого словаря векторов из для , значительно меньшего количества слов в словаре. Теоретической базой для векторных представлений является дистрибутивная семантика.

Thumb
Векторное представление столиц мира. Каждое слово — это точка в некотором пространстве. Векторное представление позволяет, например, найти столицу Германии, если известен вектор Франция→Париж.
Thumb
Двумерное изображение 500 баскских слов

Существует несколько методов для построения такого сопоставления. Так, используют нейронные сети[2] , методы снижения размерности в применении к матрицам совместных упоминаний слов (word co-occurrence matrices)[3] и явные представления, обучающиеся на контекстах упоминаний слов (explicit representations)[4].

Продемонстрировано, что векторные представления слов и фраз способны значительно улучшить качество работы некоторых методов автоматической обработки естественного языка (например, синтаксический анализ[5] и анализ тональности[6]).

Remove ads

Примеры эмбеддингов

В настоящее время существует большое количество моделей векторного представления слов и алгоритмов, для их эффективного обучения. К наиболее известным относятся:

  • Word2vec — разработанный в 2013 году в компании Google набор инструментов для эффективного обучения моделей эмбеддингов[7][8]
  • GloVe[англ.] — модель и алгоритм обучения без учителя для получения векторных представлений слов, разработанный в 2014 году в Стэнфордском университете[9]
  • FastText[англ.] — модель, разработанная компанией Facebook в 2015 году[10]. Её особенностью является использование эмбеддингов не только для целых слов, но и для их частей.[11]
Remove ads

Примечания

Ссылки

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads