Трансформер (модель машинного обучения)

Архитектура сети

Архитектура трансформера состоит из кодировщика и декодировщика. Кодировщик получает на вход векторизованую последовательность с позиционной информацией. Декодировщик получает на вход часть этой последовательности и выход кодировщика. Кодировщик и декодировщик состоят из слоев. Слои кодировщика последовательно передают результат следующему слою в качестве его входа. Слои декодировщика последовательно передают результат следующему слою вместе с результатом кодировщика в качестве его входа.

Каждый кодировщик состоит из механизма самовнимания (вход из предыдущего слоя) и нейронной сети с прямой связью (вход из механизма самовнимания). Каждый декодировщик состоит из механизма самовнимания (вход из предыдущего слоя), механизма внимания к результатам кодирования (вход из механизма самовнимания и кодировщика) и нейронной сети с прямой связью (вход из механизма внимания).

Трансформер
Кодирующий слой
Декодирующий слой

Remove ads

Внимание на основе скалярного произведения

Каждый механизм внимания параметризован матрицами весов запросов $W_{Q}$ , весов ключей $W_{K}$ , весов значений $W_{V}$ . Для вычисления внимания входного вектора $X$ к вектору $Y$ , вычисляются вектора $Q=W_{Q}X$ , $K=W_{K}X$ , $V=W_{V}Y$ . Эти вектора используются для вычисления результата внимания по формуле:

${\text{Attention}}(Q,K,V)={\text{softmax}}\left({\frac {QK^{\mathrm {T} }}{\sqrt {d_{k}}}}\right)V$

Remove ads

Использование

Трансформеры используются в Яндекс.Переводчике^[2], Яндекс.Новостях^[3], Google Переводчике^[4].

На основе архитектурной модели трансформер была создана модель только с декодировщиком (Decoder-only model), из которой, в результате предобучения на больших объемах языковых данных создана серия моделей генеративных предобученных трансформеров, известных как GPT. В частности, на основе GPT версии 3.5, модифицированной с использованием усиления модели GPT способности следовать предложенных пользователем командам (модель InstructGPT) был создан специальный генеративный ИИ чатбот (Generative AI chatbot) ChatGPT.

Трансформер (модель машинного обучения)

Архитектура сети

Внимание на основе скалярного произведения

Использование

Примечания

Wikiwand - on