Transformer (sztuczna inteligencja)

Architektura

Podsumowanie

Perspektywa

Transformer w swojej podstawowej formie składa się zasadniczo z połączonych szeregowo koderów i dekoderów^[7]^[15]^[16]. Sekwencja wejściowa jest przekształcana w reprezentację wektorową za pomocą tzw. warstwy osadzającej (embedding layer). Wagi tej warstwy są dostosowywane w trakcie treningu. W przypadku transformerów dodatkowo stosuje się kodowanie pozycji (position encoding), dzięki któremu można uwzględnić kolejność słów^[15].

Sekwencja wejściowa (np. zdanie) jest przekazywana w formie reprezentacji wektorowej do serii koderów i przekształcana w wewnętrzną reprezentację, która w uproszczeniu oddaje znaczenie tego, co zostało podane na wejściu. Następnie ta wewnętrzna reprezentacja trafia do dekoderów, które na jej podstawie tworzą sekwencję wyjściową (np. tłumaczenie na inny język)^[16].

Dane wejściowe są przetwarzane w trybie wsadowym (w grupach, tzw. batchach), a maksymalna długość sekwencji, którą można wprowadzić, zależy od rozmiaru ścieżki koder-dekoder^[15]. W zależności od wielkości sieci można przetwarzać na przykład pojedyncze zdania lub całe akapity. W przypadku sekwencji wejściowych krótszych niż pojemność ścieżki koder-dekoder stosuje się wypełnianie (ang. padding), aby zapełnić całą sekwencję wejściową^[15]. Koder składa się z modułu samouwagi (self-attention) oraz modułu jednokierunkowego (feedforward), natomiast dekoder składa się z modułu samouwagi, modułu uwagi kodera-dekodera i modułu jednokierunkowego^[16].

Transformery rozwiązują problem zrównoleglenia, przez wykorzystanie koderów i dekoderów wraz z modułami uwagi. Moduły uwagi przyspieszają proces tłumaczenia kolejnych sekwencji. Wszystkie kodery mają identyczną architekturę, a dekodery są do siebie bardzo podobne. Każdy koder składa się z dwóch warstw: modułu samouwagi i modułu jednokierunkowego. Sekwencja wejściowa trafia najpierw do warstwy samouwagi. Dekoder posiada obie te warstwy, ale pomiędzy nimi znajduje się warstwa uwagi pomagająca dekoderowi skupić się na najistotniejszych elementach wejścia^[17]. Ponadto architektura zawiera połączenia rezydualne i warstwy normalizujące^[18].

Koder

Zasadę działania kodera można przedstawić za pomocą funkcji $f\colon \mathbb {R} ^{t_{max}\times d}\to \mathbb {R} ^{t_{max}\times d}$ z $f_{\theta }(X)=Z$ , gdzie:

${\begin{aligned}A&={\sqrt {\frac {1}{d}}}XW^{(q)}(XW^{(k)})^{T}\\M&=\mathrm {SoftMax} (A)XW^{(v)}\\O&=\mathrm {LayerNorm_{1}} (M+X)\\F&=\mathrm {ReLU} (OW^{(f_{1})}+b^{(f_{1})})W^{(f_{2})}+b^{(f_{2})}\\Z&=\mathrm {LayerNorm_{2}} (O+F)\\\end{aligned}}$

Jak widać powyżej, funkcje softmax i ReLU są używane do obliczeń^[19].

Dekoder

Podczas inferencji, dekoder może być użyty do autoregresywnego generowania sekwencji. Dekoder jako wejście dostaje wartość startową sekwencji po czym przekazuje kolejny najbardziej prawdopodobny token, który jest przekazany do kolejnego dekodera^[20].

Każdy dekoder składa się z trzech części^[20]:

Warstwa samouwagi z maską (Masked Multi-Head Attention)
Wartswa samouwagi z koderem (Multi-Head Attention with encoder)
Warstwa sieci jednokierunkowej

Adaptacje architektury

Duże modele językowe nie używane do pierwotnego zastosowania jakim jest tłumaczenie tekstu, które nie muszą przewidywać całych zdań korzystają tylko z kodera lub dekodera z oryginalnej architektury transformera. Wczesne modele GPT korzystają tylko z modeli bazujących na dekoderach wytrenowane aby przewidywać kolejny token w sekwencji^[21], a model BERT od Google wykorzystuje tylko warstwę koderów wytrenowaną aby przewidywać losowy zamaskowany token w sekwencji^[22].

Remove ads

Dalsze usprawnienia

Podsumowanie

Perspektywa

Dostępne implementacje

Model transformera został zaimplementowany w standardowych bibliotekach do głębokiego uczenia jak TensorFlow i PyTorch. Hugging Face udostępnia bibliotekę Transformers z architekturami transformerów i modelami wstępnie wytrenowanymi^[23].

Uwaga wielozapytaniowa

Uwaga wielozapytaniowa (ang. Multi-Query Attention) zmienia standardową uwagę wieloczłonową^[24], to znaczy:

${\text{UwagaWieloczłonowa}}(Q,K,V)={\text{Połącz}}_{i\in [n_{\text{heads}}]}\left({\text{Uwaga}}(XW_{i}^{Q},XW_{i}^{K},XW_{i}^{V})\right)W^{O}$

jest zastąpiona przez tylko jedna macierz wag $W^{K},W^{V}$

${\text{UwagaWielozapytaniowa}}(Q,K,V)={\text{Połącz}}_{i\in [n_{\text{heads}}]}\left({\text{Uwaga}}(XW_{i}^{Q},XW^{K},XW^{V})\right)W^{O}$

Podejście to ma neutralny wpływ na jakość modelu i szybkość treningu ale przyspiesza szybkość inferencji.

Ukryta uwaga wieloczłonowa (ang. Multihead Latent Attention) jest dodatkowym rozszerzeniem architektury uwagi wieloczłonowej, w której każdy wektor wejściowy jest dzielony na dwie niskowymiarowe części, jedna dla zapytania (Q vector) i jedna dla klucza i wartości (KV vector). Ta modyfikacja zmniejsza wymaganą pamięć podręczną, ponieważ wektory są niskowymiarowe^[25].

Multimodalność

Transformery mogą być również użyte do modalności wejściowej i wyjściowej, zazwyczaj poprzez tokenizację modalności.

Transformer wizyjny jest adaptacją transformera do zastosowań wizji komputerowej poprzez rozbicie obrazów wejściowych na serię fragmentów, przekształcenie ich w wektory i traktowanie ich jak tokenów w standardowym transformerze^[26].

Do generowania obrazów, późniejsze wersje DALL-E są oparte na dekoderach transformera generujących tekst, który potem jest konwertowany przez autoenkoder wariacyjny do obrazu^[27].