W przetwarzaniu języka naturalnego korpus to ustrukturyzowany zbiór tekstów lub dokumentów, a model języka to rozkład prawdopodobieństwa obejmujący całe teksty lub dokumenty. Dlatego w przetwarzaniu języka naturalnego powszechniej stosowaną miarą jest perpleksja PP na token (słowo lub podsłowo), definiowana jako średnia geometryczna odwrotności prawdopodobieństwa każdego tokena w testowym korpusie q^[5]: $PP:=\left(\prod _{i=1}^{n}q(s_{i})\right)^{-1/N}$ Gdzie $s_{1},...,s_{n}$ są $n$ dokumentami w korpusie i $N$ jest liczbą tokenów w korpusie.

Nieformalnie, PP oznacza ilość jest możliwości szacowania następnego słowa w testowym korpusie^[4].

Użycie w dużych modelach językowych

Perpleksję zastosowano w celu porównania różnych modeli w tym samym zestawie danych i w celu optymalizacji hiperparametrów, chociaż stwierdzono, że jest ona wrażliwa na takie czynniki, jak cechy językowe i długość zdania^[6].

Pomimo kluczowej roli, jaką odgrywa perpleksja w rozwoju modelu języka, wykazała ona swoje ograniczenia, zwłaszcza jako niewystarczający wyznacznik wydajności rozpoznawania mowy, nadmiernego dopasowania i uogólnienia^[7]^[8].

Perpleksja tokena

Użycie w dużych modelach językowych

Zobacz też

Przypisy