Benchmark modelu językowego

Charakterystyka

Podsumowanie

Perspektywa

Kategorie

Benchmarki mogą zostać skategoryzowane względem różnych metryk do jednych z poniższych kategorii:

Klasyczny – skupiają się na analizie statystycznej i często powstawały przed spopularyzowaniem mechanizmów uczenia głębokiego. Do przykładów zalicza się bank drzew i BLEU
Odpowiadania na pytania – ta kategoria testów posiada pary pytań i odpowiedzi, często wielokrotnego wyboru^[2]^[3]
Rozumowania – sprawdzająca kwestie rozumowania i wiedzy^[4]
Agencji – sprawdzająca możliwości działania agenta, który może wykonywać takie operacje jak uruchamianie kodu^[5]

Ocena

Można wyróżnić trzy typy oceny wyników benchamarka^[6]:

Automatyczna ocena np F1, dokładne dopasowanie, perpleksja^[7]
Ocena przez człowieka, pozwalający na jakościową ocenę odpowiedzi^[8]
Model jako osoba oceniająca będący alternatywą do oceny przez człowieka^[9]

Krytyka

Jedna z najczęściej pojawiających krytyk odnośnie benchmarków jest dopasowanie modeli do danych testowych^[10]^[11]. Aplikowane jest również w tym kontekście prawo Goodharta^[12]. Oprócz tego zbiór pytań i odpowiedzi może posiadać błędy^[13] lub posiadać ambiwalentne odpowiedzi, gdzie ludzie nie byliby w stanie dać 100% odpowiedzi^[14]^[15]^[16]^[17].

Podkreślany jest również fakt wyrywkowego podejścia do wybieranych benchmarków przez twórców modeli^[18].

Remove ads

Przykłady

SQuAD

Benchmark SQuAD w wersji 1.1 składa się z 100 tys. pytań stworzonych na bazie ponad 500 artykułów z Wikipedii. Każde zadanie składa się z podania artykułu i pytania, a odpowiedzią jest konkretne zdanie z odpowiedzią^[19]. Wersja 2.0 zawiera 50 tys. pytań bez odpowiedzi, gdzie na każde pytanie należy odpowiedzieć spacją^[20].

GPQA

GPQA (ang. Google-Proof Q&A) składa się 448 pytań na poziomie doktoratu wielokrotnego wyboru napisanych przez ekspertów w dziedzinie biologii, fizyki i chemii. Podzbiór "Diamond" zawiera 198 najtrudniejszych pytań^[21]. OpenAI ustaliło, że eksperci osiągają średni wynik 69,7% w tym podzbiorze^[22].

Humanity's Last Exam

Jako przykład benchmarku w kategorii rozumowania można wyróżnić Humanity's Last Exam. Posiada on 3000 multimodalnych pytań z ponad stu przedmiotów akademickich, z nieudostępnionym zbiorem odpowiedzi, aby zapobiec zanieczyszczeniu. 10% pytań wymaga zrozumienia zarówno tekstu, jak i obrazu, reszta opiera się wyłącznie na tekście. 80% pytań jest punktowanych poprzez dokładne dopasowanie ciągu znaków, reszta to pytania wielokrotnego wyboru^[23].