Najlepsze pytania
Chronologia
Czat
Perspektywa

Benchmark modelu językowego

benchmarki testujące możliwości modeli językowych Z Wikipedii, wolnej encyklopedii

Remove ads

Benchmark modelu językowegobenchmark testujący możliwości modeli językowych takich jak duże modele językowe[1]. Testy te mają na celu porównanie możliwości różnych modeli w takich obszarach jak rozumienie języka, generowanie i wnioskowanie.

Testy porównawcze zazwyczaj składają się ze zbioru danych i metryk ewaluacyjnych. Zbiór danych zawiera próbki tekstu i adnotacje, natomiast metryki mierzą wydajność modelu w zakresie takich zadań jak odpowiadanie na pytania, klasyfikacja tekstu i tłumaczenie maszynowe.

Remove ads

Charakterystyka

Podsumowanie
Perspektywa
Thumb
Wydajność modeli AI w różnych testach na przestrzeni lat 1998–2024

Kategorie

Benchmarki mogą zostać skategoryzowane względem różnych metryk do jednych z poniższych kategorii:

  • Klasyczny – skupiają się na analizie statystycznej i często powstawały przed spopularyzowaniem mechanizmów uczenia głębokiego. Do przykładów zalicza się bank drzew i BLEU
  • Odpowiadania na pytania – ta kategoria testów posiada pary pytań i odpowiedzi, często wielokrotnego wyboru[2][3]
  • Rozumowania – sprawdzająca kwestie rozumowania i wiedzy[4]
  • Agencji – sprawdzająca możliwości działania agenta, który może wykonywać takie operacje jak uruchamianie kodu[5]

Ocena

Można wyróżnić trzy typy oceny wyników benchamarka[6]:

  1. Automatyczna ocena np F1, dokładne dopasowanie, perpleksja[7]
  2. Ocena przez człowieka, pozwalający na jakościową ocenę odpowiedzi[8]
  3. Model jako osoba oceniająca będący alternatywą do oceny przez człowieka[9]

Krytyka

Jedna z najczęściej pojawiających krytyk odnośnie benchmarków jest dopasowanie modeli do danych testowych[10][11]. Aplikowane jest również w tym kontekście prawo Goodharta[12]. Oprócz tego zbiór pytań i odpowiedzi może posiadać błędy[13] lub posiadać ambiwalentne odpowiedzi, gdzie ludzie nie byliby w stanie dać 100% odpowiedzi[14][15][16][17].

Podkreślany jest również fakt wyrywkowego podejścia do wybieranych benchmarków przez twórców modeli[18].

Przykłady

SQuAD

Benchmark SQuAD w wersji 1.1 składa się z 100 tys. pytań stworzonych na bazie ponad 500 artykułów z Wikipedii. Każde zadanie składa się z podania artykułu i pytania, a odpowiedzią jest konkretne zdanie z odpowiedzią[19]. Wersja 2.0 zawiera 50 tys. pytań bez odpowiedzi, gdzie na każde pytanie należy odpowiedzieć spacją[20].

GPQA

GPQA (ang. Google-Proof Q&A) składa się 448 pytań na poziomie doktoratu wielokrotnego wyboru napisanych przez ekspertów w dziedzinie biologii, fizyki i chemii. Podzbiór "Diamond" zawiera 198 najtrudniejszych pytań[21]. OpenAI ustaliło, że eksperci osiągają średni wynik 69,7% w tym podzbiorze[22].

Humanity's Last Exam

Jako przykład benchmarku w kategorii rozumowania można wyróżnić Humanity's Last Exam. Posiada on 3000 multimodalnych pytań z ponad stu przedmiotów akademickich, z nieudostępnionym zbiorem odpowiedzi, aby zapobiec zanieczyszczeniu. 10% pytań wymaga zrozumienia zarówno tekstu, jak i obrazu, reszta opiera się wyłącznie na tekście. 80% pytań jest punktowanych poprzez dokładne dopasowanie ciągu znaków, reszta to pytania wielokrotnego wyboru[23].

Przypisy

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads