Najlepsze pytania
Chronologia
Czat
Perspektywa
Benchmark modelu językowego
benchmarki testujące możliwości modeli językowych Z Wikipedii, wolnej encyklopedii
Remove ads
Benchmark modelu językowego – benchmark testujący możliwości modeli językowych takich jak duże modele językowe[1]. Testy te mają na celu porównanie możliwości różnych modeli w takich obszarach jak rozumienie języka, generowanie i wnioskowanie.
Testy porównawcze zazwyczaj składają się ze zbioru danych i metryk ewaluacyjnych. Zbiór danych zawiera próbki tekstu i adnotacje, natomiast metryki mierzą wydajność modelu w zakresie takich zadań jak odpowiadanie na pytania, klasyfikacja tekstu i tłumaczenie maszynowe.
Remove ads
Charakterystyka
Podsumowanie
Perspektywa

Kategorie
Benchmarki mogą zostać skategoryzowane względem różnych metryk do jednych z poniższych kategorii:
- Klasyczny – skupiają się na analizie statystycznej i często powstawały przed spopularyzowaniem mechanizmów uczenia głębokiego. Do przykładów zalicza się bank drzew i BLEU
- Odpowiadania na pytania – ta kategoria testów posiada pary pytań i odpowiedzi, często wielokrotnego wyboru[2][3]
- Rozumowania – sprawdzająca kwestie rozumowania i wiedzy[4]
- Agencji – sprawdzająca możliwości działania agenta, który może wykonywać takie operacje jak uruchamianie kodu[5]
Ocena
Można wyróżnić trzy typy oceny wyników benchamarka[6]:
- Automatyczna ocena np F1, dokładne dopasowanie, perpleksja[7]
- Ocena przez człowieka, pozwalający na jakościową ocenę odpowiedzi[8]
- Model jako osoba oceniająca będący alternatywą do oceny przez człowieka[9]
Krytyka
Jedna z najczęściej pojawiających krytyk odnośnie benchmarków jest dopasowanie modeli do danych testowych[10][11]. Aplikowane jest również w tym kontekście prawo Goodharta[12]. Oprócz tego zbiór pytań i odpowiedzi może posiadać błędy[13] lub posiadać ambiwalentne odpowiedzi, gdzie ludzie nie byliby w stanie dać 100% odpowiedzi[14][15][16][17].
Podkreślany jest również fakt wyrywkowego podejścia do wybieranych benchmarków przez twórców modeli[18].
Przykłady
SQuAD
Benchmark SQuAD w wersji 1.1 składa się z 100 tys. pytań stworzonych na bazie ponad 500 artykułów z Wikipedii. Każde zadanie składa się z podania artykułu i pytania, a odpowiedzią jest konkretne zdanie z odpowiedzią[19]. Wersja 2.0 zawiera 50 tys. pytań bez odpowiedzi, gdzie na każde pytanie należy odpowiedzieć spacją[20].
GPQA
GPQA (ang. Google-Proof Q&A) składa się 448 pytań na poziomie doktoratu wielokrotnego wyboru napisanych przez ekspertów w dziedzinie biologii, fizyki i chemii. Podzbiór "Diamond" zawiera 198 najtrudniejszych pytań[21]. OpenAI ustaliło, że eksperci osiągają średni wynik 69,7% w tym podzbiorze[22].
Humanity's Last Exam
Jako przykład benchmarku w kategorii rozumowania można wyróżnić Humanity's Last Exam. Posiada on 3000 multimodalnych pytań z ponad stu przedmiotów akademickich, z nieudostępnionym zbiorem odpowiedzi, aby zapobiec zanieczyszczeniu. 10% pytań wymaga zrozumienia zarówno tekstu, jak i obrazu, reszta opiera się wyłącznie na tekście. 80% pytań jest punktowanych poprzez dokładne dopasowanie ciągu znaków, reszta to pytania wielokrotnego wyboru[23].
Przypisy
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads