Najlepsze pytania
Chronologia
Czat
Perspektywa
Tablica pomyłek
Z Wikipedii, wolnej encyklopedii
Remove ads
Tablica pomyłek (nazywana również macierzą pomyłek[1] lub macierzą błędów) – tabela przedstawiająca skuteczność działania algorytmu klasyfikacyjnego, najczęściej binarnego (czyli przewidującego przynależność do jednej z dwóch klas), testu diagnostycznego[2] albo testu statystycznego[3]. Każda kolumna tablicy przedstawia możliwe rzeczywiste etykiety badanych jednostek, a każdy wiersz przedstawia etykiety przewidywane przez algorytm[4]. Spotyka się również transponowaną wersję macierzy, gdzie klasy rzeczywiste są w wierszach, a przewidywane w kolumnach[1].
W przypadku klasyfikatora binarnego tablica pomyłek ma wymiary 2×2. Badane jednostki są w takiej sytuacji oznaczone dwoma etykietami: pozytywną i negatywną. Algorytm klasyfikacyjny przypisuje im predykowaną (tzn. przewidywaną) klasę pozytywną albo negatywną. Możliwa jest sytuacja, że jednostka w rzeczywistości pozytywna zostanie omyłkowo zaklasyfikowana jako negatywna, a jednostka w rzeczywistości negatywna jako pozytywna – stąd nazwa macierzy.
Na podstawie częstości występowania rzeczywistego stanu pozytywnego w populacji oraz wzajemnych relacji prawidłowych i nieprawidłowych klasyfikacji można wyróżnić szereg wskaźników oceniających siłę predykcyjną klasyfikatora (np. testu diagnostycznego). Poniższy wykres podsumowuje ich powiązania, przy czym – odwrotnie niż w tablicy powyżej – klasa rzeczywista jest w wierszach, a klasa przewidywana w kolumnach:
Klasa predykowana – wynik testu | |||||
Populacja | Klasyfikacja pozytywna | Klasyfikacja negatywna | Częstość występowania, chorobowość
|
||
Klasa rzeczywista |
Stan pozytywny |
prawdziwie dodatnia, TP (trafienie) |
fałszywie ujemna (błąd drugiego rodzaju, FN, chybienie) |
czułość, TPR
|
FNR
|
Stan negatywny |
fałszywie dodatnia (błąd pierwszego rodzaju, FP, fałszywy alarm) |
prawdziwie ujemna, TN (poprawne odrzucenie) |
FPR
|
swoistość, SPC, TNR
| |
dokładność, ACC
|
precyzja, PPV
|
FOR
|
LR+
|
DOR
| |
FDR
|
NPV
|
LR-
|
Oznaczenia jednostek w zależności od ich klasy rzeczywistej i przewidywanej:
- prawdziwie pozytywna (ang. true positive, TP), trafienie (ang. hit)
- prawdziwie negatywna (ang. true negative, TN), poprawne odrzucenie (ang. correct rejection)
- fałszywie pozytywna (ang. false positive, FP), błąd pierwszego rodzaju, fałszywy alarm (ang. false alarm)
- fałszywie negatywna (ang. false negative, FN), błąd drugiego rodzaju, chybienie (ang. miss)
- pozytywna P = (TP + FN)
- negatywna N = (TN + FP)
Miary:
- czułość (ang. sensitivity), pełność[5] (ang. recall) lub odsetek prawdziwie pozytywnych (ang. true positive rate, TPR)
- swoistość (ang. specificity, SPC) lub odsetek prawdziwie negatywnych (ang. true negative rate, TNR)
- dokładność (ang. accuracy, ACC)
- precyzja (ang. precision) lub dodatnia wartość predykcyjna[4] (ang. positive predictive value, PPV)
- ujemna wartość predykcyjna (ang. negative predictive value, NPV)
- odsetek fałszywie pozytywnych (ang. false positive rate, FPR)
- odsetek fałszywie negatywnych (ang. false negative rate, FNR)
- wskaźnik (iloraz) wiarygodności wyniku dodatniego[6] (ang. positive likelihood ratio, LR+)
- wskaźnik (iloraz) wiarygodności wyniku ujemnego (ang. negative likelihood ratio, LR-)
- diagnostyczny iloraz szans (ang. diagnostic odds ratio, DOR)
Remove ads
Przykład
Tablica pomyłek dla większej liczby kategorii
Tablica pomyłek nie ogranicza się do klasyfikacji binarnej i można ją stosować wobec klasyfikatorów z większą liczbą klas. Macierze pomyłek omówione powyżej mają tylko dwie klasy: pozytywną i negatywną. Poniższa tabela podsumowuje komunikację w języku gwizdów między dwoma użytkownikami, przy czym dla przejrzystości pominięto wartości zerowe[7]:
Remove ads
Przypisy
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads