Najlepsze pytania
Chronologia
Czat
Perspektywa

Zbiór uczący, walidacyjny i testowy

Podział zbioru danych na trzy części w uczeniu maszynowym Z Wikipedii, wolnej encyklopedii

Remove ads

Zbiór uczący, walidacyjny i testowy – typowy podział danych wejściowych stosowany w uczeniu maszynowym przy budowaniu algorytmów[1].

Zbiór uczący (dane treningowe, dane uczące, próba ucząca, zestaw uczący) to zbiór danych używany do trenowania algorytmu uczenia maszynowego. Dzięki temu zbiorowi algorytm może nauczyć się wzorców, zależności, czy dopasować oszacowania parametrów modelu (wag w sieci neuronowej, współczynników w regresji, podziałów w drzewie klasyfikacyjnym). Zwykle ten zbiór danych jest największy.

Zbiór walidacyjny (dane walidacyjne, próba walidacyjna, zestaw walidacyjny) służy do dostrajania hiperparametrów modelu i monitorowania jego wydajności w trakcie treningu (np. w celu zapobiegania przeuczeniu).

Zbiór testowy (dane testowe, próba testowa, zestaw testowy) służy do ostatecznej oceny modelu. Pozwala ocenić, czy model dobrze poradzi sobie na nowych, nieznanych (nieużywanych w procesie uczenia i walidacji) danych.

Typowy podział danych na zestaw uczący, walidacyjny i testowy to 50–80% / 10–25% / 10–25%[2][3].

Remove ads

Zamieszanie terminologiczne

W literaturze dotyczącej uczenia maszynowego niekiedy zamienia się miejscami definicje zbiorów „walidacyjnego” i „testowego”. Według Briana Ripleya jest to „najbardziej rażący przykład zamieszania terminologicznego, które szerzy się w badaniach nad sztuczną inteligencją[4].

Przypisy

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads