Najlepsze pytania
Chronologia
Czat
Perspektywa
Ranga (statystyka)
Z Wikipedii, wolnej encyklopedii
Remove ads
Ranga – numer kolejny obserwacji statystycznej w próbie po uporządkowaniu obserwacji według wartości jednej ze zmiennych. Zwykle stosuje się uporządkowanie rosnące i numerowanie od 1.
Zastąpienie zmiennej przez wyliczone według niej rangi jest operacją zwaną rangowaniem. Rangowanie jest zwykle stosowane w celu uniezależnienia się od rozkładu zmiennej oraz możliwych wystąpień obserwacji odstających. Pozwala ono również na stosowanie metod statystycznych w odniesieniu do zmiennych porządkowych, a nie tylko przedziałowych i ilorazowych. Rangowanie jest też pierwszym krokiem wielu metod statystyki nieparametrycznej, tzw. metod rangowych, takich jak np. korelacja rangowa.
Rangowanie można zastosować do wielu zmiennych w próbie, porządkując każdą zmienną z osobna, nadając odpowiednie rangi, a następnie wracając do pierwotnego ustawienia obserwacji.
Remove ads
Rangi wiązane
W przypadku występowania obserwacji o równej wartości rangowanej zmiennej (tzw. rangi wiązane, ang. tied ranks), zwykle wszystkim tym obserwacjom przypisuje się identyczną rangę, równą średniej z ich numerów kolejnych. Stąd rangi mogą mieć wartości niecałkowite.
Pakiety statystyczne posiadają też możliwość traktowania rang wiązanych w inny sposób, np.
- przez przypisanie im największego lub najmniejszego numeru kolejnego z danej serii (co jednak zmienia średnią wyniku),
- przez przypisanie numerów kolejnych bez zważania na rangi wiązane (wówczas wyniki rangowania zależą nie tylko od wartości rangowanej zmiennej, ale i od kolejności obserwacji w tabeli).
Remove ads
Przykład
Podsumowanie
Perspektywa
W pięcioelementowej próbie[a] znajdują się następujące obserwacje zmiennej
Po posortowaniu według wartości x, uzyskujemy kolejność:
Jak widać obserwacje i mają tę samą wartość zmiennej Rangi zmiennej
Po przywróceniu pierwotnej kolejności obserwacji w zbiorze:
Remove ads
Rozkład rang
Podsumowanie
Perspektywa
Jeśli rangom wiązanym nadano wartości średnie, średnia rang wynosi:
Wariancja rang wynosi:
gdzie:
- jest liczbą obserwacji w próbie posiadających tę samą -tą wartość rangi zmiennej a sumowanie przebiega po wszystkich wartościach rang. Wystarczy zsumować rangi wiązane, bo dla pozostałych
Gdy nie ma rang wiązanych, jest równe zeru i wariancja rang zależna jest wyłącznie od liczności próby, a rangi mają rozkład jednostajny dyskretny. Ta właściwość jest podstawą wielu typowych metod rangowych, takich jak rho Spearmana. Sprawia ona także, iż metody rangowe są odporne na obserwacje odstające.
Remove ads
Rangi regularne, ułamkowe i procentowe
Opisane powyżej rangi zwane są regularnymi. Stosowane są też rangi ułamkowe – powstałe przez podzielenie rang regularnych przez liczbę obserwacji danej zmiennej (z wyłączeniem brakujących danych), oraz rangi procentowe, czyli rangi ułamkowe wyrażone w procentach.
Stosowanie rang ułamkowych i procentowych ma sens w przypadku zbiorów z brakami danych. Wówczas rangi ułamkowe i procentowe zapewniają lepszą od rang regularnych porównywalność zmiennych o różnym udziale brakujących danych.
Rangi ułamkowe przy braku rang wiązanych są równe dystrybuancie empirycznej. W nieskończonej populacji nie ma rang wiązanych, co sprawia, że wiele metod rangowych ma swoje odpowiedniki wyrażone za pomocą dystrybuant (np. rho Spearmana).
Remove ads
Przekształcanie rang
Podsumowanie
Perspektywa
Jak napisano wcześniej, zmienne porangowane (przy braku rang wiązanych) mają rozkład jednostajny dyskretny. Z drugiej strony wiele klasycznych metod statystycznych dostosowanych jest do rozkładu normalnego. Stąd niekiedy stosuje się dodatkowe przekształcenie rang, które zapewnia wymagany rozkład.
Dla rozkładu normalnego stosowane są wzory:
- Bloma[1] (najdokładniejsze z wymienionych):
- Tukeya[2]:
- Van der Waerdena (używane do nieparametrycznych testów położenia):
gdzie:
- – odwrotna dystrybuanta rozkładu normalnego,
- – ranga -tej obserwacji,
- – liczba niepustych obserwacji w danej zmiennej.
W przypadku istnienia w zbiorze rang wiązanych, należy powyższe wzory zastosować najpierw i dopiero potem uśrednić ich wyniki.
Przekształcenia te są stosowane głównie w testach położenia (ANOVA, testy równości wartości oczekiwanych itp.).
Aby otrzymać rozkład wykładniczy stosuje się wzór Savage’a:
Jest on stosowany do testów równości parametru skali w rozkładzie wykładniczym oraz testów równości parametru położenia w rozkładzie wartości ekstremalnych[3].
Dla testów skali stosowane są też inne przekształcenia rang:
- Klotza:
- Siegela-Tukeya, obliczane według schematu:
- dla
- dla
- dla
- dla
- dla
- dla
- dla
- dla
- itd.
- Ansari-Bradleya:
- Mooda:
Remove ads
Zobacz też
Uwagi
- Tak mała próba statystyczna została tu przedstawiona ze względów poglądowych, w praktyce byłaby ona zbyt mała do jakichkolwiek analiz.
Przypisy
Bibliografia
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads