Najlepsze pytania
Chronologia
Czat
Perspektywa

Regresja liniowa

Metoda statystyczna Z Wikipedii, wolnej encyklopedii

Regresja liniowa
Remove ads

Regresja liniowa – w modelowaniu statystycznym, metody oparte na liniowych kombinacjach zmiennych i parametrów dopasowujących model do danych. Dopasowana linia lub krzywa regresji reprezentuje oszacowaną wartość oczekiwaną zmiennej przy konkretnych wartościach innej zmiennej lub zmiennych W najprostszym przypadku dopasowana jest stała lub funkcja liniowa, na przykład:

Thumb
Przykład danych z modelem liniowym dopasowanym metodą najmniejszych kwadratów

Zmienna jest tradycyjnie nazywana zmienną objaśnianą lub zależną. Zmienne nazywa się zmiennymi objaśniającymi lub niezależnymi. Zarówno zmienne objaśniane i objaśniające mogą być wielkościami skalarnymi lub wektorami.

Regresja w ogólności to problem estymacji warunkowej wartości oczekiwanej. Regresja liniowa jest nazywana liniową, gdyż zakładanym modelem zależności między zmiennymi zależnymi a niezależnymi jest przekształcenie liniowe (afiniczne) względem parametrów, reprezentowane w przypadku wielowymiarowym przez macierz.

Remove ads

Model regresji liniowej

Podsumowanie
Perspektywa

Niech dany będzie zbiór danych zaobserwowanych Model regresji liniowej zakłada, że istnieje liniowa (afiniczna) relacja pomiędzy zmienną zależną a wektorem regresorów Zależność ta jest modelowana przez uwzględnienie składnika losowego (błędu) który jest zmienną losową. Dokładniej, model ten jest postaci

gdzie oznacza transpozycję, tj. jest iloczynem skalarnym wektorów oraz

Powyższe równań można zapisać w sposób macierzowy:

gdzie:

Najczęściej wykorzystuje się do tego celu klasyczną metodę najmniejszych kwadratów i jej pochodne. Metoda ta jest najstarsza i najłatwiejsza do zastosowania, choć posiada wady (np. niewielką odporność na elementy odstające), które udało się usunąć w innych, mniej rozpropagowanych metodach. Są to odporne metody statystyczne, do których należy regresja medianowa i algorytmy z regularyzacją.

Thumb
Kwartet Anscombe’a

Niedostateczność prostych algorytmów w ogólnym przypadku pokazuje m.in. kwartet Anscombe’a – specjalnie przygotowany zestaw czterech zbiorów danych, które mają niemal tożsame wskaźniki statystyczne (średnią i wariancję w kierunku X i Y, współczynnik korelacji oraz prostą regresji) mimo znacząco różnego charakteru danych.

Remove ads

Testy oparte na modelu liniowym

Podsumowanie
Perspektywa

Wiele klasycznych narzędzi statystycznych opatrzonych własnymi nazwami, takich jak współczynnik korelacji Pearsona, ANOVA czy test t Studenta jest szczególnymi przypadkami lub aspektami modelu liniowego. Dotyczy to również licznych testów nieparametrycznych, w których przypadku zamiast surowych wartości zmiennych stosuje się rangi obserwacji[1].

Historycznie, klasyczne narzędzia stanowiły proste, gotowe do użycia modele z dobrze opisanymi właściwościami. W wielu przypadkach wymagają one jedynie obliczenia kilku średnich arytmetycznych, ignorując tym samym większość informacji zawartych w danych. W ortodoksyjnym podejściu częstościowym test realizuje się następnie z reguły przez określenie prawdopodobieństwa danych przy założeniu modelu zerowego: o odpowiedniej dla sytuacji strukturze, ale zakładającego zerowe zależności. Modele zerowe dla klasycznych testów mają dobrze znane rozkłady prawdopodobieństwa, i wykonanie testu polegało na odnalezieniu odpowiedniej wartości w standardowej tabeli w podręczniku[2][3].

Prostota technik pozwoliła na ich łatwe i powszechne stosowanie w epoce niskiej dostępności i mocy komputerów. Zwyczaj ten ukrywa jednak ich strukturalną i poznawczą banalność, i zachęca do zaniedbywania surowych założeń warunkujących ich trafność. Współcześnie statystycy mogą tworzyć i stosować modele oraz testy dużo dokładniej dopasowane do konkretnych zastosowań i ograniczeń[2][3][4][5][6].

Poniższa tabela – oparta na pracy Lindeløva[7] – przedstawia równoważne klasycznym narzędziom modele liniowe, gdzie reprezentuje zmienne typu dummy, przyjmujące wartości 1 lub 0 dla obserwacji należących (lub nie) do konkretnej grupy obserwacji, to funkcja mapująca surowe wartości zmiennych na ich relatywne rangi (w niektórych przypadkach ze znakiem, rozróżniając wartości ujemne i dodatnie), a to wyraz błędu.

Więcej informacji , ...
Remove ads

Przypisy

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads