Linearna regresija
From Wikipedia, the free encyclopedia
Remove ads
U statistici, linearna regresija se odnosi na svaki pristup modelovanja relacija između jednog ili više responsa (zavisnih promenljivih) označenog sa Y, i jedne ili više nezavisnih promenljivih označenih sa X, na način da takav model linearno zavisi od nepoznatih parametara procenjenih iz podataka.[1] Najčešće se linearna regresija odnosi na model u kojem je uslovna srednja vrednost od Y, uz datu vrednost X, afina funkcija od X. Slučaj sa jednom nezavisnom promenljivom se naziva jednostavna linearna regresija. Kad je obuhvaćeno više od jedne nezavisne promenljive, proces se zove višestruka linearna regresija.[2] Ovaj se termin razlikuje od multivarijantne linearne regresije, gde se višestruke korelisane zavisne promenljive predviđaju, umesto jedne skalarne promenljive.[3]

Mnogo ređe, linearna regresija se može odnositi na model u kojem se medijan, ili neki drugi kvantil uslovne distribucije Y za dato X izražava kao linearna funkcija od X. Kao i svi drugi oblici regresione analize, linearna regresija ima fokus na distribuciji uslovne verovatnoće od Y za dani X, a ne na distribuciji uslovne verovatnoće od Y i X, što je domen multivarijantne analize (engl. ).[4][5][6]
Linearna regresija je bila prvi tip regresione analize[7][8] koja je detaljno proučavana i koja se ekstenzivno koristila u praktičnim primenama.[9] Razlog za ovo je da se modeli koji linearno zavise od svojih nepoznatih parametara lakše modeluju nego modeli sa nelinearnom zavisnošću od parametara. Takođe, statistička svojstva rezultirajućih estimatora se lakše određuju.
Linearna regresija ima mnogo praktičnih primena. Većina aplikacija linearne regresije spada u jednu od sledeće dve široke kategorije:
- Ako je cilj predviđanje ili prognoza, linearna regresija se može koristiti za podešavanje prediktivnog modela prema razmatranom skupu podataka vrednosti Y i X. Nakon razvoja ovakvog modela, ako je data vrednost za X bez pripadajuće vrednosti Y, model se može koristiti za predviđanje vrednosti Y.
- Ako je dostupna varijabla Y i veći broj varijabli X1, ..., X koje mogu biti povezane sa Y, može se koristiti linearna regresiona analiza za kvantifikovanje jačine relacije između Y i Xj, za procenu koji je Xj uopšte vezan za Y, te da bi identifikovalo koji podskupovi od Xj sadrže redundantne informacije o Y, tako da kad je jedan od njih poznat, ostali više ne daju korisne informacije.
Linearni regresioni modeli se često podešavaju uz pomoć metode najmanjih kvadrata,[10][11] iako se mogu koristiti i drugi načini, kao što je minimizovanje „nedostatka podešenja” (engl. ) u nekim drugim normama, ili minimizovanjem penalizirane verzije funkcije gubitaka najmanjih kvadrata, kao kod Tihonove regularizacije.[12][13][14]
Nasuprot tome, pristup metodom najmanjih kvadrata se može iskoristiti za podešavanje nelinearnih modela. Prema tome, pojmovi „najmanji kvadrati” i „linearni model” jesu usko povezani, ali nisu sinonimi.
Remove ads
Uvod

Uz zadati skup podataka od statističkih jedinica, model linearne regresije pretpostavlja da se relacija između zavisne varijable i p-vektora regresora može približno uzeti kao linearna. „Približno” se ovde odnosi na „smetnje” εi — neposmatranu slučajnu varijablu koja dodaje šum u linearnu relaciju između zavisne varijable i regresora. Stoga, model ima oblik
gde je unutarnji produkat između vektora i .
Često su ovih jednačina složene u vektorski oblik kao
gde je
Neke napomene vezane za terminologiju:
- je vektor izmerenih vrednosti ; se naziva regresand, zavisna varijabla, endogena varijabla, varijabla odgovora ili merena varijabla. Ova varijabla se ponekad naziva i predviđenom varijablom, ali to ne treba mešati sa predviđenim vrednostima, koje se označavaju sa . Odluka o tome koja se varijabla u skupu podataka modeluje kao zavisna varijabla, a koja kao nezavisna može se temeljiti na pretpostavci da je jedna od varijabli posledica ili pod uticajem druge varijable. Alternativno, može da postoji operacioni razlog za modelovanje jedne promenljive kao funkcije drugih, u kom slučaju nema potrebe za pretpostavljanjem uzročnosti.
- se može videti kao matrica od redova-vektora ili -dimenzionalnih kolonskih-vektora , koji su poznati kao regresori, eksogene promenljive, promenljive objašnjenja, kovarijati, inputne promenljive, prediktorske promenljive, ili nezavisne varijable (ovo ne treba mešati sa konceptom nezavisnih randomnih promenljivih). Matrica se ponekad naziva matricom dizajna.
- Obično se konstanta uvrštava kao jedan od regresora. Posebno, za . Korespondirajući element β se naziva presek. Mnoge procedure statističke inferencije za linearne modele nalažu postojanje preseka, tako da se on obično uključuje čak i ako teoretska razmatranja sugerišu da njegova vrednost treba da bude jednaka nuli.
- Ponekad jedan od regresora može da bude nelinearna funkcija drugog regresora ili podatka, kao što je to slučaju u polinomskoj regresiji[15] i segmentnoj regresiji.[16] Model se smatra linearnim dokle god je linearan u pogledu parametra vektora β.
- Vrednosti x mogu da budu bilo izmerene vrednosti slučajnih promenljivih X ili fiksne vrednosti izabrane pre merenja zavisnih promenljivih. Obe interpretacije mogu da budu podesne u različitim slučajevima, i generalno se koriste isti postupci procene; međutim u tim situacijama se koriste različiti pristupi asimptotskoj analizi.
Remove ads
Reference
Literatura
Spoljašnje veze
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads