Bootstrap (statistika)

Bootstrap-meetod (inglise keeles bootstrap method) on arvutusmahukas statistiline meetod, mis põhineb taasvalikul. Bootstrap'i abil saab hinnata mingit üldkogumi parameetrit (näiteks dispersiooni, keskväärtust või asümmeetriakordajat) või leida selle usaldusvahemikku.^[1]^[2] See meetod võimaldab hinnata peaaegu kõikide statistiliste parameetrite jaotust kasutades juhuslikku taasvalikut tagasipanekuga olemasolevatel andmetel.^[3]^[4] Võimalik on eristada parameetrilist ning mitteparameetrilist bootstrap'i.

Levinum kahest variandist on mitteparameetriline bootstrap selle matemaatiliselt lihtsa sisu tõttu. Nagu nimi viitab, ei tehta mitteparameetrilise bootstrap'i puhul suuri eeldusi jaotuse (ja selle parameetrite) kohta. Eeldatakse vaid seda, et üldkogum on sama jaotusega nagu olemasolevad andmed.^[5]

Parameetrilise bootstrap'i puhul eeldatakse, et valim on mingist jaotusest (näiteks normaaljaotusest). Parameetrilist bootstrap'i eelistatakse tavaliselt juhul, kui taustateadmistele tuginedes saab teha eelduse valimi ja üldkogumi jaotuse kohta. Samuti on parameetriline bootstrap abiks siis, kui andmeid on väga vähe (alla 10 andmepunkti).^[5]

Bootstrap-meetodi idee

Bootstrap põhineb ideel, et valimi andmete põhjal saab teha järeldusi üldkogumi parameetri $\theta$ käitumise kohta, kui valimi andmeid piisavalt palju juhuslikult uuesti valida.

Tavaliselt ei teata, mis jaotusest andmed pärinevad ja seega millised on õiged eeldused andmete jaotuse kohta. Seetõttu on tänapäeval küllaltki populaarsed meetodid, mis võimaldavad vähemalt ligikaudselt hinnata huvipakkuvaid suuruseid ainult olemasolevate andmete põhjal. Selliseid meetodeid nimetatakse taasvaliku meetoditeks.^[6]

Üldjuhul kasutatakse bootstrap-meetodit siis, kui on teada vaid andmete empiiriline jaotus ning õige jaotus on tundmatu. Kui õige jaotus oleks teada, siis saaks probleemile (nt keskväärtuse/standardhälbe leidmisele) ka analüütiliselt läheneda.^[7] Samas on keerukamate probleemide puhul analüütiline lähenemine tihtipeale võimalik ainult siis, kui teha ebareaalseid või tõestamata eeldusi. Seega keerulisemaid probleeme on mõistlik lahendada simuleerimismeetodeid kasutades.^[8]

Remove ads

Bootstrap'i algoritmi kirjeldus

Oletame, et tahame hinnata üldkogumi keskväärtust. Olgu meil valim (andmestik) $X$ , mille elemendid on $x_{1},x_{2},...,x_{n}$ . Bootstrap-meetod põhineb taasvalikul, mis seisneb selles, et konstrueeritakse uus valim $X'$ , kuhu võetakse juhuslikult tagasipanekuga uusi elemente algsest valimist $X$ . Seejärel leitakse valimi $X'$ keskväärtus. Seda protsessi korratakse väga palju kordi (minimaalselt $N=1000$ kordust, aga soovituslik oleks vähemalt $N=10000$ kordust) ning tulemus keskmistatakse. Selline teguviis annab meile aimduse sellest, kuidas üldkogumi parameeter käitub (nt mis vahemikku võiks parameeter jääda ja mis on parameetri standardhälve).

Sarnase algoritmiga saab ka leida muud infot üldkogumi keskväärtuse kohta. 95% usaldusintervalli üldkogumi keskväärtusele saame leida, kui võtame kõikidest valimi $N$ keskväärtusest 0,025 ja 0,975 kvantiili väärtuse vastavalt alumiseks ning ülemiseks usalduspiiriks.

Remove ads

Bootstrap'i vajalikkusest ja ajaloost

Bootstrap-meetodit tutvustas esimesena Ameerika statistik Bradley Efron 1979. aastal ilmunud artiklis "Bootstrap Methods: Another Look at the Jackknife". Bootstrap-meetodi ("saapapaela meetodi") nimi pärineb Bradley Efronilt: "Pulling oneself up by one's bootstraps", mis peaks ilmestama, et hakkama tuleb saada vaid omaenda vahenditega (andmetega).^[8]

Bootstrap (statistika)

Bootstrap-meetodi idee

Bootstrap'i algoritmi kirjeldus

Bootstrap'i vajalikkusest ja ajaloost

Viited

Wikiwand - on