Error estàndard

propietat estadística From Wikipedia, the free encyclopedia

Error estàndard
Remove ads

L'error estàndard[1] [2] d'una estadística (normalment una estimació d'un paràmetre) és la desviació estàndard de la seva distribució de mostreig[3] o una estimació d'aquesta desviació estàndard. Si l'estadística és la mitjana mostral, s'anomena error estàndard de la mitjana.[2][4][5]

Thumb
Per a un valor mostrat amb un error amb una distribució normal, aquesta representació mostra la proporció de mostres que se situarien entre 0, 1, 2 i 3 desviacions estàndard superiors i inferiors al valor real.

La distribució de mostreig d'una mitjana es genera mitjançant un mostreig repetit de la mateixa població i el registre de les mitjanes de mostra obtingudes. Això forma una distribució de diferents mitjanes, i aquesta distribució té la seva pròpia mitjana i variància. Matemàticament, la variància de la distribució de mostreig obtinguda és igual a la variància de la població dividida per la mida de la mostra. Això es deu al fet que a mesura que augmenta la mida de la mostra, la mostra s'agrupa més a prop de la mitjana de la població.

Per tant, la relació entre l'error estàndard de la mitjana i la desviació estàndard és tal que, per a una mida de mostra determinada, l'error estàndard de la mitjana és igual a la desviació estàndard dividida per l'arrel quadrada de la mida de la mostra.[2] En altres paraules, l'error estàndard de la mitjana és una mesura de la dispersió de les mostres al voltant de la mitjana de la població.

En l'anàlisi de regressió, el terme «error estàndard» fa referència a l'arrel quadrada de l'estadística reduïda de chi quadrat o bé a l'error estàndard d'un coeficient de regressió concret (tal com s'utilitza en, per exemple, intervals de confiança).

Remove ads

Concepte

La mitjana aritmètica és l'estimador usual d'una mitjana poblacional. No obstant això, diferents mostres triades de la mateixa població tendeixen en general a donar diferents valors de mitjanes mostrals. L'error estàndard de la mitjana (és a dir, l'error degut a l'estimació de la mitjana poblacional a partir de les mitjanes aritmètiques) és la desviació estàndard de totes les possibles mostres (d'una mida donada) triats d'entre aquesta població. A més, l'error estàndard de la mitjana pot referir-se a una estimació de la desviació estàndard, calculada des d'una mostra de dades que és analitzada al mateix temps.

En aplicacions pràctiques, el veritable valor de la desviació estàndard (o de l'error) és generalment desconegut. Com a resultat, el terme «error estàndard» s'usa a vegades per a referir-se a una estimació d'aquesta quantitat desconeguda. En tals casos és important tenir clar d'on prové, ja que l'error estàndard és només una estimació. Desafortunadament, això no és sempre possible i pot ser millor utilitzar una aproximació que eviti usar l'error estàndard, per exemple usant l'estimació de màxima versemblança o una aproximació més formal derivada dels intervals de confiança. Un cas ben conegut on es pugui usar de manera apropiada pot ser en la distribució t de Student per a proporcionar un interval de confiança per a una mitjana estimada o diferència de mitjanes. En altres casos, l'error estàndard pot ser usat per a proveir una indicació de la grandària de la incertesa, però el seu ús formal o semi-formal per a proporcionar intervals de confiança o test ha de ser evitat tret que la mida de la mostra sigui almenys moderadament gran. Aquí el concepte «gran» dependrà de les quantitats particulars que vagin a ser analitzades.

En anàlisi de regressió, el terme error estàndard o error típic és també usat com la mitjana de les diferències entre l'estimació per mínims quadrats i els valors donats de la mostra.

La relació entre l'error estàndard de la mitjana i la desviació estàndard és tal que, per a una grandària de mostra donat, l'error estàndard de la mitjana és igual a la desviació estàndard dividida per l'arrel quadrada de la grandària de la mostra. En altres paraules, l'error estàndard de la mitjana és una mesura de la dispersió de les mitjanes mostrals al voltant de la mitjana poblacional.[2]

En l'anàlisi de la regressió , el terme «error estàndard» es refereix a l'arrel quadrada de l'estadística chi-quadrada reduïda o a l'error estàndard per a un coeficient de regressió particular, com s'usa, per exemple, en els intervals de confiança.

Remove ads

Error estàndard de la mitjana

Valor exacte

Suposem que una mostra estadísticament independent de observacions es pren d'una població estadística amb una desviació típica d'. El valor mitjà calculat a partir de la mostra, , tindrà associat un error estàndard sobre la mitjana, , donat per: [2]

on

σ és la desviació estàndard de la població
n és la mida (nombre d'observacions) de la mostra.

Pràcticament això ens diu que quan s'intenta estimar el valor d'una mitjana poblacional, a causa del factor , reduir l'error en l'estimació en un factor de dos requereix adquirir quatre vegades més observacions en la mostra; reduir-ho en un factor de deu requereix cent vegades més observacions.

Estimació

Com en la desviació estàndard de la població rares vegades es coneix, l'error estàndard de la mitjana sol estimar-se com la desviació estàndard de la mostra dividida per l'arrel quadrada de la grandària de la mostra (suposant la independència estadística dels valors de la mostra).

on

s és la desviació estàndard de la mostra (per exemple, l'estimació de la desviació estàndard de la població basada en la mostra), i
n és la mida (nombre d'observacions) de la mostra.

La fórmula de l'error estàndard de la mitjana pot aconseguir-se des del que ja coneixem sobre la variància de la suma de variables aleatòries independents.

  • Si són observacions independents d'una població que té una mitjana i una desviació estàndard , llavors la variància del total és .
  • La variància de deure ser .
  • I llavors la desviació estàndard de serà .
  • Per descomptat, és la mitjana de la mostra ().

Nota: L'error estàndard i la desviació estàndard de mostres petites tendeixen a infravalorar sistemàticament l'error estàndard i la desviació estàndard de la població: l'error estàndard de la mitjana és un paràmetre esbiaixat de l'error estàndard de la població. Amb n=2 la infravaloració pot ser del 25%, però per a n=6 la infravaloració és només del 5%.[6]

Precisió de l'estimador

Quan la mida de la mostra és petita, utilitzar la desviació típica de la mostra en comptes de la desviació típica real de la població tendirà a subestimar sistemàticament la desviació típica de la població i, per tant, també l'error típic. Amb n = 2, la subestimació és d'aproximadament el 25%, però per a n = 6, la subestimació és només del 5%. Gurland i Tripathi (1971) proporcionen una correcció i una equació per a aquest efecte.[6] Sokal i Rohlf (1981) donen una equació del factor de correcció per a mostres petites de n < 20.[7]

Derivació

L'error típic de la mitjana pot derivar-se de la variància d'una suma de variables aleatòries independents,[8] donada la definició de variància i algunes propietats senzilles d'aquesta. Si és una mostra d'observacions independents d'una població amb mitjana i desviació típica , llavors podem definir el total de

Remove ads

Supòsits i utilització

Si s'assumeix que les dades utilitzades estan distribuïdes per la normal, els quantils de la distribució normal, la mitjana de la mostra i l'error estàndard poden ser usats per a calcular intervals de confiança aproximats per a la mitjana. Les següents expressions poden ser usades per a calcular els límits de confiança per damunt i per sota del 95%, on és igual a la mitjana de la mostra, és igual a l'error estàndard per a la mitjana de la mostra, i 1,96 és el quantil 0.975 de la distribució normal:

Per sobre del 95% Límit =
Per sota del 95% Límit =

En particular, l'error estàndard d'una mostra estadística (com ho és de la mitjana de la mostra) és la desviació estàndard estimada de l'error en el procés que aquesta és generada. En altres paraules, l'error estàndard és la desviació estàndard de la distribució mostral de la mostra estadística. La notació per a l'error estàndard (de l'anglès) pot ser , (per error estàndard de "mesura" (measurement) o "mitjana" (pixen)), o .

Els errors estàndard proporcionen una mesura sobre la incertesa de les mesures de la mostra en un únic valor que és usat sovint perquè:

  • Si l'error estàndard de diverses quantitats individuals és conegut llavors l'error estàndard d'alguna funció matemàtica d'aquestes quantitats pot ser fàcilment calculat en molts casos:
    • On la distribució de probabilitat del valor és coneguda, aquesta pot ser usada per a calcular una bona aproximació d'un interval de confiança exacte.
    • On la distribució de probabilitat és desconeguda, relacions com la Desigualtat de Txebixov o la desigualtat de Vysochanskiï–Petunin poden ser usades per a calcular uns intervals de confiança conservatius.
  • Com que la mida de la mostra tendeix a infinit, el teorema del límit central garanteix que la distribució de la mitjana mostral és asimptòticament la distribució normal.
Remove ads

Error estàndard de la regressió

L'error estàndard de la regressió és el valor que mostra la diferència entre els valors reals i els estimats d'una regressió. És utilitzat per a valorar si existeix una correlació entre la regressió i els valors mesurats. Molts autors prefereixen aquesta dada a uns altres com el coeficient de correlació lineal, ja que l'error estàndard es mesura en les mateixes unitats que els valors que s'estudien. La fórmula seria:[9]

Sent:

  • els valors estimats.
  • els valors mitjans.
  • la mida de la mostra.
Remove ads

Aproximació de Student quan el valor d'σ és desconegut

En moltes aplicacions pràctiques, el veritable valor d'σ és desconegut. Com a resultat, necessitem utilitzar una distribució que tingui en compte aquesta dispersió de possibles σ. Quan se sap que la veritable distribució subjacent és gaussiana, encara que amb σ desconeguda, llavors la distribució estimada resultant segueix la distribució t de Student. L'error típic és la desviació típica de la distribució t de Student. Les distribucions t són lleugerament diferents de la gaussiana i varien en funció de la mida de la mostra. Les mostres petites són una mica més propenses a subestimar la desviació típica de la població i a tenir una mitjana que difereixi de la mitjana real de la població, i la distribució t de Student té en compte la probabilitat d'aquests esdeveniments amb cues una mica més pesades en comparació amb una gaussiana. Per a estimar l'error estàndard d'una distribució t de Student n'hi ha prou amb utilitzar la desviació estàndard mostral "s" en lloc de σ, i podríem utilitzar aquest valor per a calcular intervals de confiança.

Nota: La distribució de probabilitat t de Student s'aproxima bé a la distribució de Gauss quan la grandària de la mostra és superior a 100. Per a tals mostres es pot utilitzar aquesta última distribució, que és molt més senzilla.

Remove ads

Supòsits i ús

Un exemple de com s'utilitza és per a fer intervals de confiança de la mitjana poblacional desconeguda. Si la distribució mostral és normalment distribuïda, la mitjana mostral, l'error estàndard i els quantils de la distribució normal poden utilitzar-se per a calcular intervals de confiança per a la veritable mitjana poblacional. Les següents expressions poden utilitzar-se per a calcular els límits de confiança superior i inferior del 95%, on és igual a la mitjana mostral, és igual a l'error estàndard per a la mitjana mostral, i 1,96 és el valor aproximat del punt 97,5 percentil de la distribució normal:

Límit superior del 95% i
Límit inferior del 95%

En concret, l'error típic d'una estadística mostral (com la mitjana mostral) és la desviació típica real o estimada de la mitjana mostral en el procés pel qual es va generar. En altres paraules, és la desviació típica real o estimada de la distribució mostral de l'estadística mostral. La notació per a l'error estàndard pot ser qualsevol de SE, SEM (per a error estàndard de mesura o mitjana), o SE.

Els errors estàndard proporcionen mesures simples de la incertesa en un valor i s'utilitzen sovint perquè:

  • en molts casos, si es coneix l'error estàndard de diverses quantitats individuals, llavors es pot calcular fàcilment l'error estàndard d'alguna funció de les quantitats;
  • quan es coneix la distribució de probabilitat del valor, es pot utilitzar per a calcular un interval de confiança exacte;
  • quan es desconeix la distribució de probabilitat, es pot utilitzar la desigualtat de Txebixov o la desigualtat de Vysochanskiï-Petunin per a calcular un interval de confiança conservador; i
  • a mesura que la mida de la mostra tendeix a infinit, el teorema del límit central garanteix que la distribució mostral de la mitjana és asimptòticament normal.

Error típic de la mitjana enfront de la desviació típica

En la literatura científica i tècnica, les dades experimentals es resumeixen sovint utilitzant la mitjana i la desviació típica de les dades de la mostra o la mitjana amb l'error típic. Això sol portar a confusió sobre la seva intercanviabilitat. No obstant això, la mitjana i la desviació típica són estadístiques descriptives, mentre que l'error típic de la mitjana és descriptiu del procés de mostreig aleatori. La desviació estàndard de les dades de la mostra és una descripció de la variació en els mesuraments, mentre que l'error estàndard de la mitjana és una declaració probabilística sobre com la grandària de la mostra proporcionarà un millor límit en les estimacions de la mitjana de la població, a la llum del teorema del límit central.[10]

En poques paraules, l'error estàndard de la mitjana mostral és una estimació del lluny que és probable que estigui la mitjana mostral de la mitjana poblacional, mentre que la desviació estàndard de la mostra és el grau en què els individus dins de la mostra difereixen de la mitjana mostral. Si la desviació típica de la població és finita, l'error típic de la mitjana de la mostra tendirà a zero en augmentar la grandària de la mostra, perquè l'estimació de la mitjana de la població millorarà, mentre que la desviació típica de la mostra tendirà a aproximar-se a la desviació típica de la població en augmentar la grandària de la mostra.[11]

Remove ads

Referències

Vegeu també

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads