distribució de probabilitat From Wikipedia, the free encyclopedia
La distribució de Pareto, que porta el nom de l'enginyer civil, economista i sociòleg Vilfredo Pareto,[1] és una distribució de probabilitat que s'utilitza per descriure diferents fenòmens socials, de control de qualitat, científics, geofísics, actuarials i altres tipus de fenòmens observables. Inicialment es va aplicar en la descripció de la distribució de la riquesa a la societat, ja que encaixava amb la tendència que una gran porció de la riquesa és propietat d'una fracció petita de la població.[2][3] El principi de Pareto o la "regla 80-20" que afirma que "el 80% dels efectes són conseqüència del 20% de les causes" també porta el nom de Pareto, tot i que el concepte és diferent, i només les distribució de Pareto amb paràmetre de forma (α) de log₄5 ≈ 1.16 reflecteixen aquest precís cas. Observacions empíriques han demostrat que aquesta distribució 80-20 encaixa un ampli espectre de casos, inclosos fenòmens naturals[4] i activitats humanes.[5]
Funció de densitat de probabilitat ![]() Funcions de densitat de probabilitat de Pareto de tipus I per diferents valors de amb A mesura que la distribució tendeix a on és la funció delta de Dirac. | |
Funció de distribució de probabilitat ![]() Funcions de distribució acumulada de Pareto de tipus I per diferents valors de amb | |
Tipus | família exponencial, Distribució de cua pesada i Distribució de Pareto generalitzada |
---|---|
Epònim | Vilfredo Pareto |
Paràmetres | escala (real) escala (real) |
Suport | |
fdp | |
FD | |
Esperança matemàtica | |
Mediana | |
Moda | |
Variància | |
Coeficient de simetria | |
Curtosi | |
Entropia | |
FC | |
Informació de Fisher | Dreta: |
Mathworld | ParetoDistribution |
Sigui X una variable aleatòria que segueix una distribució de Pareto (de tipus I),[6] llavors la probabilitat que X sigui més gran que un cert nombre x, és a dir funció de supervivència ve donada per
on xm és el valor mínim possible (necessàriament positiu) de X, i α és un paràmetre positiu. La distribució de Pareto de tipus I és caracteritzada pel paràmetre d'escala xm i pel paràmetre de forma α, que és conegut com índex de cua (de l'anglès tail index). Quan s'utilitza aquesta distribució per modelar la distribució de la riquesa, llavors el paràmetre α s'anomena índex de Pareto.
A partir de la definició, la funció de distribució acumulada d'una variable aleatòria de Pareto amb paràmetres α i xm és
Del resultat anterior se'n desprèn (aplicant la diferenciació) que la funció de densitat de probabilitat és
Quan es representa en eixos lineals, la distribució pren una forma de corba en J i tendeix als eixos ortogonals asimptòticament. Tots els segments de la corba són similars entre ells (més enllà d'un factor d'escala). Quan s'empra la representació logarítmica, la distribució és una línea recta.
Es poden resoldre els paràmetres usant el mètode dels moments.[7]
La mitjana geomètrica (G) és[8]
La mitjana harmònica (H) és[8]
La distribució corbada amb forma de 'llarga cua' característica que s'obté quan es representa en escala lineal emmascara la simplicitat subjacent de la funció quan es representa logarítmicament, cas en què es mostra com una línea recta amb pendent negatiu. Deriva de la fórmula de la funció de densitat de probabilitat que, per x ≥ xm,
Com que α és positiu, el gradient −(α + 1) és negatiu.
Existeix una jerarquia[6][9] de les distribucions de Pareto conegudes com Tipus I, II, III, IV, i la distribució de Feller–Pareto.[6][9][10] La distribució de Pareto de Tipus IV conté les distribucions de Pareto de Tipus I–III com a casos particulars. La distribució de Feller–Pareto[9][11] generalitza la distribució de Pareto de Tipus IV.
La jerarquia de les diferents distribucions de Pareto és resumida en la següent taula, en què es comparen les diferents funcions de supervivència.
Quan μ = 0, la distribució de Pareto de Tipus II és també coneguda com la distribució Lomax.[12]
En aquesta secció, el símbol xm, utilitzat prèviament per indicar el valor mínim de x, és substituït per σ.
Dominii | Paràmetres | ||
---|---|---|---|
Tipus I | |||
Tipus II | |||
Lomax | |||
Tipus III | |||
Tipus IV | |||
El paràmetre de forma α és l'índex de cua, μ és la ubicació, σ és l'escala, γ és un paràmetre de desigualtat. Alguns casos particulars de la distribució de Pareto de Tipus IV són
El fet que la mitjana sigui finita i que existeixi la variància i sigui també finita depèn de l'índex de cua α (índex de desigualtat γ). En particular, es mostren a continuació els moments d'ordre δ, que són finits per certs valors de δ > 0, as shown in the table below, on δ no és necessàriament un nombre enter.
Condició | Condició | |||
---|---|---|---|---|
Tipus I | ||||
Tipus II | ||||
Tipus III | ||||
Tipus IV | ||||
William Feller[9][11] va definir la variable de Pareto a partir de la transformació U = Y−1 − 1 d'una variable aleatòria beta Y, que té com a funció de densitat de probabilitat és
on B( ) és la funció beta. Si
llavors W segueix una distribució de Feller–Pareto FP(μ, σ, γ, γ1, γ₂).[6]
Si i són variables Gamma independents, una altra possible construcció d'una variable aleatòria de Feller–Pareto (FP) és[13]
i s'escriu W ~ FP(μ, σ, γ, δ1, δ₂). Casos especials de distribucions de Feller–Pareto són
La distribució de Pareto està relacionada amb la distribució exponencial. Sigui X una distribució de Pareto amb valor mínim xm i índex α, llavors
està distribuïda exponencialment amb paràmetre α. Equivalentment, si Y està distribuïda exponencialment amb paràmetre α, llavors
està distribuïda segons Pareto amb mínim xm i índex α.
Això es pot demostrar utilitzant tècniques estàndard de canvi de variable:
La darrera expressió és la funció de distribució acumulada de la distribució exponencial amb paràmetre α.
Es pot construir la distribució de Pareto a parrtir de distribucions exponencials jeràrquiques.[14] Sigui
.
Llavors, .
La distribució de Pareto i la distribució log-normal són distribucions alternatives per descriure els mateixos tipus de quantitats. Una de les connexions que hi ha entre elles és que les dues són distribucions que es poden expressar com l'exponenciació d'altres distribucions comunes, de la distribució exponencial i de la distribució normal respectivament. (Vegeu la secció anterior).
La distribució de Pareto és un cas particular de la distribució generalitzada de Pareto, que és una família de distribucions que tenen una forma similar, però conté un paràmetre extra de tal forma que el domini de la distribució és o bé fitada per baix (en un punt variable), o bé fitada tant per baix com per dalt (totes dues fites són variables), amb la distribució Lomax com a cas particular. Aquesta família també conté les distribucions exponencials desplaçada i no desplaçada.
La distribució de Pareto amb paràmetre d'escala i paràmetre de forma és equivalent a la distribució generalitzada de Pareto amb paràmetre d'ubicació , paràmetre d'escala i paràmetre de forma . Vice versa, es pot obtenir la distribució de Pareto a partir de la distribució generalitzada de Pareto amb i .
Tipus | família exponencial, Distribució de cua pesada i Distribució de Pareto generalitzada |
---|---|
Epònim | Vilfredo Pareto |
Paràmetres | ubicació (real) ubicació (real) |
Suport | |
fdp | |
FD | |
Esperança matemàtica | |
Mediana | |
Variància |
(aquest és el segon moment, no la variància) |
Coeficient de simetria | (aquest és el moment k-èssim, no l'asimetria) |
Mathworld | ParetoDistribution |
La distribució fitada (o truncada) de Pareto té tres paràmetres: α, L i H. Com en la distribució estàndard de Pareto, α determina la forma. L denota el valor mínim i H el valor màxim.
La funció de densitat de probabilitat de la distribució fitada de Pareto és
on L ≤ x ≤ H i α > 0.
Sigui U una istribució uniforme en (0, 1), llavors, aplicant el mètode de la transformada inversa
és una distribució fitada de Pareto.
L'objectiu de la distribució simètrica de Pareto i de la distribució zero simètrica de Pareto és capturar algunes distribucions estadístiques especials amb un pic afilat de probabilitat i amb cues de probabilitat simètriques i llargues. Aquestes dues distribucions deriven de la distribució de Pareto. Les cues llargues de probabilitat signifiquen que la probabilitat decau lentament. En molts casos, la distribució de Pareto s'utilitza per ajustar corbes. Però si la distribució té una estructura simètrica amb dues cues que decauen lentament, la distribució de Pareto ja no serveix. És llavors quan s'utilitzen les distribucions simètrica i zero simètrica de Pareto.[15]
La funció de distribució acumulada de la distribució de Pareto és definida com:[15]
La funció de densitat de probabilitat corresponent és:[15]
La distribució té dos paràmetres: a i b. És simètrica respecte b. Llavors, l'esperança matemàtica és b. La variància és
La funció de distribució acumulada de la distribució zero simètrica de Pareto és definida com
Amb funció de densitat de probabilitat
Aquesta distribució és simètrica respecte el zero. El paràmetre està relacionat amb la taxa de caiguda de la probabilitat i representa la magnitud pic de probabilitat.[15]
La distribució (univariable) de Pareto es pot estendre a la distribució conjunta (multivariable) de Pareto.[16]
La funció de versemblança dels paràmetre de la distribució de Pareto α i xm, donada una mostra independent x = (x1, x₂, ..., xn), és
Per tant, la funció logarítmica de versemblança és
Es pot notar que és monòtonament ascendent amb xm, és a dir, com més gran és el valor de xm, més gran serà el valor de la funció de versemblança. Per tant, com que x ≥ xm, es pot concloure que
Per trobar un estimador per α, es calcula la derivada parcial corresponent i es determina quan és igual a zero:
Per tant, l'estimador de màxima versemblança per α és:
L'esperança de l'error estadístic és:[17]
Malik (1970)[18] va donar la distribució conjunta exacta de . En particular, i són independents i és una distribució de Pareto amb paràmetre d'escala xm i paràmetre de forma nα, mentre segueix una distribució gamma-inversa amb paràmetres de forma i d'escala n − 1 i nα, respectivament.
Vilfredo Pareto va utilitzar inicialment aquesta distribució per descriure la distribució de la riquesa entre els individus ja que semblava representar molt bé la manera com una porció gran de la riquesa en tota societat és propietat d'un percentatge petit de la població. També la va usar per desciure la distribució dels ingressos.[3] La idea és sovint expressada simplement com el principi de Pareto o la "regla del 80-20" que diu que el 20% de la població controla el 80% de la riquesa.[19] Tanmateix, la regla del 80-20 correspon a un valor particular de α, i de fet, les dades de Pareto dels impostos dels ingressos a Gran Bretanya en el seu Cours d'économie politique indiquen que al voltant del 30% de la població tenia el 70% dels ingressos. La gràfica de la funció de densitat de probabilitat al principi de l'article mostra que la "probabilitat" o fracció de la població que té una quantitat determinada de riquesa (per persona) és més aviat alta quan la quantitat de riquesa és baixa, i que aquesta fracció disminueix de forma contínua a mesura que la riquesa per persona augmenta. Aquesta distribució no es limita a desciure la riquesa o els ingressos, sinó que també es troba en moltes situacions en què es troba un equilibri en la distribució entre allò "petit" i allò "gran". Els següents exemples sovint es considera que segueixen distribucions de Pareto:
La distribució de Pareto és una distribució contínua de probabilitat. La llei de llei de Zipf, també anomenada sovint distribució zeta, és una distirbució discreta que separa els valors en una simple classificació de rangs. Totes dues són una llei de potències amb exponent negatiu, escalats per tal que la seva distribució acumulada sigui igual a 1. Es pot derivar la llei de Zipf de la distribució de Pareto si els valors de (els ingressos) són agrupats en barres talment que el nombre de persones en cada barra segueixi un patró d'1/rang. La distribució és normalitzada definint tal que on és el nombre harmònic generalitzat. Això fa que la funció de densitat de probabilitat de Zipf es pugui derivar de la de Pareto.
on i és un enter que representa el rang d'1 a N, on N és el grup amb ingressos més alts. Així doncs, una persona seleccionada aleatòriament (o una paraula, un enllaç web, una ciutat...) d'una població (o d'una llengua, d'Internet, d'un país...) té una probabilitat de valdre .
La "llei del 80-20", segons la qual el 20% de les persones més riques obtenen el 80% dels ingressos i que el 20% del 20% de les persones més riques obtenen el 80% del 80% dels ingressos i així successivament aplica exactament quan l'índex val . Es pot derivar aquest resultat a partir de la fórmula de la corba de Lorenz, que s'introdueix més endavant. A més, s'ha demostrat que les següents afirmacions[28] són matemàticament equivalents:
Això no només aplica als ingressos, sinó també a la riquesa i a tot allò que es pugui modelar amb aquesta distribució.
Aquí s'exclouen les distribucions en què 0 < α ≤ 1, que, com s'ha notat més amunt, tenen una esperança d'infinit i, per tant, no poden modelar raonablement les distribucions d'ingressos.
De vegades s'ofereix la llei de Price com a propietat o com una distribució similar a la de Pareto. Tanmateix, la llei només aplica en el cas . Noti's que en aquest cas, la quantitat total i l'esperança de la riquesa no estan definides, i la regla només aplica asimptòticament en mostres aleatòries. El principi estès de Pareto, mencionat més amunt, és una regla molt més general.
Sovint s'utilitza la corba de Lorenz per caracteritzar els ingreessos i la distribució de la riquesa. En tota distribució, s'escriu la corba de Lorenz L(F) en termes de la funció de distribució f o de la funció de distribució acumulada Fcom
on x(F) és l'inversa de la funció de distribució acumulada. Per la distribució de Pareto,
i la corba de Lorenz es calcula com
Per el denominador és infinit i, per tant, L=0. En la gràfica de la dreta es mostren exemples de la corba de Lorenz per unes quantes distribucions de Pareto.
Segons Oxfam (2016) les 62 persones més riques tenen tanta riquesa com la meitat més pobra de la població mundial.[29] Es pot estimar l'índex de Pareto que hi hauria en aquesta situació. Sigui ε igual a es té:
o
La solució és que α és igual a 1.15, i al voltant del 9% de la riquesa és propietat de cadascun dels dos grups. Però de fet, el 69% de la població mundial adulta té només un 3% de la riquesa.[30]
El coeficient de Gini mesura la desviació de la corba de Lorenz de la línia d'equidistribució que és una línea que connecta [0, 0] i [1, 1], que es mostra de color negre (α = ∞) en la gràfica de la corba de Lorenz de la dreta. En particular, el coeficient de Gini és dues vegades l'àrea entre la corba de Lorenz i la línea d'equidistribució. El coeficient de Gini de la distribució de Pareto és doncs calculat (per ) com
(vegeu Aaberge 2005).
Es poden generar mostres aleatòries utilitzant el mètode de la transformada inversa. Donada una variable aleatòria U que segueix una distribució uniforme en l'interval unitari (0, 1], la variable T, definida com
segueix una distribució de Pareto.[31] Si U està uniformement distribuïda en l'interval [0, 1), es pot intercanviar per (1 − U).
Seamless Wikipedia browsing. On steroids.