Zipfs lag
empiriskt visad statistisk lag / From Wikipedia, the free encyclopedia
Zipfs lag (uttalas zɪfs) är en empiriskt visad statistisk lag som säger att inom många tillämpningsområden inom såväl samhällsvetenskap som naturvetenskap gäller att vid stora mängder diskreta data är rankingfrekvensen (förekomsten av det vanligaste värdet, näst vanligaste värdet, osv) approximativt Zipf-fördelade. Lagen är bland annat giltig på frekvensen av ord i ett språk eller en längre text, på städers folkmängd i ett land, på massmediers popularitet, på webbplatsers besöksstatistik, på inkomststorlekar, företagsstorlekar, med mera. Lagen återspeglar att det finns några få mycket vanliga ord och många ovanliga, få stora städer och många små, och så vidare.
Användning | frekvensanalys | |
---|---|---|
Uppkallad efter | George Kingsley Zipf | |
Upptäckare eller uppfinnare | George Kingsley Zipf | |
Definierande formel | ||
Används av | bibliometri, lexikografi, demografi |
Zipfs lag är uppkallad efter den amerikanske lingvisten George Kingsley Zipf(en) som föreslog lagen (Zipf 1935, 1949) för att beskriva förekomsten av olika ord i språk. Emellertid tycks JB Estoup(fr) ha lagt märke till detta mönster innan Zipf.[1][2] Fördelningen av städers folkmängd studerades av Felix Auerbach redan 1913.[3]
Zipfs ursprungliga formulering av lagen säger att frekvensen av, eller sannolikheten för, ett visst ord eller värde är omvänt proportionell mot dess ranking. Det näst vanligaste värdet inträffar således hälften så ofta som det vanligaste värdet och så vidare. Idag är emellertid lagen generaliserad så att frekvensrankingen är upphöjd med en exponent s. Exponentens värde bestäms empiriskt och skiljer mellan olika tillämpningsområden. Lagens ursprungliga formulering motsvaras av s=1, medan s=0 motsvarar likformig sannolikhetsfördelning. Exempelvis vid städers befolkningstal har god matchning visats med s = 1,07. Vid webbplatsers besöksstatistik är s ungefär 2.
Zipffördelningen tillhör en familj av besläktade diskreta potenslagsfördelningar, som samtliga karaktäriseras av skalinvarianta egenskaper.