grafische weergave van de vijf-getallensamenvatting Van Wikipedia, de vrije encyclopedie
In de beschrijvende statistiek is een boxplot, snorrendoos, doosdiagram of kader-met-staafdiagram een grafische weergave van de vijf-getallensamenvatting. Deze vijf-getallensamenvatting bestaat uit het minimum, het eerste kwartiel, de mediaan (of tweede kwartiel), het derde kwartiel en het maximum van de waargenomen data. Een boxplot is daarmee een weliswaar sterk vereenvoudigde, maar zeer bruikbare, voorstelling van de verdeling van de data. De boxplot is in 1977 geïntroduceerd door de wiskundige John Tukey.
Vaak worden in een boxplot eventuele uitschieters weergegeven en soms ook het rekenkundig gemiddelde.
Het voorbeeld toont een eenvoudige tekstversie van een boxplot.
+-----+-+ x o |-------| * | |---| +-----+-+ +---+---+---+---+---+---+---+---+---+---+---+-- Getallenlijn 0 1 2 3 4 5 6 7 8 9 10 11
Uit deze boxplot lezen we (bij benadering) af:
De horizontale lijnen (de "whiskers") strekken zich uit van de onder- resp. bovengrens van de box tot maximaal 1,5 keer de breedte van de box (de interkwartielafstand). De whiskers eindigen in een waargenomen waarde. Een afstand van drie keer de boxbreedte (= 3xIKA) vanaf de box is de grens tussen zwakke en extreme uitschieters.
Er zijn echter alternatieve implementaties van dit laatste detail van een boxplot. Zo kiezen verschillende softwarepakketten ervoor om de whiskers te verlengen tot het 5e en 95ste percentiel. Deze benaderingen stroken niet met John Tukeys definitie die de nadruk legt op de mediaan. Ervoor kiezen om de lengte vast te leggen op het 5e en 95ste percentiel, brengt met zich mee dat er in iedere dataset met meer dan 10 waarden uitschieters zullen voorkomen, ongeacht de vorm van de verdeling. Daarom wordt meestal standaard John Tukeys methode, zoals hierboven beschreven, gebruikt.
Seamless Wikipedia browsing. On steroids.