Basisvaardigheden in R: Grafieken: de basis
Box-and-whisker diagram
In R kunnen box-and-whisker plots van opgegeven (gegroepeerde) waarden worden gemaakt met behulp van de functie boxplot()
. Er zijn twee soorten gebruik: Het eerste argument is
- een vector van numerieke waarden;
- een formule met de vorm
y ~ x
waarbijy
een numerieke vector is die gegroepeerd is volgens de waarden vanx
.
Telkens wanneer je een tilde ~
in R ziet, betreft het een formule. In de twee onderstaande voorbeelden maken we opnieuw gebruik van de in R ingebouwde luchtkwaliteit-dataset. We creëren:
- een box-and-whisker plot van de gemeten ozonwaarden in New York.;
- vijf box-and-whisker plots voor ozonwaarden per maand.
Box-and-whisker diagram van een vector met numerieke waarden
R script
boxplot(airquality$Ozone,
xlab = "Ozon", ylab = "ppb (parts per billion)")
Het box-and-whisker diagram toont de mediaan, het 25e en 75e percentiel van de gegevens (de "box"), evenals +/- 1,5 keer de interkwartielafstand (IQR) van de gegevens (de "whiskers"). Eventuele gegevenspunten die buiten 1,5 keer de IQR van de gegevens vallen, worden apart aangegeven met cirkels als uitschieters.
Box-and-whisker diagram
Meerdere box-and-whisker diagram bij een formule
R script
boxplot(Ozone ~ Month, data = airquality,
names = c("Mei", "Juni", "Juli",
"Augustus", "September"),
xlab = "Maand", ylab = "Ozonniveau (ppb)"
)
In dit voorbeeld laten de maandelijkse box-and-whisker diagrammen enkele interessante kenmerken zien. Ten eerste zijn de ozonniveaus doorgaans het hoogst in juli en augustus. Ten tweede is de variabiliteit van het ozonniveau ook het grootst in juli en augustus. Terzijde: dit fenomeen waarbij het gemiddelde en de variantie positief met elkaar samenhangen, is gebruikelijk bij milieugegevens.
Box-and-whisker diagrammen