Basisvaardigheden in R: Grafieken: de basis
Spreidingsdiagram en stripdiagram
Een spreidingsdiagram Een spreidingsdiagram (scatter plot) is een veelgebruikte gegevensvisualisatietool die wordt gebruikt om de relatie tussen twee numerieke variabelen weer te geven. In het onderstaande voorbeeld genereren we willekeurige gegevens op de volgende manier:
- We genereren 20 willekeurige gehele getallen van 0 tot 30, waarbij duplicaten zijn toegestaan.
- Voor elk gegenereerd getal in de eerste stap vermenigvuldigen we het met 2, voegen we 6 toe en voegen we tot slot wat Gaussische ruis toe.
Vervolgens kan een spreidingsdiagram van de gegevens worden gemaakt met behulp van de functie plot()
. In het voorbeeld voegen we de grafiek van de functie \(x\mapsto 2x+6\) toe om de verbinding tussen de dataset en de lijn te visualiseren.
R script
set.seed(123)
x <- sample(0:30, 20, replace = TRUE)
y <- 2*x + 6 + rnorm(length(x), mean = 0, sd = 6)
# maak een spreidngsdiagram
plot(x, y, pch = 16, col = "turquoise")
# voeg een lijn toe
curve(2*x+6, add = TRUE, col = "blue", lwd = 3)
Spreidingsdiagram met een toegevoegde lijn
Een stripdiagram bij een formula Een stripdiagram (strip chart) is een eenvoudige en effectieve manier om numerieke gegevens weer te geven als een functie van een categorische variabele. Het belangrijkste doel van een stripdiagram is om de verdeling van gegevenspunten te laten zien en patronen te identificeren. Hieronder plotten we de geregistreerde temperaturen in New York gedurende de maanden waarin gegevens werden verzameld en in de in R ingebouwde "airquality" dataset van het "datasets" pakket zijn geplaatst.
R script
stripchart(Temp ~ Month, data = airquality,
main = "Verschillend stripdiagram voor elke maand",
xlab = "Maand", ylab = "Temperatuur",
group.names=c("Mei","Juni","Juli",
"Augustus","September"),
col = "red", pch = 16,
vertical = TRUE,
method = "jitter"
)
Met het argument method
kunnen we de manier specificeren waarop samenvallende punten worden geplot, zoals gestapeld (stacked
) of verspreid (jitter
). Hiermee kunnen we de visualisatie van punten verbeteren, vooral wanneer meerdere gegevenspunten dezelfde waarden hebben en anders op elkaar zouden worden getekend. Bijvoorbeeld, door method = "jitter"
te gebruiken, worden de punten een beetje verplaatst om ze beter zichtbaar te maken. Dit helpt om de verdeling van de gegevens te zien en eventuele overlappende punten duidelijk weer te geven.
Stripdiagram