Chapter 9 Non-parametrische toetsen
Non-parametrische toetsen, of verdelingsvrije toetsen, zijn toetsen waarbij minder strenge assumpties worden gedaan met betrekking tot de verdeling en het meetniveau van de variabelen dan bij hun parametrische tegenhangers. In plaats van gemiddelden te vergelijken worden hier hele verdelingen vergeleken. Non-parametrische toetsen zijn vooral nuttig als men niet geïnteresseerd is in vergelijking van gemiddelden. Ze kunnen als alternatief worden gebruikt voor parametrische procedures wanneer niet voldaan is aan de aannames van deze procedures.
9.1 Mann-Whitneytoets
Voor onafhankelijke steekproeven uit twee populaties kunnen de Mann-Whitneytoetsuitgevoerd worden. Hiermee wordt getoetst of de verdeling in de populaties hetzelfde zijn. Als de verdelingen gelijk van vorm zijn komt dit neer op het toetsen van gelijkheid van medianen.
De Mann-Whitneytoets (ook wel bekend als de rangsomtoets of de Wilcoxon-MannWhitneytoets) is gebaseerd op rangscores en de te toetsen variabele moet minimaal een ordinaal meetniveau hebben. We zullen weer een eigen dataframe maken voor een voorbeeld van de Mann-Whitneytoets. Het dataframe geeft van respondenten uit hetzelfde dorp een overzicht hun gewicht en of ze een hartaanval hebben gehad (0= nee, 1=ja). LET OP: als je een dataset hebt met de juiste soort data, is het niet nodig om eerst een eigen dataframe te maken!!
Hartaanval <- c(1, 0, 0, 0, 1, 1, 0, 1, 0, 1)
Gewicht <- c(100, 80, 75, 70, 115, 90, 85, 95, 90, 100)
df3 <- data.frame(ID = c(1:10), Hartaanval, Gewicht)
df3
## ID Hartaanval Gewicht
## 1 1 1 100
## 2 2 0 80
## 3 3 0 75
## 4 4 0 70
## 5 5 1 115
## 6 6 1 90
## 7 7 0 85
## 8 8 1 95
## 9 9 0 90
## 10 10 1 100
Nu we het dataframe hebben, kunnen we de Mann-Whitney toets doen. Dit gaat met de code wilcox.test()
.
##
## Wilcoxon rank sum test with continuity correction
##
## data: Gewicht by Hartaanval
## W = 0.5, p-value = 0.01565
## alternative hypothesis: true location shift is not equal to 0
We zien dat de p-waarde lager is dan 0.05, dus dat het gewicht in de ene groep significant hoger is dan in de andere groep. Het is nu alleen nog niet duidelijk in welke groep het gewicht hoger is, daarom is het handig om ook nog de gemiddelden in de groepen uit te rekenen.
## # A tibble: 2 × 2
## Hartaanval Gem_gew
## <dbl> <dbl>
## 1 0 80
## 2 1 100
We zien nu dat respondenten die een hartaanval hebben gehad gemiddeld een hoger gewicht hebben. De mann-whitney toets toont aan dat dit verschil significant is.