De test werd gelijktijdig ontwikkeld door Wilcoxon en door Mann en
Whitney. Om deze reden wordt de test dikwijls de
Wilcoxon-Mann-Whitney (WMW) test genoemd. Soms wordt de test ook de
Wilcoxon rank sum test of de Mann-Whitney U test genoemd.
De test werd ontwikkeld voor het testen van de nulhypothese (4)
tegenover het alternatief (of de eenzijdige
versies). Eerst wordt er een distributionele veronderstelling gemaakt:
het locatie-shift model, later relaxeren we deze aanname.
Stel dat en uitkomsten zijn uit respectievelijk de
eerste en tweede behandelingsgroep, met respectievelijke verdelingen
en . Het locatie-shift model geldt als er een
bestaat waarvoor geldt
Locatie-shift betekent dat en dezelfde vorm hebben, maar
ze mogen over verschoven zijn. De uit de definitie
heeft als interpretatie: . Door locatie-shift
aan te nemen, zal het verwerpen van de conclusie
impliceren.
De klassieke two-sample -teststatistiek is gebouwd rond het
verschil in steekproefgemiddelden . We beschouwen
nu ook het verschil in steekproefgemiddelden, maar niet op basis van de
oorspronkelijke uitkomsten, maar op basis van de rank-getransformeerde
uitkomsten. De ranks zijn toegekend op basis van de gepoolde observaties
(i.e. na samenvoegen van de uitkomsten uit groep 1 en groep 2); dus
is de rank van uitkomst in de gepoolde
steekproef. Beschouw de teststatistiek
De statistiek vergelijkt dus de gemiddelde rank in groep 1 met de
gemiddelde rank in groep 2.
Dit is een zinvolle teststatistiek, want
als waar is, dan verwachten we dat de gemiddelde rank in de
eerste groep ongeveer gelijk is aan de gemiddelde rank in de tweede
groep en dus verwachten we dat dicht bij nul ligt.
als waar is dan verwachten we dat de gemiddelde ranks zullen
verschillen en dus dat niet dicht bij nul zal liggen.
Er kan echter worden aangetoond dat het volstaat het om
als teststatistiek te beschouwen. is de som van de ranks van de
observaties uit de eerste behandelingsgroep; dit verklaart de naam rank
sum test.
en bevatten immers dezelfde informatie en zijn
gerelateerd via
Nu we weten dat (en ) een goede teststatistiek is, kan de
permutatietestmethode toegepast worden om de exacte
permutatienuldistributie op te stellen en de test uit te voeren. Voor
een gegeven steekproefgrootte , en veronderstellend dat er geen
ties zijn, nemen de rank-getransformeerde uitkomsten altijd de waarden
aan. Voor gegeven groepsgroottes en ,
zal de permutatienuldistributie dan ook steeds dezelfde zijn! In de
vorige eeuw (tot ongeveer de jaren 1980) werd dit als een groot voordeel
beschouwd omdat de nuldistributies voor gegeven en
getabuleerd konden worden (belangrijke kwantielen werden als tabellen in
boeken gepubliceerd zodat ze konden gebruikt worden voor het bepalen van
kritische waarden en -waarden), waardoor de gebruiker geen nood had
aan zware rekencapaciteit. Vandaag de dag speelt dit argument niet meer
mee, maar toch blijven de rank testen erg populair, maar dan wel om
andere, heel belangrijke redenen.
Niettegenstaande en perfect als teststatistieken
gebruikt kunnen worden, wordt dikwijls gewerkt met de gestandaardiseerde
teststatistiek
met en
de verwachtingswaarde en variantie
van onder . Dit zijn dus het gemiddelde en variantie van
de permutatienuldistributie van .
Onder geldt
Verder kan men onder en als
opgaat aantonen dat,
Asymptotisch volgt de gestandaardiseerde teststatistiek dus een
standaardnormaal verdeling.
We illustreren de WMW test aan de hand van de R functie wilcox.test.
wilcox.test(cholest~group,data=chol)
##
## Wilcoxon rank sum exact test
##
## data: cholest by group
## W = 24, p-value = 0.01587
## alternative hypothesis: true location shift is not equal to 0
We zien dat we op basis van de test de nulhypothese kunnen verwerpen op
het 5% significantie-niveau.
De output geeft de teststatistiek 24. In volgende lijnen
berekenen we en manueel voor de dataset.
Waar komt 24 vandaan? Dit wordt zodadelijk toegelicht.
De teststatistieken en werden voorgesteld door Wilcoxon,
maar tezelfdertijd werd een equivalente test voorgesteld door Mann en
Whitney. Hun teststatistiek wordt gegeven door
waarbij een indicator is die 1 is als de
uitdrukking waar is en 0 als dit niet het geval is. Er wordt voor elke
observatie uit de eerste groep geteld hoeveel keer zij groter of gelijk
is aan een observatie uit de tweede groep. We berekenen de Mann-Whitney
statistiek nu manueel in R.
Hieruit concluderen we (1) dat en dezelfde informatie
bevatten, (2) dat ook een rankstatistiek is en dat exacte testen
gebaseerd op en equivalent zijn.
De statistiek heeft als voordeel dat het een informatieve
interpretatie heeft. Stel een willekeurige uitkomst uit
behandelingsgroep (). Dan geldt
Intuïtief voelen we dit aan: Op basis van de steekproef kunnen we die
kans schatten door het gemiddelde te berekenen van alle indicator
waarden . We voerden
inderdaad vergelijkingen uit.
mean(u1Hlp)
## [1] 0.96
U1/(nGroups[1]*nGroups[2])
## 1
## 0.96
De kans wordt een
probabilistische index (Engels: probabilistic index) genoemd. Het
is de kans dat een uitkomst uit de eerste groep groter of gelijk is dan
een uitkomst uit de tweede groep. Als waar is, dan is
.
De gestandaardiseerde Mann-Whitney statistiek is
De R functie wilcox.test geeft niet de Wilcoxon rank sum statistiek,
maar wel de Mann-Whitney statistiek . We weten echter dat exacte
permutatietesten gebaseerd op , , of
dezelfde resultaten geven. We bekijken nogmaals de output
wTest<-wilcox.test(cholest~group,data=chol)wTest
##
## Wilcoxon rank sum exact test
##
## data: cholest by group
## W = 24, p-value = 0.01587
## alternative hypothesis: true location shift is not equal to 0
U1
## [1] 24
probInd<-wTest$statistic/prod(nGroups)probInd
## W
## 0.96
Aangezien 0.0159 besluiten we op het
significantieniveau dat de gemiddelde cholestorolconcentratie groter is
bij hartpatiënten kort na een hartaanval dan bij gezonde personen. We
nemen aan dat locatie-shift opgaat.
Nu we weten hoe berekend wordt, weten we ook meteen dat een
cholestorolwaarde van hartpatiënten met een kans van
96% groter is die van gezonde personen.
Aangezien we het locatie-shift model veronderstellen, besluiten we ook
dat de gemiddelde uitkomst uit de behandelingsgroep groter is dan de
gemiddelde uitkomst uit de placebogroep.
We zouden de veronderstelling van de locatie-shift moeten nagaan, maar
met slechts 5 observaties in elke behandelingsgroep is dit zinloos.
Zonder verder theorie hierover te geven, geven we nog mee dat zonder de
locatie-shift veronderstelling de conclusie in termen van de
probabilistische index correct blijft en de conclusie ook zo zou moeten
worden geformuleerd.
Dus wanneer we geen locatie-shift veronderstellen en een tweezijdige
test uitvoeren testen we eigenlijk
Conclusie Cholestorol Voorbeeld
Er is een significant verschil in de distributie van de
cholestorolconcentraties bij hartpatiënten 2 dagen na hun hartaanval en
gezonde individuen ( 0.0159). Het is meer waarschijnlijk om hogere
cholestorolconcentraties te observeren bij hartpatiënten dan bij gezonde
individuen. De puntschatting voor deze kans bedraagt 96%.