Uitbreiding naar categorische variabelen met meerdere niveaus

Als minstens 1 van de discrete variabelen X en Y meer dan 2 mogelijke waarden aanneemt, kan men nagaan of de kansverdeling van Y afhangt van de X-waarde in de populatie door een veralgemening van de χ2-toets uit vorige sectie. Ook hier toetst men de nulhypothese H0:X en Y zijn onafhankelijk, ten opzichte van het tweezijdig alternatief HA:X en Y zijn niet onafhankelijk. Als de variabele voorgesteld op de rijen r mogelijke uitkomsten heeft en die op de kolommen c mogelijke uitkomsten, dan noemt men de kruistabel die X tegenover Y uitzet, een r×c tabel.

Zoals voorheen vergelijkt men het aantal geobserveerde waarden in cel (i,j), Oij genoteerd, met het aantal verwachte waarden onder de nulhypothese in deze cel, Eij genoemd, op basis van de marginale totalen. Net als voorheen is Eij het product van het i-de rijtotaal met het j-de kolomtotaal gedeeld door het algemene totaal. De toetsingsgrootheid is nu

X2=ij(OijEij)2Eij

Men kan aantonen dat ze een Chi-kwadraat verdeling volgt met (r1)×(c1) vrijheidsgraden als de nulhypothese waar is. De continuïteitscorrectie wordt meestal niet gebruikt bij meer dan 2 rijen of kolommen.

We voeren nu de test uit voor het BRCA voorbeeld waarbij we nu gebruik maken van alle varianten

chisq.test(brcaTab)
## 
##  Pearson's Chi-squared test
## 
## data:  brcaTab
## X-squared = 2.0551, df = 2, p-value = 0.3579

Om te onderzoeken of het BRCA1 gen geassocieerd is met borstkanker, berekenen we de Pearson chi-kwadraat toets voor de case-controle studie uit Tabel 13. De toetsingsgrootheid bedraagt nu 2.055 en volgt een Chi-kwadraat verdeling met 2 vrijheidsgraden. De kans dat zo’n χ2- verdeelde toevalsveranderlijke extremer is dan 2.055, bedraagt 36%. Op het 5% significantieniveau kunnen we dus niet besluiten dat het BRCA1 gen geassocieerd is met borstkanker.

De Pearson χ2 test wordt gebruikt om te toetsen of er een associatie is tussen 2 kwalitatieve (mogelijks niet binaire) variabelen, i.h.b. om te toetsen of de verdeling[58] van de ene kwalitatieve variabele verschilt alnaargelang de waarde van de andere kwalitatieve variabele. Ze vereist dat de 2 metingen voor de 2 kwalitatieve variabelen telkens bekomen werden van onafhankelijke subjecten, en dat minstens 80% van de cellen in de overeenkomstige kruistabel een verwacht aantal observaties van minstens 5 bezitten. Op die manier vormt ze het analogon van de one-way variantie-analyse voor kwalitatieve i.p.v. continue variabelen.