Uitbreiding naar categorische variabelen met meerdere niveaus
Als minstens 1 van de discrete variabelen en meer dan 2 mogelijke
waarden aanneemt, kan men nagaan of de kansverdeling van afhangt van de -waarde in de populatie door een veralgemening van de -toets
uit vorige sectie. Ook hier toetst men de nulhypothese en zijn
onafhankelijk, ten opzichte van het tweezijdig alternatief en
zijn niet onafhankelijk. Als de variabele voorgesteld op de rijen
mogelijke uitkomsten heeft en die op de kolommen mogelijke uitkomsten,
dan noemt men de kruistabel die tegenover uitzet, een
tabel.
Zoals voorheen vergelijkt men het aantal geobserveerde waarden in cel , genoteerd, met het aantal verwachte waarden onder de nulhypothese
in deze cel, genoemd, op basis van de marginale totalen. Net als
voorheen is het product van het -de rijtotaal met het -de
kolomtotaal gedeeld door het algemene totaal. De toetsingsgrootheid is nu
Men kan aantonen dat ze een Chi-kwadraat verdeling volgt met vrijheidsgraden als de nulhypothese waar is. De continuïteitscorrectie wordt meestal niet gebruikt bij meer dan 2 rijen of
kolommen.
We voeren nu de test uit voor het BRCA voorbeeld waarbij we nu gebruik maken van alle varianten
Om te onderzoeken of het BRCA1 gen geassocieerd is met borstkanker, berekenen we de Pearson chi-kwadraat toets voor de case-controle studie uit Tabel 13. De toetsingsgrootheid bedraagt nu 2.055 en volgt een Chi-kwadraat verdeling met 2 vrijheidsgraden. De kans dat zo’n - verdeelde toevalsveranderlijke extremer is dan 2.055, bedraagt 36%.
Op het 5% significantieniveau kunnen we dus niet besluiten dat het BRCA1 gen geassocieerd is met borstkanker.
De Pearson test wordt gebruikt om te toetsen of er een associatie is tussen 2 kwalitatieve (mogelijks niet binaire) variabelen, i.h.b. om te toetsen of de verdeling[58] van de ene kwalitatieve variabele verschilt alnaargelang de waarde van de andere kwalitatieve variabele. Ze vereist dat de 2 metingen voor de 2 kwalitatieve variabelen telkens bekomen werden van onafhankelijke subjecten, en dat minstens 80% van de cellen in de overeenkomstige kruistabel een verwacht aantal observaties van minstens 5 bezitten. Op die manier vormt ze het analogon van de one-way variantie-analyse voor kwalitatieve i.p.v. continue variabelen.