De samenvattingsmaten uit de vorige sectie (gemiddelde, mediaan, standaarddeviatie, …) kunnen niet zomaar toegepast worden voor de beschrijving van categorische variabelen. In deze sectie gaan we hier dieper op in, daarbij onderscheid makend tussen enerzijds gegevens die uit prospectieve studies of lukrake steekproeven afkomstig zijn, en anderzijds gegevens uit retrospectieve studies.
Een bioloog verzamelt `s nachts bladerafval op een lukrake plaats van 1
m
Armadil. | Oniscus | Totaal | |
---|---|---|---|
Klei | 14 (a) | 6 (c) | 20 (a+c) |
Kalk | 22 (b) | 46 (d) | 68 (b+d) |
Totaal | 36 (a+b) | 52 (c+d) | 88 (n) |
Einde voorbeeld
Er zijn verschillende manieren om de resultaten van deze studie te
beschrijven. De kans dat 1 van beide species houtluizen van de soort
Armadilidium is, is
Het absolute risico verschil of absolute kansverschil op een gegeven gebeurtenis (bvb. om Armadilidium aan te treffen) voor populatie T (Test, bvb. kleigrond) versus C (Controle, bvb. kalkgrond) wordt met ARV genoteerd en gedefinieerd als het verschil
tussen de kansen dat deze gebeurtenis zich voordoet in populaties T en C.
Einde definitie
Het ARV op Armadilidium tussen klei- en kalkgrond bedraagt 0.38, hetgeen suggereert dat de kans dat 1 van beide species houtluizen van de soort Armadilidium is, 38% hoger is op kleigrond dan op kalkgrond. Een absoluut kansverschil van 0 drukt uit dat de overeenkomstige kansen even groot zijn in beide populaties en dat beide populaties dus vergelijkbaar zijn in termen van de bestudeerde uitkomst.
Het absolute kansverschil zegt echter niet alles omtrent het bestudeerde
effect. Een kansverschil kan immers een grotere impact hebben
alnaargelang beide proporties
Het relatief risico op een gegeven gebeurtenis (bvb. om Armadilidium aan te treffen) voor populatie T (Test, bvb. kleigrond) versus C (Controle, bvb. kalkgrond) wordt met RR genoteerd en gedefinieerd als het quotiënt
van de kansen dat deze gebeurtenis zich voordoet in populaties T en C.
Einde definitie
In de studie naar houtluizen bedraagt dit
Een nadeel van het relatief risico is dat ze, in tegenstelling tot het
absolute risico verschil, niet goed duidelijk maakt hoeveel meer
individuen de bestudeerde uitkomst ondervinden in de ene dan in de
andere populatie. Bijvoorbeeld, zelfs wetende dat het relatief risico op
Armidilidium in klei-versus kalkgrond 2.2 bedraagt, is het niet mogelijk
om uit te maken hoeveel meer houtluizen van de soort Armidilidium zich
manifesteren op kleigrond. Als de kans om Armidilidium aan te treffen
i.p.v. Oniscus 0.1% bedraagt op kalkgrond, dan verwacht men dat er per
10000 houtluizen (van de soort Armidilidium of Oniscus) er 10 van de
soort Armidilidium zullen zijn op kalkgrond en 22 op kleigrond, wat
neerkomt op een verwaarloosbaar verschil van 12. Als de kans om
Armidilidium aan te treffen i.p.v. Oniscus 40% bedraagt op kalkgrond,
dan verwacht men dat er per 10000 houtluizen (van de soort Armidilidium
of Oniscus) er 4000 van de soort Armidilidium zullen zijn op kalkgrond
en 8800 op kleigrond, wat neerkomt op een aanzienlijk verschil van 4800.
Soms rapporteert men in de plaats van het relatief risico, het
relatieve risico verschil
Merk op dat alle bovenstaande associatiematen eveneens gebruikt kunnen worden wanneer men, in tegenstelling tot wat in een prospectieve studie gebeurt, een volledig lukrake groep proefpersonen selecteert zonder vast te leggen hoeveel van hen al dan niet blootgesteld zijn.
Beschouw de case-controle studie uit Voorbeeld
18, waarvan de gegevens samengevat zijn in
Tabel 9. Omdat men in zo’n design op zoek gaat
naar
Genotype | Controles | Cases | Totaal |
---|---|---|---|
Pro/Pro | 266 (a) | 342 (d) | 608 (a+d) |
Pro/Leu | 250 (b) | 369 (e) | 619 (b+e) |
Leu/Leu | 56 (c) | 89 (f) | 145 (c+f) |
Totaal | 572 (a+b+c) | 800 (d+e+f) | 1372 (n) |
Wel heeft men informatie over de kans om het allel Leu/Leu aan te
treffen bij cases,
De odds op een gebeurtenis wordt gedefinieerd als
waarbij
Einde definitie
De odds is dus een transformatie van het risico, met onder andere de volgende eigenschappen:
de odds neemt waarden aan tussen nul en oneindig.
de odds is gelijk aan 1 als en slechts als de kans zelf gelijk is aan 1/2.
de odds neemt toe als de kans toeneemt.
Het gebruik van odds is populair onder gokkers omdat het uitdrukt
hoeveel waarschijnlijker het is om te winnen dan om te verliezen. Een
odds op winnen gelijk aan 1 drukt bijvoorbeeld uit dat het even
waarschijnlijk is om te winnen dan om te verliezen. Een odds op winnen
gelijk aan 0.9 drukt uit men per 10 verliesbeurten, 9 keer verwacht te
winnen. In de genetische associatiestudie uit Voorbeeld
18 is de odds op allel Leu/Leu bij cases
gelijk aan
De odds ratio op een gegeven gebeurtenis (bvb. borstkanker) voor
populatie T (bvb. vrouwen met allel Leu/Leu) versus C (bvb. vrouwen
zonder allel Leu/Leu) wordt met OR genoteerd en gedefinieerd als het
quotiënt
Einde definitie
Op basis van de gegevens in Tabel 9 kan de odds ratio op blootstelling voor cases versus controles geschat worden d.m.v. het kruisproduct
In het bijzonder vinden we dat de odds op allelcombinatie Leu/Leu voor
vrouwen met versus zonder borstkanker gelijk is aan
Was de bovenstaande studie echter een volledig lukrake steekproef geweest (waarbij het aantal cases en controles niet per design werden vastgelegd), dan konden we daar ook de odds ratio op borstkanker berekenen voor mensen met versus zonder het allel Leu/leu. We zouden dan vaststellen dat dit gelijk is aan
en bijgevolg dezelfde waarde aanneemt. Dat is omdat de odds ratio een
symmetrische associatiemaat is zodat de odds ratio op `case’ voor
blootgestelden versus niet-blootgestelden steeds gelijk is aan de odds
op blootstelling voor cases versus controles. Hieruit volgt dat voor het
schatten van de odds ratio het er niet toe doet of we prospectief werken
zoals in een typische cohort studie, of retrospectief zoals in een
typische case-controle studie. In het bijzonder kunnen we in de
genetische associatiestudie uit Voorbeeld 18
de odds op borstkanker voor vrouwen met allel Leu/leu versus zonder
berekenen als
Stel nu dat we met
Wetende dat het risico op borstkanker laag is, mogen we op basis van de gevonden OR van 1.15 bijgevolg besluiten dat het risico (i.p.v. de odds) op borstkanker (bij benadering) 15% hoger ligt bij vrouwen met het allel Leu/Leu op het BRCA1 gen. Dit is een bijzonder nuttige eigenschap omdat (a) het relatief risico, dat niet rechtstreeks geschat kan worden in case-controle studies, gemakkelijker te interpreteren is dan de odds ratio; en (b) de odds ratio bepaalde wiskundige eigenschappen heeft die ze aantrekkelijker maakt dan een relatief risico in statistische modellen. Algemeen is de odds ratio echter steeds verder van 1 verwijderd dan het relatief risico. Wetende dat de odds ratio op borstkanker 1.15 bedraagt voor vrouwen met versus zonder de allelcombinatie Leu/Leu, kunnen we bijgevolg meer nauwkeurig besluiten dat het overeenkomstige relatief risico tussen 1 en 1.15 gelegen is (maar niettemin dicht bij 1.15).
Omdat de odds ratio moeilijker te interpreteren is dan een relatief risico en bijgevolg misleidend kan zijn, valt deze laatste steeds te verkiezen in situaties (zoals prospectieve studies) waar het mogelijk is om het relatief risico in de populatie te schatten. In sommige case-controle studies (nl. matched case-controle studies) wordt voor elke case een controle gezocht die bepaalde karakteristieken gemeenschappelijk heeft, teneinde een betere onderlinge vergelijkbaarheid te garanderen. In dat geval moet de statistische analyse (inclusief de manier om odds ratio’s te schatten) rekening houden met het feit dat de resultaten van elke case gecorreleerd of verwant zijn met de resultaten van de bijhorende controle.
Vaak wordt het begrip risico verward met het begrip rate. Een rate drukt een aantal gebeurtenissen (bvb. aantal sterfte- of ziektegevallen) uit per eenheid in de populatie in een bepaalde tijdspanne. Bijvoorbeeld, een crude mortality rate (CMR) voor een bepaald jaartal is gedefinieerd als 1000 maal het aantal sterftegevallen dat optreedt in dat jaar gedeeld door de grootte van de beschouwde populatie halfweg dat jaar. De reden dat met 1000 wordt vermenigvuldigd is dat het bijvoorbeeld makkelijker na te denken is over een CMR van 12 sterftes per 1000 in Engeland en Wales, dan over 0.012 sterftes per individu. Indien een specifieke leeftijdsgroep wordt gekozen, verkrijgt men de leeftijdsspecifieke mortality rate als 1000 maal het aantal sterftegevallen dat optreedt in een bepaald jaar en bepaalde leeftijdsgroep gedeeld door de grootte van de beschouwde populatie in die leeftijdsklasse halfweg dat jaar. In tegenstelling tot de incidentie, is de prevalentie geen rate omdat ze niet een aantal gebeurtenissen uitdrukt over een zekere tijdspanne.