Ongepaarde gegevens

We beschouwen hier opnieuw Voorbeeld 18. Het is belangrijk om dit voorbeeld eerst grondig door te nemen alsook de Sectie rond data exploratie van categorische variabelen (Sectie 4.5).

Deze genetische associatiestudie was erop gericht om na te gaan of polymorfismen in het BRCA1 gen geassocieerd is met borstkanker. Het was een retrospectieve case-controle studie die 800 borstkankercases en 572 controles omvatte. Een R object met de data is opgeslagen in de file brca.rda in de dataset folder.

brca <- read_csv("https://raw.githubusercontent.com/statOmics/sbc20/master/data/brca.csv")
head(brca)
## # A tibble: 6 x 3
##   cancer  variant variant2
##   <chr>   <chr>   <chr>   
## 1 control pro/pro other   
## 2 control pro/pro other   
## 3 control pro/pro other   
## 4 control pro/pro other   
## 5 control pro/pro other   
## 6 control pro/pro other
summary(brca)
##     cancer            variant            variant2        
##  Length:1372        Length:1372        Length:1372       
##  Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character

De dataset bevat 3 categorische variabelen: de ziekte status (factor cancer: controle vs case), brca variant (variant: wild type Pro/Pro, enkele mutatie Pro/Leu, dubbele mutatie Leu/Leu) en een factor of men de dubbele Leu/Leu mutatie bevat of niet (variant2).

Een kruistabel kan in R verkregen worden door

brcaTab <- table(brca$variant,brca$cancer)
brcaTab
##          
##           case control
##   leu/leu   89      56
##   pro/leu  369     250
##   pro/pro  342     266

Informatie omtrent het BRCA1-polymorfisme werd bekomen via DNA-analyse en staat opnieuw getabuleerd in Tabel 13.

Tabel 13: Kruistabel van borstkanker-status versus BRCA1-allel.
Genotype Controles Cases Totaal
Pro/Pro 266 (a) 342 (d) 608 (a+d)
Pro/Leu 250 (b) 369 (e) 619 (b+e)
Leu/Leu 56 (c) 89 (f) 145 (c+f)
Totaal 572 (a+b+c) 800 (d+e+f) 1372 (n)