We beschouwen hier opnieuw Voorbeeld 18. Het is belangrijk om dit voorbeeld eerst grondig door te nemen alsook de Sectie rond data exploratie van categorische variabelen (Sectie 4.5).
Deze genetische associatiestudie was erop gericht om na te gaan of
polymorfismen in het BRCA1 gen geassocieerd is met borstkanker. Het was
een retrospectieve case-controle studie die 800 borstkankercases en 572
controles omvatte. Een R object met de data is opgeslagen in de file
brca.rda
in de dataset folder.
brca <- read_csv("https://raw.githubusercontent.com/statOmics/sbc20/master/data/brca.csv")
head(brca)
## # A tibble: 6 x 3
## cancer variant variant2
## <chr> <chr> <chr>
## 1 control pro/pro other
## 2 control pro/pro other
## 3 control pro/pro other
## 4 control pro/pro other
## 5 control pro/pro other
## 6 control pro/pro other
summary(brca)
## cancer variant variant2
## Length:1372 Length:1372 Length:1372
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
De dataset bevat 3 categorische variabelen: de ziekte status (factor cancer: controle vs case), brca variant (variant: wild type Pro/Pro, enkele mutatie Pro/Leu, dubbele mutatie Leu/Leu) en een factor of men de dubbele Leu/Leu mutatie bevat of niet (variant2).
Een kruistabel kan in R verkregen worden door
brcaTab <- table(brca$variant,brca$cancer)
brcaTab
##
## case control
## leu/leu 89 56
## pro/leu 369 250
## pro/pro 342 266
Informatie omtrent het BRCA1-polymorfisme werd bekomen via DNA-analyse en staat opnieuw getabuleerd in Tabel 13.
Genotype | Controles | Cases | Totaal |
---|---|---|---|
Pro/Pro | 266 (a) | 342 (d) | 608 (a+d) |
Pro/Leu | 250 (b) | 369 (e) | 619 (b+e) |
Leu/Leu | 56 (c) | 89 (f) | 145 (c+f) |
Totaal | 572 (a+b+c) | 800 (d+e+f) | 1372 (n) |