Prostaatkanker dataset

Stamey et al., 1989, bestudeerden het niveau van het prostaat specific antigen (PSA) en een aantal klinische metingen bij 97 mannen waarvan de prostaat werd verwijderd. Het doel van de studie is om de associatie van de PSA te bestuderen in functie van het tumorvolume (lcavol), het gewicht van de prostaat (lweight), leeftijd (age), de goedaardige prostaathypertrofie hoeveelheid (lbph), een indicator voor de aantasting van de zaadblaasjes (svi), capsulaire penetratie (lcp), Gleason score (gleason) die de graad van kwaadaardigheid van de kanker weergeeft (hoe hoger de score hoe minder de kankercellen op normaal prostaatweefsel lijken), en, het precentage gleason score 4/5 (pgg45), die de proportie aangeeft van de tumor die ingenomen wordt door kankerweefsel van een hoge graad. De onderzoekers die de dataset verspreidden hebben het tumorvolume, het gewicht, de goedaardige prostraat hypertrofie hoeveelheid en de capsulaire penetratie reeds log-getransformeerd.

prostate <- read_csv("https://raw.githubusercontent.com/statomics/sbc20/master/data/prostate.csv")
prostate
## # A tibble: 97 x 9
##    lcavol lweight   age   lbph svi       lcp gleason pgg45     lpsa
##     <dbl>   <dbl> <dbl>  <dbl> <chr>   <dbl>   <dbl> <chr>    <dbl>
##  1 -0.580    2.77    50 -1.39  healthy -1.39       6 healthy -0.431
##  2 -0.994    3.32    58 -1.39  healthy -1.39       6 healthy -0.163
##  3 -0.511    2.69    74 -1.39  healthy -1.39       7 20      -0.163
##  4 -1.20     3.28    58 -1.39  healthy -1.39       6 healthy -0.163
##  5  0.751    3.43    62 -1.39  healthy -1.39       6 healthy  0.372
##  6 -1.05     3.23    50 -1.39  healthy -1.39       6 healthy  0.765
##  7  0.737    3.47    64  0.615 healthy -1.39       6 healthy  0.765
##  8  0.693    3.54    58  1.54  healthy -1.39       6 healthy  0.854
##  9 -0.777    3.54    47 -1.39  healthy -1.39       6 healthy  1.05 
## 10  0.223    3.24    63 -1.39  healthy -1.39       6 healthy  1.05 
## # ... with 87 more rows
prostate$svi <- as.factor(prostate$svi)
library(GGally)
prostate %>%
  dplyr::select(-pgg45)  %>%
  ggpairs()

Figuur 60: Scatterplot matrix voor de observaties in de prostaat kanker dataset.

Figuur 60 toont de scatter matrix van de data en suggereert dat de lpsa sterk positief gecorreleerd is met het volume en svi. We zien verder dat lcp en lbph links-gecensureerd lijken te zijn. Er lijkt een ondergrens/detectielimiet te zijn voor deze metingen. Verder blijkt het merendeel van de gleason scores gelijk te zijn aan 6 of 7. We zullen de analyse in dit hoofdstuk beperken tot de associatie van lpsa met het log tumorvolume (lcavol), het log gewicht (lweight) en de aantasting van de zaadblaasjes (svi).