--- title: 'Breastcancer Gene Expression Study: KPNA2 gene' output: html_document --- ## Achtergrond Histologische classificatie bij borstkanker biedt klinisch belangrijke prognostische informatie. Tumoren van histologische klasse 1 hebben hun celdifferentiatie nog grotendeels behouden en groeien daardoor trager met over het algemeen een kleiner risico op uitzaaiingen. Histologische klasse 3 geeft daarentegen aan dat de tumor gededifferentieerd is. Zulke tumoren zijn dikwijls kwaadaardig en hebben een groter risico op uitzaaiingen. Onderzoekers hebben onderzocht of de histologische classificatie geassocieerd was met genexpressieprofielen van borstkanker en of dergelijke profielen zouden kunnen worden gebruikt om de histologische classificatie te verbeteren. In deze tutorial zullen we de associatie tussen histologische classificatie en de expressie van het *KPNA2*-gen (waarvan bekend is dat het geassocieerd is met een slechte borstkankerprognose) beoordelen. De patiënten verschillen echter niet alleen in de histologische classificatie, maar ook in hun lymfeklierstatus. De lymfeklieren van de patiënten werden immers ofwel niet beïnvloed (0), ofwel chirugisch verwijderd (1). ## Libraries inladen ```{r} library(dplyr) library(ggplot2) library(car) library(multcomp) ``` ## Importeer van de kpna2-dataset ```{r} kpna2 <- read.table("https://raw.githubusercontent.com/statOmics/statistiekBasisCursusData/master/practicum8/kpna2.txt",header=TRUE) head(kpna2) nrow(kpna2) ``` ## Transformatie We transformeren de variabelen `grade` (histologische classificatie) en `node` (lymfeklierstatus) naar factorvariabelen. ```{r} kpna2 <- kpna2 %>% mutate(grade = as.factor(grade),node = as.factor(node)) ``` ## Data-exploratie Histologische classificatie en lymfeklierstatus kunnen beide een effect hebben op het *KPNA2*-gen. Bovendien is het ook mogelijk dat het effect van de histologische classificatie verandert afhankelijk van de lymfeklierstatus. Daarom plotten we de genexpressie voor elke "classificatie x lymfeklierstatus" ("grade x node")-combinatie. Hiervoor kunnen we de `interaction`-functie gebruiken. ```{r} boxplot <- kpna2 %>% ggplot( aes(x = interaction(grade, node), y = gene, col = grade) ) + geom_boxplot(outlier.shape = NA) + geom_jitter() + theme_bw() + theme(legend.position = "none") boxplot ``` De plot suggereert: - een effect van de histologische classificatie (grade) - een effect van de lymfeklierstatus (node) - de differentiële expressie geassocieerd met histologische classificatie lijkt te verschillen afhankelijk van de lymfeklierstatus (interactie) (effect histologische klasse lijkt groter bij lymfeklierstatus 0 dan bij lymfeklierstatus 1) # Vraag 1: Opstellen regressiemodel Histologische classificatie en lymfeklierstatus kunnen een effect hebben op het *KPNA2*-gen. Bovendien is het ook mogelijk dat de differentiële expressie als gevolg van histologische classificatie anders is bij patiënten met niet-aangetaste lymfeklieren en patiënten waarvoor de lymfeklieren moesten worden verwijderd. Daarom zullen we de genexpressie moeten modelleren door gebruik te maken van hoofdeffecten voor histologische classificatie (grade), lymfeklierstatus (node) en een "classificatie x lymfeklierstatus" ("grade x node")-interactie. Stel dit model op en sla het op in `fit`. Geef eveneens een summary van dit model en sla het op in `summary`. ```{r} # Model met hoofdeffecten voor histologische classificatie (node), lymfeklierstatus (node) en grade x node-interactie fit <- lm(..., data = ...) summary <- summary(...) summary ``` # Vraag 2: Voorwaarden regressiemodel Ga aan de hand van de gepaste plots de voorwaarden voor het regressiemodel na. ```{r} ... ``` # Vraag 3: Voorwaarden regressiemodel (meerkeuzevraag) Welke uitspraak over de voorwaarden (lineariteit, normaliteit, homoscedasticiteit) is correct? 1. Alle voorwaarden zijn voldaan. 2. Aan de voorwaarden van lineariteit en normaliteit is perfect voldaan, maar de variantie in genintensiteit lijkt toe te nemen met het gemiddelde. 3. Aan de voorwaarden van homoscedasticiteit en lineariteit is perfect voldaan, maar de normaliteit is duidelijk niet voldaan. 4. Aan de voorwaarden van lineariteit is voldaan, maar de variantie in genintensiteit lijkt toe te nemen met het gemiddelde en ook lijken de residuen niet normaal verdeeld. # Vraag 4: Voorwaarden regressiemodel (conclusie) De variantie in genintensiteit lijkt toe te nemen met het gemiddelde. Dit konden we zowel zien op de eerste plot als op de derde plot. De QQ-plot van de residuen vertoont bovendien zowel in de linker- als rechterstaart afwijkingen van normaliteit of enkele outliers. We maken ter controle een histogram en een QQ-plot van onze uitkomstvariabele, namelijk de genexpressie. ```{r} plot_hist <- kpna2 %>% ggplot(aes(x=gene)) + geom_histogram(color="black", fill="white", bins = 10) plot_hist plot_qq <- kpna2 %>% ggplot(aes(sample = gene)) + geom_qq() + # qq-punten geom_qq_line() + # qq-lijn theme_bw() plot_qq ``` De uitkomstvariabele genintensiteit heeft een korte linkse staart: hierdoor is hij scheef naar rechts verdeeld. We zagen ook dat de variantie in de data duidelijk toeneemt met de gemiddelde genintensiteit. Deze twee vaststellingen doen ons vermoeden dat een log-transformatie hier zinvol kan zijn. # Vraag 5: Log2-transformatie De plots uit de vragen 2 en 4 deden ons vermoeden dat een log-transformatie aangewezen is. We kiezen hier voor een log2-transformatie. Voeg de variabele "lgene", die de log-getransformeerde genintensiteiten bevat, toe aan de dataset. ```{r} kpna2 <- kpna2 %>% mutate(...) ``` # Vraag 6: Nieuwe model fitten Fit nu het regressiemodel met de log2-getransformeerde uitkomstvariabele `lgene` en sla dit model nu op in de variabele `fit`. Herinneer dat het model zowel de hoofdeffecten voor histologische classificatie (grade) als lymfeklierstatus (node) moet bevatten alsook een "classificatie x lymfeklierstatus" ("grade x node")-interactie. ```{r} fit <- lm(..., data = ...) ``` # Vraag 7: Voorwaarden nieuw model (leesopdracht) Wanneer we de voorwaarden voor het regressiemodel nagaan aan de hand van de `plot`-functie op het gefitte model, kunnen we vaststellen dat 1. De variantie is nu min of meer gelijk is voor elke combinatie van classificatie x lymfeklierstatus. 2. De QQ-plot van de residuen geen afwijkingen van normaliteit vertoont. We kunnen op basis van dit regressiemodel correcte interpretaties geven. ```{r} plot(fit) ``` # Vraag 8: Modelleren intensiteiten (leesopdracht) We modelleren de log$_2$-getransformeerde intensiteiten met het volgende model, waarbij 2 hoofdeffecten en 1 interactie worden opgenomen: $$ y=\beta_0+\beta_{g3}x_{g3}+\beta_{n1}x_{n1}+\beta_{g3n1}x_{g3}x_{n1}, $$ Met: - $\beta_0$ het intercept, - $\beta_{g3}$ het hoofdeffect voor klasse, - $x_{g3}$ een dummy-variabele voor histologische klasse ("grade") die 0 is voor histologische klasse 1 (onze referentieklasse) en 1 is voor histologische klasse 3, - $\beta_{n1}$ het hoofdeffect voor lymfeklierstatus, - $x_{n1}$ een dummy-variabele die 0 is voor de metingen van patiënten met niet-aangetaste lymfeklieren (referentieklasse) en 1 voor patiënten waarvoor de lymfeklieren verwijderd zijn, - en $\beta_{g3n1}$ het interactie-effect tussen klasse en lymfeklierstatus. # Vraag 9: Interpretatie en notatie (leesopdracht) Om de interpretatie van de parameters te vergemakkelijken worden $\log_2$-getransformeerde gemiddelde intensiteiten gegeven voor elke behandelingsgroep, evenals de overeenkomstige **contrasten tussen behandelingen**, die een interpretatie hebben in termen van $\log_2$-getransformeerde **fold changes (FC)**. Hierbij definiëren we de volgende symbolen: - $\log_2\hat{\mu}_{g1n0}$: de geschatte gemiddelde $\log_2$-getransformeerde genintensiteit voor patiënten met tumoren van histologische klasse 1 en niet-aangetaste lymfeklieren - $\log_2\hat{\mu}_{g3n0}$: de geschatte gemiddelde $\log_2$-getransformeerde genintensiteit voor patiënten met tumoren van histologische klasse 3 en niet-aangetaste lymfeklieren - $\log_2\hat{\mu}_{g1n1}$: de geschatte gemiddelde $\log_2$-getransformeerde genintensiteit voor patiënten met tumoren van histologische klasse 1 en verwijderde lymfeklieren - $\log_2\hat{\mu}_{g3n1}$: de geschatte gemiddelde $\log_2$-getransformeerde genintensiteit voor patiënten met tumoren van histologische klasse 3 en verwijderde lymfeklieren Met $\log_2 \widehat{FC}_{b-a}$ duiden we $\log_2$-getransformeerde fold change estimates tussen behandeling b en behandeling a aan, dus $\log_2 \widehat{FC}_{b-a}=\log_2 \hat\mu_{b}-\log_2 \hat\mu_a=\log_2 \frac{\hat\mu_{b}}{\hat\mu_{a}}$. # Vraag 10: Output regressiemodel (leesopdracht) De output uit de vorige vraag laat zien dat er een zeer significante interactie is. Het effect van de histologische classificatie op de genexpressie verschilt dus afhankelijk van de status van de lymfeknoop en vice versa. De onderzoekers zijn daarom geïnteresseerd in het bestuderen en rapporteren van de volgende vijf onderzoekshypothesen: 1. Is de *KPNA2*-expressie gemiddeld verschillend tussen klasse 3- en klasse 1-tumoren in patiënten met niet-aangetaste lymfeklieren (node = 0)? -> testen van $H_0: \log_2{FC}_{g3n0-g1n0}=0\text{ vs. }H1: \log_2{FC}_{g3n0-g1n0}\neq 0$ 2. Is de *KPNA2*-expressie gemiddeld verschillend tussen klasse 3- en klasse 1-tumoren in patiënten met verwijderde lymfeklieren (node = 1)? -> testen van $H_0: \log_2{FC}_{g3n1-g1n1}=0\text{ vs. }H1: \log_2{FC}_{g3n1-g1n1}\neq 0$ 3. Is de *KPNA2*-expressie gemiddeld verschillend in klasse 1-tumoren (grade = 1) tussen patiënten met verwijderde en patiënten met niet-aangetaste lymfeklieren? -> testen van $H_0: \log_2{FC}_{g1n1-g1n0}=0\text{ vs. }H1: \log_2{FC}_{g1n1-g1n0}\neq 0$ 4. Is de *KPNA2*-expressie gemiddeld verschillend in klasse 3-tumoren (grade = 3) tussen patiënten met verwijderde en patiënten met niet-aangetaste lymfeklieren? -> testen van $H_0: \log_2{FC}_{g3n1-g3n0}=0\text{ vs. }H1: \log_2{FC}_{g3n1-g3n0}\neq 0$ 5. Is de fold change van het *KPNA2*-gen tussen klasse 3 en klasse 1 afhankelijk van de lymfeklierstatus en omgekeerd? -> reeds getest door de interactie te beoordelen: $H_0: \log_2{FC}_{g3n0-g1n0}=\log_2{FC}_{g3n1-g1n1} \text{ vs. }H1:\log_2{FC}_{g3n0-g1n0}\neq\log_2{FC}_{g3n1-g1n1}$ # Vraag 11: Schat de regressiecoëfficiënten van dit model aan de hand van de `summary` functie. ```{r} summary <- ... summary ``` # Vraag 12: Betrouwbaarheidsinterval modelparameters Bereken de betrouwbaarheidsintervallen voor de parameters van het model en sla deze op in `CIfit`. ```{r} CIfit <- ... CIfit ``` # Vraag 13: Transformatie naar originele schaal Transformeer de parameters en het betrouwbaarheidsinterval terug naar de originele schaal. Hou hierbij rekening met het feit dat we een **log2**-transformatie hebben uitgevoerd. ```{r} # log2(x) = y <=> x = 2^y coef_transf <- ... # coefficienten terug transformeren CIfit_transf <- ... # betrouwbaarheidsinterval terug transformeren ``` # Vraag 14: Fold changes rechtstreeks uit het model (leesopdracht) Het model dat we opstelden in vraag 12 biedt onmiddellijk statistische tests voor het beoordelen van de significantie van de onderstaande fold changes. Die significantie kan rechtstreeks afgeleid worden uit de p-waarden van de schattingen van de regressiecoëfficiënten. Bovendien is dit mogelijk omdat beide variabelen (node en grade) categorische, binaire variabelen zijn. - fold changes tussen klasse 3 en klasse 1 voor patiënten met onaangetaste lymfeklieren: $\beta_{g3} = \log_2 {FC}_{g3n0-g1n0}$. Deze coëfficiënt $\beta_{g3}$ bekomen we inderdaad voor patiënten met onaangetaste lymfeklieren ($x_{n1} = 0$). Doordat we enkel kijken binnen de groep patiënten met onaangetaste lymfeklieren (dus doordat $x_{n1} = 0$), vallen de termen $\beta_{n1}x_{n1}$ en $\beta_{g3n1}x_{g3}x_{n1}$ weg uit het model. De enige term die nog overblijft is dus $\beta_{g3}x_{g3}$, dewelke het verschil geeft in genexpressie tussen patiënten van klasse 1 (genexpressie wanneer grade = 0, of dus $x_{g3} = 0$) en klasse 3 (genexpressie wanneer grade = 1, of dus $x_{g3} = 1$). Via een analoge redening kunnen ook de volgende 2 fold changes op het significantie beoordeeld worden: - fold changes tussen verwijderde en niet-aangetaste lymfeklieren voor patiënten van klasse 1: $\beta_{n1} = \log_2 {FC}_{g1n1-g1n0}$ - hoe de fold change tussen beide histologische klasse verschilt tussen patiënten met verwijderde vs. niet-aangetaste lymfeklieren: $\beta_{g3n1} = \log_2\frac{{FC}_{g3n1-g1n1}}{{FC}_{g3n0-g1n0}}$, de interactieterm. Interpretatie (in termen van geometrisch gemiddelde wegens terug-transformeren) van de modelparameters en de statistische testen in de model output: # Vraag 15: Interpretatie intercept $\beta_0$ (meerkeuzevraag) Welke interpretatie over het intercept van het regressiemodel is correct? Ter herinnering: $$ y=\beta_0+\beta_{g3}x_{g3}+\beta_{n1}x_{n1}+\beta_{g3n1}x_{g3}x_{n1}, $$ 1. Het geometrische gemiddelde van de *KPNA2*-genexpressie voor graad 1-patiënten met onaangetaste lymfeklieren is gelijk aan $2^{\hat \beta_0}$ = 178.48. 2. Het geometrische gemiddelde van de *KPNA2*-genexpressie voor graad 3-patiënten met onaangetaste lymfeklieren is gelijk aan $2^{\hat \beta_0}$ = 178.48. 3. Het geometrische gemiddelde van de *KPNA2*-genexpressie voor graad 1-patiënten met verwijderde lymfeklieren is gelijk aan $2^{\hat \beta_0}$ = 178.48. 4. Het geometrische gemiddelde van de *KPNA2*-genexpressie voor graad 3-patiënten met verwijderde lymfeklieren is gelijk aan $2^{\hat \beta_0}$ = 178.48. # Vraag 15b: Intercept (leesopdracht) Het intercept kwantificeert het geometrische gemiddelde van de genexpressie bij patiënten van histologische klasse 1 ($x_{g3} = 0$) met onaangetaste lymfeklieren ($x_{n1} = 0$). Door deze informatie in te vullen in het regressiemodel, bekomen we precies het intercept $\beta_0$. Ter illustratie: $$ y=\beta_0+\beta_{g3}\cdot 0+\beta_{n1}\cdot 0+\beta_{g3n1}\cdot 0\cdot 0 = \beta_0 $$ # Vraag 16: Interpretatie regressiecoëfficënt hoofdeffect histologische klasse ($\beta_{g3}$) (meerkeuzevraag) Welke interpratie over $\beta_{g3}$ is correct? 1. Wanneer de lymfeklieren niet aangetast zijn ($x_{n1} = 0$), is het geometrisch gemiddelde van de *KPNA2*-expressie 3.18 keer hoger voor patiënten met histologische klasse 3 dan voor patiënten met histologische klasse 1 (95% BI [2.44, 4.14]). Deze associatie tussen de genexpressie en het effect van histologische klasse bij patiënten met niet-aangetaste lymfeklieren is extreem significant (p << 0.001) op het 5%-significantieniveau. 2. Wanneer de lymfeklieren niet aangetast zijn ($x_{n1} = 0$), is het geometrisch gemiddelde van de *KPNA2*-expressie 1.58 keer hoger voor patiënten met histologische klasse 3 dan voor patiënten met histologische klasse 1 (95% BI [1.21, 2.05]). Deze associatie tussen de genexpressie en het effect van histologische klasse bij patiënten met niet-aangetaste lymfeklieren is extreem significant (p << 0.001) op het 5%-significantieniveau. 3. Wanneer de lymfeklieren niet aangetast zijn ($x_{n1} = 0$) is het geometrisch gemiddelde van de *KPNA2*-expressie 3.18 keer lager voor patiënten met histologische klasse 3 dan voor patiënten met histologische klasse 1 (95% BI [2.44, 4.14]). Deze associatie tussen de genexpressie en het effect van histologische klasse bij patiënten met niet-aangetaste lymfeklieren is extreem significant (p << 0.001) op het 5%-significantieniveau. 4. Wanneer de lymfeklieren niet aangetast zijn ($x_{n1} = 0$), is het geometrisch gemiddelde van de *KPNA2*-expressie 1.58 keer lager voor patiënten met histologische klasse 3 dan voor patiënten met histologische klasse 1 (95% BI [1.21, 2.05]). Deze associatie tussen de genexpressie en het effect van histologische klasse bij patiënten met niet-aangetaste lymfeklieren is extreem significant (p << 0.001) op het 5%-significantieniveau. # Vraag 16b: Regressiecoëfficënt hoofdeffect histologische klasse (leesopdracht) De regressiecoëfficiënt $\beta_{g3}$ kwantificeert het verschil in geometrische gemiddelde van de genexpressie bij patiënten van histologische klasse 1 ($x_{g3} = 0$) en histologische klasse 3 ($x_{g3} = 1$) met onaangetaste lymfeklieren ($x_{n1} = 0$). Ter illustratie (en deze manier van werken kan je op analoge manier toepassen op de andere regressiecoëfficiënten): **Geometrisch gemiddelde genexpressie bij patiënten van histologische klasse 1 met onaangetaste lymfeklieren** $$ y_1=\beta_0+\beta_{g3}\cdot 0+\beta_{n1}\cdot 0+\beta_{g3n1}\cdot 0\cdot 0 = \beta_0 $$ **Geometrisch gemiddelde genexpressie bij patiënten van histologische klasse 3 met onaangetaste lymfeklieren** $$ y_2=\beta_0+\beta_{g3}\cdot 1+\beta_{n1}\cdot 0+\beta_{g3n1}\cdot 0\cdot 0 = \beta_0 + \beta_{g3} $$ **Verschil in geometrisch gemiddelde genexpressie bij patiënten van histologische klasse 1 en histologische klasse 3 met onaangetaste lymfeklieren** $$ y_2 - y_1 = (\beta_0 + \beta_{g3}) - \beta_0 = \beta_{g3} $$ Het verschil in geometrisch gemiddelde genexpressie tussen deze twee groepen patiënten wordt dus precies gegeven door de regressiecoëfficiënt $\beta_{g3}$. # Vraag 17: Interpretatie regressiecoëfficënt hoofdeffect lymfeklierstatus ($\beta_{n1}$) (meerkeuzevraag) Welke interpratie over $\beta_{n1}$ is correct? 1. Het geometrisch gemiddelde van de *KPNA2*-genexpressie bij patiënten met klasse 1-tumoren ($x_{g3} = 0$) en verwijderde lymfeklieren is 1.58 keer hoger dan voor patiënten met klasse 1-tumoren en onaangetaste lymfeklieren (95% BI [1.21, 2.05]). Deze associatie van de genexpressie met het lymfkliereffect bij klasse 1-patiënten is zeer significant (p= 0.0018) op het 5%-significantieniveau. 2. Het geometrisch gemiddelde van de *KPNA2*-genexpressie bij patiënten met klasse 1-tumoren ($x_{g3} = 0$) en verwijderde lymfeklieren is 3.18 keer hoger dan voor patiënten met klasse 1-tumoren en onaangetaste lymfeklieren (95% BI [2.44, 4.14]). Deze associatie van de genexpressie met het lymfkliereffect bij klasse 1-patiënten is zeer significant (p= 1.4e-08) op het 5%-significantieniveau. 3. Het geometrisch gemiddelde van de *KPNA2*-genexpressie bij patiënten met klasse 1-tumoren ($x_{g3} = 0$) en verwijderde lymfeklieren is 1.58 keer lager dan voor patiënten met klasse 1-tumoren en onaangetaste lymfeklieren (95% BI [1.21, 2.05]). Deze associatie van de genexpressie met het lymfkliereffect bij klasse 1-patiënten is zeer significant (p= 0.0018) op het 5%-significantieniveau. 2. Het geometrisch gemiddelde van de *KPNA2*-genexpressie bij patiënten met klasse 1-tumoren ($x_{g3} = 0$) en verwijderde lymfeklieren is 3.18 keer lager dan voor patiënten met klasse 1-tumoren en onaangetaste lymfeklieren (95% BI [2.44, 4.14]). Deze associatie van de genexpressie met het lymfkliereffect bij klasse 1-patiënten is zeer significant (p= 1.4e-08) op het 5%-significantieniveau. # Vraag 18: Interpretatie regressiecoëfficënt interactie ($\beta_{g3n1}$) (meerkeuzevraag) Welke interpratie over $\beta_{g3n1}$ is correct? 1. De fold change tussen histologische klasse 3 en histologische klasse 1 bij patiënten met verwijderde lymfeklieren is gemiddeld 0.58 keer de fold change tussen klasse 3 en klasse 1 bij patiënten met onaangetaste lymfeklieren (95 % BI [0.85, 0.4])). Het verschil in associatie tussen de *KPNA2*-genexpressie en de histologische klasse bij patiënten met en zonder aangetaste lymfeklieren is zeer significant (p = 0,007) op het 5%-significantieniveau. 2. De fold change tussen histologische klasse 3 en histologische klasse 1 bij patiënten met verwijderde lymfeklieren is gemiddeld 0.58 keer de fold change tussen klasse 3 en klasse 1 bij patiënten met onaangetaste lymfeklieren (95 % BI [0.85, 0.4]). Het verschil in associatie tussen de *KPNA2*-genexpressie en de histologische klasse bij patiënten met en zonder aangetaste lymfeklieren is niet significant op het 5%-significantieniveau. 3. De fold change tussen histologische klasse 3 en histologische klasse 1 bij patiënten met verwijderde lymfeklieren is gemiddeld 0.58 keer de fold change tussen klasse 3 en klasse 1 bij patiënten met onaangetaste lymfeklieren (95 % BI [0.85, 0.4]). Het verschil in associatie tussen de *KPNA2*-genexpressie en de histologische klasse bij patiënten met en zonder aangetaste lymfeklieren is zeer significant (p = 2.266e-08) op het 5%-significantieniveau. 4. De fold change tussen histologische klasse 3 en histologische klasse 1 bij patiënten met verwijderde lymfeklieren is gemiddeld -0.77 keer de fold change tussen klasse 3 en klasse 1 bij patiënten met onaangetaste lymfeklieren (95 % BI [-0.24, -1.31]). Het verschil in associatie tussen de *KPNA2*-genexpressie en de histologische klasse bij patiënten met en zonder aangetaste lymfeklieren is niet significant (p = 0,117) op het 5%-significantieniveau. # Vraag 19: Resterende onderzoekshypothesen (leesopdracht) De resterende onderzoekshypothesen kunnen niet meer rechtstreeks uit het regressiemodel worden afgeleid. Hiervoor zullen we contrasten moeten definiëren: lineaire combinaties van de modelparameters. We zullen de contrasten met het `multcomp` package evalueren. Dit zal ons ook in staat stellen om te corrigeren voor meervoudig testen, aangezien we meerdere hypothesen beoordelen om de relevante onderzoeksvragen te beantwoorden. **Alle** hypothesen van interesse worden hieronder opgelijst: - Log fold change tussen histologische klasse 3 en histologische klasse 1 bij patiënten met onaangetaste lymfeklieren $H_0: \log_2{FC}_{g3n0-g1n0} = \beta_{g3} = 0$ $\rightarrow$ "grade3 = 0" - Log fold change tussen histologische klasse 3 en histologische klasse 1 bij patiënten met verwijderde lymfeklieren $H_0: \log_2{FC}_{g3n1-g1n1} = \beta_{g3} + \hat\beta_{g3n1} = 0$ $\rightarrow$ "grade3+grade3:node1 = 0" - Log fold change tussen onaangetaste en verwijderde lymfeklieren bij patiënten van histologische klasse 3 $H_0: \log_2{FC}_{g1n1-g1n0} = \beta_{n1}$ $\rightarrow$ "node1 = 0" - Log fold change tussen onaangetaste en verwijderde lymfeklieren bij patiënten van histologische klasse 1 $H_0: \log_2{FC}_{g3n1-g3n0} = \beta_{n1} + \hat\beta_{g3n1} = 0$ $\rightarrow$ "node1+grade3:node1 = 0" - Verschil in log fold change tussen patiënten van histologische klasse 3 en histologische klasse 1 met verwijderde lymfeklieren en log fold change tussen patiënten van histologische klasse 3 en histologische klasse 1 met onaangetaste lymfeklieren $H_0: \log_2{FC}_{g3n1-g1n1} - \log_2{FC}_{g3n0-g1n0} = \hat\beta_{g3n1} = 0$, merk op dat deze hypothese ook equivalent is met $H_0: \log_2{FC}_{g3n1-g3n0} - \log_2{FC}_{g1n1-g1n0} = \hat\beta_{g3n1} = 0$ $\rightarrow$ "grade3:node1 = 0" # Vraag 20: Contrasten met `multcomp` package. Beoordeel de contrasten aan de hand van het `multcomp` package. Vul bij het `linfct` argument alle vijf de contrasten van interesse aan (*Hint*: deze werden opgesteld in vraag 19). Sla een summary op van deze contrasten in `sum`. Bepaal ook een betrouwbaarheidsinterval voor elk van de regressiecoëfficiëntenschattingen. ```{r} library(multcomp) fitGlht <- glht(fit, linfct = c(...)) sum_fitGlht <- summary(...) sum_fitGlht confint_fitGlht <- confint(...) confint_fitGlht ``` # Vraag 21: Terugtransformeren Transformeer de gevonden waarden van regressiecoëfficiënten en betrouwbaarheidsintervallen terug naar de originele schaal. ```{r} confint_orig <- 2^confint(...)$confint confint_orig ``` # Vraag 22: Conclusie (1) Welke conclusie is juist op basis van de gevonden regressiecoëfficiënten en betrouwbaarheidsintervallen uit vraag 21? 1. Er is op het 5%-significantieniveau een extreem significante associatie tussen de *KPNA2*-expressie en de histologische klasse bij patiënten met niet-aangetaste lymfeklieren (p-waarde << 0,001). Wanneer lymfeklieren niet worden verwijderd, is de genexpressie gemiddeld 3.18 keer hoger voor patiënten met histologische klasse 3-tumoren dan voor patiënten met klasse 1-tumoren (95% BI [2.26, 4.47]). 2. Er is op het 5%-significantieniveau geen associatie tussen de *KPNA2*-expressie en de histologische klasse bij patiënten met niet-aangetaste lymfeklieren (p-waarde > 0.05). Wanneer lymfeklieren niet worden verwijderd, is de genexpressie gemiddeld 3.18 keer hoger voor patiënten met histologische klasse 3-tumoren dan voor patiënten met klasse 1-tumoren (95% BI [2.26, 4.47]). 3. Er is op het 5%-significantieniveau een extreem significante associatie tussen de *KPNA2*-expressie en de histologische klasse bij patiënten met niet-aangetaste lymfeklieren (p-waarde << 0,001). Wanneer lymfeklieren niet worden verwijderd, is de genexpressie gemiddeld 1.58 keer hoger voor patiënten met histologische klasse 3-tumoren dan voor patiënten met klasse 1-tumoren (95% BI [1.12, 2.22]). 4. Er is op het 5%-significantieniveau een extreem significante associatie tussen de *KPNA2*-expressie en de histologische klasse bij patiënten met niet-aangetaste lymfeklieren (p-waarde << 0,001). Wanneer lymfeklieren niet worden verwijderd, is de genexpressie gemiddeld 1.86 keer hoger voor patiënten met histologische klasse 3-tumoren dan voor patiënten met klasse 1-tumoren (95% BI [1.32, 2.61]). # Vraag 23: Conclusie (2) Welke conclusie is **niet correct** op basis van de gevonden regressiecoëfficiënten en betrouwbaarheidsintervallen uit vraag 21? 1. Er is op het 5%-significantieniveau een extreem significante associatie tussen de *KPNA2*-expressie en de histologische klasse bij patiënten met verwijderde lymfeklieren (p-waarde << 0,001). Voor patiënten met verwijderde lymfeklieren is de genexpressie gemiddeld 1.86 keer hoger voor patiënten met histologische klasse 3-tumoren dan voor patiënten met klasse 1-tumoren (95% BI [1.32, 2.61]). 2. De associatie tussen de *KPNA2*-expressie en de lymfeklierstatus bij patiënten met klasse 1-tumoren is zeer significant(p= 0.0073) op het 5%-significantieniveau. De *KPNA2*-expressie in patiënten tumoren van klasse 1 met verwijderde lymfeklieren is gemiddeld 1.58 keer hoger dan voor klasse 1-patiënten met onaangetaste lymfeklieren (95% BI [1.12, 2.22]). 3. In patiënten met klasse 3-tumoren is de associatie tussen de *KPNA2*-expressie en de lymfeklierstatus niet significant (p= 0.9) op het 5%-significantieniveau, 95% BI [0.66, 1.3] ) 4. Er is op het 5%-significantieniveau geen significante interactie tussen de histologische klasse en de lymfeklierstatus. De associatie tussen de *KPNA2*-expressie en de histologische klasse hangt dus niet af van de lymfeknoopstatus en omgekeerd. # Vraag 24: Conclusie samengevat (leesopdracht) Op basis van de output van het model, de geschatte regressiecoëfficiënten en gevonden betrouwbaarheidsintervallen, kunnen we -- de onderzoeksvragen in gedachten houdend -- een aantal conclusies trekken. De meeste daarvan kwamen reeds aan bod in de vorige 2 vragen, maar hier geven we een alles samenvattend overzicht. Deze conclusie is dan ook een volledig antwoord op de verschillende onderzoeksvragen die werden vooropgesteld. - Er is op het 5%-significantieniveau een extreem significante associatie tussen de *KPNA2*-expressie en de histologische klasse bij patiënten met niet-aangetaste lymfeklieren en bij patiënten met verwijderde lymfeklieren (beide p-waarden << 0,001). -> Wanneer lymfeklieren niet worden verwijderd, is de genexpressie gemiddeld 3.18 keer hoger voor patiënten met histologische klasse 3-tumoren dan voor patiënten met klasse 1-tumoren (95% BI [2.26, 4.47]). -> Voor patiënten met verwijderde lymfeklieren is de genexpressie gemiddeld 1.86 keer hoger voor patiënten met histologische klasse 3-tumoren dan voor patiënten met klasse 1-tumoren (95% BI [1.32, 2.61]). - De associatie tussen de *KPNA2*-expressie en de lymfeklierstatus bij patiënten met klasse 1-tumoren is zeer significant (p= 0.0071) op het 5%-significantieniveau. -> De *KPNA2*-expressie in patiënten tumoren van klasse 1 met verwijderde lymfeklieren is gemiddeld 1.58 keer hoger dan voor klasse 1-patiënten met onaangetaste lymfeklieren (95% BI [1.12, 2.22]). -> In patiënten met klasse 3-tumoren is deze associatie echter niet significant (p= 0.9 op het 5%-significantieniveau, 95% BI [0.66, 1.3]). - Er is ook een significante interactie tussen de histologische klasse en de lymfeklierstatus op het 5%-significantieniveau. De associatie tussen de *KPNA2*-expressie en de histologische klasse hangt dus af van de lymfeknoopstatus en omgekeerd (p = 0.027). De fold change die correspondeert met histologische klasse is gemiddeld bij patiënten met verwijderde lymfeklieren is 0.58 keer de fold change corresponderend met histologische klasse bij patiënten met onaangetaste lymfeklieren (95% BI [0.95, 0.36]).