--- title: "Algemeen Lineair Model: niet-additief meervoudig lineair regressie model" output: html_document: code_download: yes highlight: tango number_sections: yes theme: cosmo toc: yes toc_float: yes pdf_document: toc: yes word_document: toc: yes --- # Achtergrond Resistentie tegen het gif EI-43,064 wordt getest bij 96 vissen (dojovissen (0), goudvissen (1) en zebravissen (2)). Elke vis wordt apart in een aquarium gestopt die een bepaalde `dosis` (in mg) van het gif bevat. Naast de overlevingstijd in minuten (de uitkomst, `minsurv`) werd ook het `gewicht` van de vis gemeten (in gram). De onderzoekers weten uit vorige experimenten dat de overlevingstijd vaak sterk afhangt van het gewicht en dat de resistentie dikwijls soortafhankelijk is. De onderzoekers wensen inzicht te krijgen in het effect van de dosis en het gewicht van de vis op de overlevingstijd en of resistentie tegen het gif verschillend is bij de verschillende soorten. ## Laad de libraries ```{r} library(dplyr) library(ggplot2) #install.packages("GGally") library(GGally) library(car) library(multcomp) ``` # Data-exploratie Lees de dataset poison.dat in via `read.table`. We zagen in de voorgaande practica al dat de overlevingstijd beter op log2-schaal wordt gemodelleerd. ```{r} poison <- read.table("https://raw.githubusercontent.com/statOmics/statistiekBasisCursusData/master/practicum8/poison.dat", sep="", header = TRUE) # We vormen de vissoort om in een factor en log2 transformeren de overlevingstijd poison <- poison %>% mutate(soort = as.factor(soort), log2minsurv = log2(minsurv)) poison %>% ggpairs ``` - De overlevingstijd lijkt geassocieerd met het gewicht, soort en de dosis. - We observeren een sterke positieve associatie tussen de log2-overlevingstijd en het gewicht. - Bij lage gewichten lijkt de log2-overlevingstijd wat af te vlakken. - Daarnaast zien we ook dat het gewicht niet gelijk verdeeld is binnen elke dosis. - Er lijkt ook een associatie tussen de gewicht en soort. We bestuderen de effecten verder: Geef een scatterplot voor de log2-overlevingstijd ten opzichte van de dosis, voor elke soort apart. Trek ook een best passende rechte door elke figuur. Wat kan je opmerken over de log2-overlevingstijd in functie van de dosis? Verschilt de invloed van de dosis op de log2-overlevingstijd tussen de soorten? ```{r} ``` Interpreteer plot Geef een scatterplot voor de log2-overlevingstijd ten opzichte van het gewicht, voor elke soort apart. Trek ook een best passende rechte door elke figuur. Wat kan je opmerken over de log2-overlevingstijd in functie van het gewicht? Verschilt de invloed van het gewicht op de log2-overlevingstijd tussen de soorten? ```{r} ``` Interpreteer plot Gezien de onderzoekers op basis van voorgaande studies vermoeden dat het effect van de dosis kan variƫren van soort tot soort zouden we in de modellen interacties moeten voorzien tussen dosis en soort, zodat elke soort een verschillende dosisrespons kan tonen. Aangezien we in de data ook zien dat de invloed van het gewicht op de log2-overlevingstijd lijkt te verschillen tussen de soorten voegen we deze ook toe aan het model. Ten slotte voegen we ook de interactie tussen gewicht en dosis toe. We bekomen dus het onderstaande model: $$ y_i=\beta_0+\beta_d x_{id} + \beta_g x_{ig} +\beta_{sg} x_{isg} +\beta_{sz} x_{isz} + \beta_{d:sg} x_{id}x_{isg} + \beta_{d:sz} x_{id}x_{isz} + \beta_{g:sg} x_{ig}x_{isg} + \beta_{g:sz} x_{ig}x_{isz} + \beta_{d:g} x_{id}x_{ig} + \epsilon_i, $$ met $y_i$ de log2 overlevingstijd, $x_{id}$ de dosis en $x_{ig}$ het gewicht van vis $i$. $x_{isg}$ is een dummy-variabele die aangeeft of vis $i$ een goudvis is en $x_{isz}$ een dummy-variabele die aangeeft of de vis een zebravis is. De referentieklasse is dus voor de soort dojovissen (als $x_{isg}=0$ en $x_{isz}=0$). Verder is $\epsilon_i \text{ i.i.d. } N(0,\sigma^2)$. Modelleer de log2-overlevingstijd in functie van de soort, de dosis en het gewicht van de vis. Neem al de tweeweg-interacties mee in het model. Ga de voorwaarden van het lineaire model na. ```{r} ``` Zijn al de assumpties van het lineaire model voldaan? # Model opstellen via de conventionele methode: testen van interacties en niet-significante interacties verwijderen uit het model We testen nu via een anova-analyse met type III kwadratensommen of de interactietermen significant zijn. We verwijderen telkens de minst significante interactieterm zolang er niet-significante interactietermen zijn. Merk op dat je nooit een hoofdeffect mag verwijderen zolang er interactietermen van dit hoofdeffect in het model zitten. Merk verder op dat type III kwadratensommen niet kunnen verkregen worden via de standaard anova functie. De Anova functie uit het car package laat dat wel toe. ```{r} ``` # Testen van hypotheses Ga met behulp van het opgestelde model volgende onderzoeksvragen na voor elke vissoort. Corrigeer hierbij voor multiple testing en controleer het experimentgewijs significantieniveau op 5%: - Is er een associatie tussen dosis en log2-overlevingstijd voor de verschillende vissoorten? - Is er een associatie tussen gewicht en log2-overlevingstijd voor de verschillende vissoorten? - Tussen welke vissoorten is er een verschil in associatie tussen dosis en log2-overlevingstijd? - Tussen welke vissoorten is er een verschil in associatie tussen gewicht en log2-overlevingstijd? ```{r} ``` ```{r} ``` # Conclusie - Formuleer je conclusie. - Geef voor significante testen telkens ook de puntschatter en betrouwbaarheidsinterval weer en interpretatie in termen van de onderzoeksvraag. - Geef ook aan welke contrasten niet significant zijn.