--- title: "Enkelvoudige lineaire regressie - half 2 - exercise" output: html_document: code_download: true theme: cosmo toc: true toc_float: true highlight: tango number_sections: true --- Ramipril is een veelvoorkomend geneesmiddel dat gebruikt wordt voor de behandeling van verhoogde bloeddruk, hartproblemen en nierfalen. De concentratie ramipril in een chemisch staal kan bepaald worden door middel van High Performance Liquid Chromatograpyh (HPLC), met behulp van een UV/VIS-detector. Hetzelfde HPLC experiment kan ook gebruikt worden om de concentratie aan diketopiperazine - een bijproduct van Ramipril - te bepalen. Een HPLC experiment meet echter niet rechtstreeks de concentratie van een stof die aanwezig is in een staal, maar pieken; de oppervlakte onder deze pieken is dan op een bepaalde manier geasscoieerd met de concentratie van de stof. Om deze associatie in kaart te brengen wordt er eerst ter referentie een kalibratiecurve of ijklijn opgesteld. In dit voorbeeld werd een kalibratiecurve opgesteld gaande van 0,05 microgram/mL tot 0,5 microgram/mL diketopiperazine. De concentraties en de gemeten piekoppervlakten zijn opgeslagen in de dataset kalibratie. Het doel van deze oefening is om na te gaan of er een lineaire relatie is tussen de concentratie diketopiperazine en de piekoppervlakte. Indien dit het geval is kunnen we de ijklijn gebruiken om predicties te doen over de concentratie aan diketopiperazine in een "nieuw" staal. # R libraries inlezen ```{r} library(ggplot2) library(dplyr) library(tidyr) library(readr) ``` # Vraag 1 Importeer data ```{r} kalibratie <- read_delim("https://raw.githubusercontent.com/statOmics/statistiekBasisCursusData/master/practicum4/kalibratie.txt", skip = 1, col_names = c("rij_nummer","concentratie","piekoppervlakte"), col_types = list(col_integer(), col_double(), col_double()), col_select = c("concentratie","piekoppervlakte")) kalibratie ``` # Vraag 2 Data exploratie Maak een figuur die de associatie toont tussen de piekoppervlakte en de concentratie aan diketopiperazine die wordt afgelezen op de HPLC. Sla het resultaat op in het object `Associatie_plot`. ```{r} Associatie_plot <- ggplot(...) + ... + #voeg punten toe geom_smooth(method = ..., col = ...) + # fit een rechte door de puntenwolk aan de hand van de kleinstekwadratenmethode (zwarte lijn); het argument bij method moet in quotation marks " " ylab("Concentratie diketopiperazine (microgram/mL)") + xlab("HPLC piek (Volt-min)") + theme_bw() Associatie_plot ``` # Vraag 3 Data analyse Fit een lineair model om de associatie tussen de concentratie aan diketopiperazine en de piekoppervlakte te bestuderen. Sla het model op in de variabele `mod`. Ga ook meteen de modelassumpties na. ```{r} mod <-... mod ``` Merk op dat het nagaan van de assumpties weinig zinvol is voor een dataset die slechts 5 observaties bevat. Doordat de normaliteits- en/of homoscedasticiteitsassumptie mogelijks geschonden zijn, zal onze besluitvorming (m.b.t. significantie) mogelijks incorrect zijn doordat onze teststatistiek niet langer een t-verdeling zal volgen (zie cursus onder "6.5. Nagaan van modelveronderstellingen"). Echter, de assumptie van onafhankelijkheid werd niet geschonden (studie-design). Ook zien we dat er in de dataset een nagenoeg perfect lineair verband is tussen de responsvariabele en de verklarende variabele (figuur `Associatie_plot`). Dit betekent dat de schattingen van de effectgroottes wel correct zullen zijn. Bijgevolg gaan we het model wel kunnen gebruiken om betrouwbare predicties te doen. # Vraag 4 Modelparameters Gebruik de `summary` functie om de modelparameters van `mod` te bestuderen en de volgende multiple choice vragen op te lossen. ```{r} ... ```