Het geschatte regressiemodel kan ook worden gebruikt om een
predictie te maken voor één uitkomst van één experiment waarbij een
nieuwe uitkomst
Aangezien
met
We weten dat
We weten reeds dat
We voorspellen dus een nieuwe log-S100A8 meting bij een gekend log2-ESR1 expressieniveau x door
Merk op dat
Hoewel de geschatte gemiddelde uitkomst en de predictie voor een nieuwe
uitkomst gelijk zijn, zullen hun steekproefdistributies echter
verschillend zijn: de onzekerheid op de geschatte gemiddelde uitkomst
wordt gedreven door de onzekerheid op de parameterschatters
Opnieuw kan worden aangetoond dat de statistiek
een t-verdeling volgt met n-2 vrijheidsgraden. Deze statistiek kan gebruikt worden om een betrouwbaarheidsinterval op de predictie te construeren, ook wel een predictie-interval (PI) genoemd. Merk op dat dit predictie-interval een verbeterde versie is van een referentie-interval wanneer de modelparameters niet gekend zijn. Het PI houdt immers rekening met de onzekerheid op het geschatte gemiddelde (gebruik van standard error op predictie i.p.v. standaard deviatie) en deze op de geschatte standaard deviatie (gebruik van t-verdeling i.p.v Normale verdeling).
Predicties en predictie-intervallen (PIs) kunnen opnieuw eenvoudig
worden verkregen in R via de predict(.)
functie. De predictorwaarden
(x-waarden) voor het berekenen van de predicties worden opnieuw
meegegeven via het newdata
argument. PIs op de predicties kunnen
worden verkregen d.m.v. het argument interval="prediction"
.
grid <- log2(140:4000)
p <- predict(
lm2,
newdata = data.frame(log2ESR1=grid),
interval="prediction")
head(p)
## fit lwr upr ## 1 11.89028 9.510524 14.27004 ## 2 11.87370 9.495354 14.25205 ## 3 11.85724 9.480288 14.23419 ## 4 11.84089 9.465324 14.21646 ## 5 11.82466 9.450461 14.19886 ## 6 11.80854 9.435698 14.18138
De predicties en hun 95% puntgewijze predictie-intervallen kunnen eveneens grafisch worden weergegeven (Figuur 35). Merk op dat de intervallen veel breder zijn dan de betrouwbaarheidsintervallen. Merk ook op dat de meeste observaties binnen de predictie-intervallen liggen. We verwachten inderdaad gemiddeld 95% van de observaties binnen de predictie-intervallen. Dat is niet zo voor de betrouwbaarheidsintervallen, die immers geen informatie geven over de verwachte locatie van een nieuwe observatie, maar wel over waar men het conditioneel gemiddelde verwacht op basis van de steekproef!
preddata <- data.frame(cbind(grid = grid,p))
brca %>% ggplot(aes(x=log2ESR1,y=log2S100A8)) +
geom_point() +
geom_smooth(method="lm", color = "black") +
geom_line(
aes(x = grid,y = lwr),
preddata,
color="red") +
geom_line(
aes(x = grid,y = upr),
preddata,
color="red")
Figuur 35: Scatterplot voor log2-S100A8 expressie in functie van de
log2-ESR1 expressie met model voorspellingen en 95