Voor de statistische besluitvorming hebben we volgende aannames gedaan
Onafhankelijkheid is moeilijk te verifiëren op basis van de data, dat zou gegarandeerd moeten zijn door het design van de studie. Als we afwijkingen zien van lineariteit dan heeft besluitvorming geen zin gezien het de primaire veronderstelling is. In dat geval moeten we het conditioneel gemiddeld eerst beter modelleren. In geval van lineariteit maar schendingen van homoscedasticiteit of normaliteit dan weten we dat de besluitvorming mogelijks incorrect is omdat de teststatistiek dan niet langer een t-verdeling volgt.
De primaire veronderstelling in lineaire regressie-analyse is de aanname
dat de uitkomst (afhankelijke variabele) lineair varieert ten opzichte
van de verklarende variabele. Deze veronderstelling kan men gemakkelijk
grafisch verifiëren op basis van een scatterplot waarbij men de uitkomst
uitzet in functie van de verklarende variabele. Vervolgens gaat men na
of het verband een lineair patroon volgt.
In Figuur 28 zien we systematische
afwijkingen bij kleine en grote waarden voor de ESR1 expressie. De
observaties liggen dan steeds systematisch boven de regressierechte wat
aangeeft dat het gemiddelde in deze regio’s systematisch wordt
onderschat. Afwijkingen van lineariteit worden vaak echter makkelijker
opgespoord d.m.v. een residuplot. Dit is een scatterplot met de
verklarende variabele op de
deze werden weergegeven in Figuur 29.
Als de veronderstelling van lineariteit opgaat, krijgt men in een residuplot geen patroon te zien. De residuen zijn immers gemiddeld nul voor elke waarde van de predictor en zouden dus mooi rond nul moeten variëren.
Wanneer de residu’s echter een niet-lineair patroon onthullen, dan geeft
dit aan dat extra termen in het model moeten worden opgenomen om de
gemiddelde uitkomst correct te voorspellen. Bijvoorbeeld, wanneer de
residu’s een kwadratisch patroon onthullen, dan kunnen we schrijven dat
bij benadering
par(mfrow=c(2,2))
plot(lm1)
Figuur 30: Diagnostische plots voor het nagaan van de veronderstellingen van het lineair regressiemodel waarbij de S100A8 expressie wordt gemodelleerd i.f.v de ESR1 expressie (na verwijdering van 3 outliers).
De residu plot voor het borstkanker voorbeeld wordt weergegeven in Figuur 30 boven links. De residuen zijn niet overal mooi gespreid rond nul. Bij lage en hoge voorspelde waarden voor het model (dus bij hoge en lage waarden voor de predictor, negatieve helling) zijn de residuen overwegend positief wat opnieuw aangeeft dat het model de data in deze regio’s systematisch onderschat. Dat was ergens te verwachten gezien de smoother in Figuur 27 immers eerder een exponentiëel verband suggereerde. Bovendien voorspelde het regressiemodel eveneens negatieve waarden voor de S100A8 expressie wat onmogelijk is voor intensiteitsmetingen die immers steeds positief zijn.
Residuen en kwadratische residu’s dragen informatie in zich over
residuele variabiliteit. Als er homoscedasiticiteit is dan verwachten we
dat de residuen eenzelfde spreiding hebben voor elke waarde van de
predictor en voor elke predictie. Als de spreiding in de residuen
geassocieerd zijn met de verklarende variabelen, dan is er indicatie van
heteroscedasticiteit. De diagnostische plots van het software pakket R
geven een residu-plot weer en een plot van de vierkantswortel van de
absolute waarde van de gestandardiseerde error
Voor bepaalde types uitkomsten bestaan er variantie-stabiliserende
transformaties voor de afhankelijke variabele die erop gericht zijn om
de onderstelling van homoscedasticiteit te doen opgaan. Voor proporties
of percentages, gebruikt men bijvoorbeeld vaak de arcsin-transformatie
die de uitkomst
Opnieuw kunnen we de veronderstelling van normaliteit nagaan door
gebruik te maken van QQ-plots. Een QQ-plot van de afhankelijke variabele
is misleidend omdat deze nagaat of de metingen voor alle subjecten samen
Normaal verdeeld zijn. Dat is echter niet het geval gezien de normale
verdeling per subject varieert. Elk subject kan immers andere waarde
hebben voor de predictor
Figuur 30 rechts boven geeft de QQ-plot weer van de residuen voor het borstkanker voorbeeld. We zien wat afwijkingen in de rechterstaart die wijzen op meerdere outliers of op observaties die systematisch hoger liggen dan wat verwacht kan worden op basis van de normaalverdeling. Dit is niet verrassend omdat heterogeniteit van de variantie vaak samengaat met niet-Normaliteit, i.h.b. scheefheid, van de gegevens. Dat komt vaak voor bij concentratie- en intensiteitsmetingen.