Als de gegevens representatief zijn voor de populatie kan men in de meervoudige lineaire regressiecontext eveneens aantonen dat de kleinste kwadraten schatters voor het intercept en de hellingen onvertekend zijn, m.a.w
Het feit dat de schatters gemiddeld (over een groot aantal vergelijkbare
studies) niet afwijken van de waarden in de populatie, impliceert niet
dat ze niet rond die waarde variëren. Om inzicht te krijgen hoe dicht we
de parameterschatters bij het werkelijke intercept
Net zoals in Hoofdstuk 6 is het op basis van de puntschatters voor de hellingen niet duidelijk of de verbanden werkelijk voorkomen in de populatie of indien we de verbanden door toeval hebben geobserveerd in de dataset. De schatting van de hellingen is immers onnauwkeurig en zal variëren van steekproef tot steekproef. Zoals steeds is het resultaat van een data-analyse dus niet interpreteerbaar zonder die variabiliteit in kaart te brengen.
Om de resultaten uit de steekproef te kunnen veralgemenen naar de populatie zullen we in deze context eveneens inzicht nodig hebben op de verdeling van de parameterschatters. Om op basis van slechts één steekproef te kunnen voorspellen hoe de parameterschatters variëren van steekproef tot steekproef zullen we naast de onderstelling van
Lineariteit
bijkomende aannames moeten maken over de verdeling van de gegevens, met name
Onafhankelijkheid: de metingen
Homoscedasticiteit of gelijkheid van variantie: de observaties
variëren met een gelijke variantie rond het regressievlak. De
residuen
Normaliteit: de residuen
Uit aannames 2, 3 en 4 volgt dus dat de residuen
Als we ook steunen op de veronderstelling van lineariteit weten we dat
de originele observaties conditioneel op
met een gemiddelde dat varieert in functie van de waarde van de
onafhankelijke variabelen
Merk op dat de onzekerheid op de hellingen af zal nemen wanneer er meer
observaties zijn en/of wanneer de observaties meer gespreid zijn. Voor
het opzetten van een experiment kan dit belangrijke informatie zijn.
Uiteraard wordt de precisie ook beïnvloed door de grootte van de
variabiliteit van de observaties rond het regressievlak,
De conditionele variantie (
Analoog als in Hoofdstuk 6 kunnen we opnieuw toetsen en betrouwbaarheidsintervallen construeren op basis van de teststatistieken
Als aan alle aannames is voldaan dan volgen deze statistieken
Voor het prostaatkanker voorbeeld kunnen we de effecten in de steekproef opnieuw veralgemenen naar de populatie toe door betrouwbaarheidsintervallen te bouwen voor de hellingen:
confint(lmVWS)
## 2.5 % 97.5 % ## (Intercept) -1.3473509 0.8112061 ## lcavol 0.4033628 0.6999144 ## lweight 0.2103288 0.8067430 ## sviinvasion 0.2495824 1.0827342
Gezien nul niet in de intervallen ligt weten we eveneens dat de
associaties tussen lpsa
Anderzijds kunnen we ook formele hypothesetoetsen uitvoeren. Onder de
nulhypothese veronderstellen we dat er geen associatie is tussen lpsa en
de predictor
en onder de alternatieve hypothese is er een associatie tussen response
en predictor
Met de test statistiek
kunnen we de nulhypothese falsifiëren. Onder
Deze tweezijdige testen zijn standaard geïmplementeerd in de standaard output van R.
summary(lmVWS)
## ## Call: ## lm(formula = lpsa ~ lcavol + lweight + svi, data = prostate) ## ## Residuals: ## Min 1Q Median 3Q Max ## -1.72966 -0.45767 0.02814 0.46404 1.57012 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) -0.26807 0.54350 -0.493 0.62301 ## lcavol 0.55164 0.07467 7.388 6.3e-11 *** ## lweight 0.50854 0.15017 3.386 0.00104 ** ## sviinvasion 0.66616 0.20978 3.176 0.00203 ** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 0.7168 on 93 degrees of freedom ## Multiple R-squared: 0.6264, Adjusted R-squared: 0.6144 ## F-statistic: 51.99 on 3 and 93 DF, p-value: < 2.2e-16
De testen geven weer dat de associaties tussen
lpsa