Voor de enkelvoudige lineaire regressie hebben we in detail de decompositie van SSTot=SSR+SSE besproken. In deze sectie breiden we die resultaten uit naar meervoudige lineaire regressie.
De totale kwadratensom SSTot is gedefinieerd zoals voorheen,
\[\text{SSTot} = \sum_{i=1}^n (Y_i - \bar{Y})^2.\]Het is nog steeds een maat voor de totale variabiliteit in de geobserveerde uitkomsten. Ook de residuele kwadratensom is zoals voorheen.
\[\text{SSE} = \sum_{i=1}^n (Y_i-\hat{Y}_i)^2.\]Beschouw nu een meervoudig lineair regressiemodel met \(p-1\) regressoren. Dan geldt de volgende decompositie van de totale kwadratensom,
\[\text{SSTot} = \text{SSR} + \text{SSE} ,\]met
\[\text{SSR} = \sum_{i=1}^n (\hat{Y}_i-\bar{Y})^2.\]De kwadratensom van de regressie (SSR) kan nog steeds geïnterpreteerd worden als de variabiliteit in de uitkomsten die verklaard kan worden door het regressiemodel.
Voor de vrijheidsgraden en de gemiddelde kwadratensommen geldt:
Een gevolg van de decompositie van SSTot is dat de determinatiecoëfficiënt blijft zoals voorheen, i.e.
\[R^2 = 1-\frac{\text{SSE}}{\text{SSTot}} = \frac{\text{SSR}}{\text{SSTot}}\]is de fractie van de totale variabiliteit in de uitkomsten die verklaard wordt door het regressiemodel.
De teststatistiek
\[F=\text{MSR}/\text{MSE}\]is onder
\[H_0:\beta_1=\ldots=\beta_{p-1}=0\]verdeeld volgens een F-verdeling met \(p-1\) vrijheidsgraden in de teller en \(n-p\) vrijheidsgraden in de noemer \(F_{p-1;n-p}\).
De F-test test m.a.w. het effect van alle predictoren simultaan. Onder de nulhypothese is er geen associatie tussen de respons en elk van de predictoren. De output van deze F-test wordt standaard gegeven onderaan in de summary output.
summary(lmVWS)
##
## Call:
## lm(formula = lpsa ~ lcavol + lweight + svi, data = prostate)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.72966 -0.45767 0.02814 0.46404 1.57012
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.26807 0.54350 -0.493 0.62301
## lcavol 0.55164 0.07467 7.388 6.3e-11 ***
## lweight 0.50854 0.15017 3.386 0.00104 **
## sviinvasion 0.66616 0.20978 3.176 0.00203 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7168 on 93 degrees of freedom
## Multiple R-squared: 0.6264, Adjusted R-squared: 0.6144
## F-statistic: 51.99 on 3 and 93 DF, p-value: < 2.2e-16
We zien dat de algemene nulhypothese heel significant kan worden verworpen. Minstens 1 predictor is extreem significant geassocieerd met de respons. In de individuele t-testen zien we dat elk van de predictoren een sterk significante associatie vertonen.