We leiden de methode af voor de meest eenvoudige uitbreiding met 3 groepen (prostacycline voorbeeld), maar de veralgemening naar g groepen met \(g>3\) is triviaal.
Zoals bij de t-test kunnen we het probleem ook modelleren a.d.h.v een lineair model door gebruik te maken van dummy variabelen (Sectie 6.10). We zullen hierbij steeds 1 dummy variable minder nodig hebben dan er groepen zijn.
Voor het prostacycline voorbeeld zijn dus twee dummy variabelen nodig en kunnen we de data dus modelleren met onderstaand lineair regressiemodel: Stel dat \(Y_i\) de uitkomst voorstelt van observatie \(i\) (\(i=1,\ldots, n\)), dan beschouwen we
\[\begin{eqnarray} Y_i &=& g(x_{i1},x_{i2}) + \epsilon_i\\ Y_i &=& \beta_0+\beta_1 x_{i1} +\beta_2 x_{i2} +\epsilon_i \qquad(3) \end{eqnarray}\]waarbij de error term opnieuw i.i.d. normaal verdeeld wordt verondersteld met een constante variantie, \(\epsilon_i\sim N(0,\sigma^2)\), en waarbij de predictoren dummy-variabelen zijn:
\[x_{i1} = \left\{ \begin{array}{ll} 1 & \text{ als observatie $i$ behoort tot middelste dosisgroep (M)} \\ 0 & \text{ als observatie $i$ behoort tot een andere dosisgroep} \end{array}\right. .\]en \(x_{i2} = \left\{ \begin{array}{ll} 1 & \text{ als observatie $i$ behoort tot de hoogste dosisgroep (H)} \\ 0 & \text{ als observatie $i$ behoort tot een andere dosisgroep} \end{array}\right. .\)
De lage dosisgroep (L) met \(x_{i1}=x_{i2}=0\) wordt in deze context de referentiegroep genoemd.
Zoals in Sectie 6.10 kunnen we het regressie-model opnieuw herschrijven als een model voor elke groep:
met \(\epsilon_i \sim N(0,\sigma^2)\).
met \(\epsilon_i \sim N(0,\sigma^2)\).
met \(\epsilon_i \sim N(0,\sigma^2)\).
Hieruit volgt direct de interpretatie van de modelparameters:
\[\begin{eqnarray*} \beta_0 &=& \text{E}\left[Y_i \mid \text{behandeling met lage dosisgroep L}\right] \\ \beta_1 &=& (\beta_0+\beta_1)-\beta_0 = \text{E}\left[Y_i \mid \text{behandeling M}\right] - \text{E}\left[Y_i \mid \text{behandeling L}\right] \\ \beta_2 &=& (\beta_0+\beta_2)-\beta_0 = \text{E}\left[Y_i \mid \text{behandeling H}\right]-\text{E}\left[Y_i \mid \text{behandeling L}\right]. \end{eqnarray*}\]of anders geformuleerd:
We herformuleren de modellen gebruik makend van de \(\mu\)-notaties:
\[\begin{eqnarray*} Y_{i\vert \text{dose=L}} &=& \beta_0+\epsilon_i = \mu_1+\epsilon_i \\ Y_{i\vert \text{dose=M}} &=& \beta_0+\beta_1+ \epsilon_i = \mu_2+\epsilon_i \\ Y_{i\vert \text{dose=H}} &=& \beta_0+\beta_2 + \epsilon_i = \mu_3+\epsilon_i . \end{eqnarray*}\]met \(\epsilon_i \sim N(0,\sigma^2)\) en met
\[\mu_j = \text{E}\left[Y_i \mid \text{behandelingsgroep } j\right].\]De oorspronkelijk nulhypothese \(H_0:\mu_1=\mu_2=\mu_3\) kan equivalent geformuleerd worden als
\[H_0: \beta_1=\beta_2=0.\]Gezien Model (3) een lineair regressiemodel is, kunnen de methoden van lineaire regressie gebruikt worden voor het schatten van de parameters en hun varianties, het opstellen van hypothesetesten en betrouwbaarheidsintervallen. Het testen van \(H_0: \beta_1=\beta_2=0\) gebeurt d.m.v. een \(F\)-test. Hiermee is bijna de volledige oplossing bekomen.
Voor het prostacycline voorbeeld bekomen we het volgende model in het software pakket R:
model1 <- lm(prostac ~ dose, data = prostacyclin)
summary(model1)
##
## Call:
## lm(formula = prostac ~ dose, data = prostacyclin)
##
## Residuals:
## Min 1Q Median 3Q Max
## -35.167 -17.117 -4.958 17.927 41.133
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 40.108 6.150 6.521 2.10e-07 ***
## dose25 8.258 8.698 0.949 0.349
## dose50 43.258 8.698 4.974 1.99e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 21.3 on 33 degrees of freedom
## Multiple R-squared: 0.458, Adjusted R-squared: 0.4252
## F-statistic: 13.94 on 2 and 33 DF, p-value: 4.081e-05
We zien dat R eveneens de lage klasse (dose10) kiest als
referentie-klasse aangezien er enkel een intercept voorkomt en
parameters voor dose25 (M) en dose50 (H). De output laat dus
onmiddellijk toe om het effect te vergelijken tussen de middelste en
laagste dosisgroep en de hoogste en laagste dosisgroep a.d.h.v. twee
t-testen.
De volledige nulhypothese \(H_0: \beta_1=\beta_2=0\) kan worden
geƫvalueerd op basis van de F-test onderaan in de output. De p-waarde
van de test geeft aan dat er een extreem significant effect is van de
arachidonzuurconcentratie op het gemiddelde prostacycline niveau
(\(p<<0.001\)). In de volgende Sectie tonen we dat de F-test opnieuw
opgebouwd wordt d.m.v. kwadratensommen.