Variantie-analyse

We leiden de methode af voor de meest eenvoudige uitbreiding met 3 groepen (prostacycline voorbeeld), maar de veralgemening naar g groepen met $g>3$ is triviaal.

Model

Zoals bij de t-test kunnen we het probleem ook modelleren a.d.h.v een lineair model door gebruik te maken van dummy variabelen (Sectie 6.10). We zullen hierbij steeds 1 dummy variable minder nodig hebben dan er groepen zijn.

Voor het prostacycline voorbeeld zijn dus twee dummy variabelen nodig en kunnen we de data dus modelleren met onderstaand lineair regressiemodel: Stel dat $Y_i$ de uitkomst voorstelt van observatie $i$ ($i=1,\ldots, n$), dan beschouwen we

\[\begin{eqnarray} Y_i &=& g(x_{i1},x_{i2}) + \epsilon_i\\ Y_i &=& \beta_0+\beta_1 x_{i1} +\beta_2 x_{i2} +\epsilon_i \qquad(3) \end{eqnarray}\]

waarbij de error term opnieuw i.i.d. normaal verdeeld wordt verondersteld met een constante variantie, $\epsilon_i\sim N(0,\sigma^2)$, en waarbij de predictoren dummy-variabelen zijn:

\[x_{i1} = \left\{ \begin{array}{ll} 1 & \text{ als observatie $i$ behoort tot middelste dosisgroep (M)} \\ 0 & \text{ als observatie $i$ behoort tot een andere dosisgroep} \end{array}\right. .\]

en $x_{i2} = \left\{ \begin{array}{ll} 1 & \text{ als observatie $i$ behoort tot de hoogste dosisgroep (H)} \\ 0 & \text{ als observatie $i$ behoort tot een andere dosisgroep} \end{array}\right. .$

De lage dosisgroep (L) met $x_{i1}=x_{i2}=0$ wordt in deze context de referentiegroep genoemd.

Zoals in Sectie 6.10 kunnen we het regressie-model opnieuw herschrijven als een model voor elke groep:

Voor observaties in dosisgroep L wordt het Model (3)

\[Y_i = \beta_0+\epsilon_i,\]

met $\epsilon_i \sim N(0,\sigma^2)$.

Voor observaties in dosisgroep M wordt het Model (3)

\[Y_i = \beta_0+\beta_1 + \epsilon_i,\]

met $\epsilon_i \sim N(0,\sigma^2)$.

Voor observaties in dosisgroep H wordt het Model (3)

\[Y_i = \beta_0+\beta_2 + \epsilon_i\]

met $\epsilon_i \sim N(0,\sigma^2)$.

Hieruit volgt direct de interpretatie van de modelparameters:

\[\begin{eqnarray*} \beta_0 &=& \text{E}\left[Y_i \mid \text{behandeling met lage dosisgroep L}\right] \\ \beta_1 &=& (\beta_0+\beta_1)-\beta_0 = \text{E}\left[Y_i \mid \text{behandeling M}\right] - \text{E}\left[Y_i \mid \text{behandeling L}\right] \\ \beta_2 &=& (\beta_0+\beta_2)-\beta_0 = \text{E}\left[Y_i \mid \text{behandeling H}\right]-\text{E}\left[Y_i \mid \text{behandeling L}\right]. \end{eqnarray*}\]

of anders geformuleerd:

parameter $\beta_0$ is de gemiddelde uitkomst in de lage dosis groep L.
Parameter $\beta_1$ is het effect (verschil in gemiddelde concentratie) van groep M t.o.v. groep L.
Parameter $\beta_2$ is het effect van hoge dosis groep H t.o.v. groep L.

We herformuleren de modellen gebruik makend van de $\mu$-notaties:

\[\begin{eqnarray*} Y_{i\vert \text{dose=L}} &=& \beta_0+\epsilon_i = \mu_1+\epsilon_i \\ Y_{i\vert \text{dose=M}} &=& \beta_0+\beta_1+ \epsilon_i = \mu_2+\epsilon_i \\ Y_{i\vert \text{dose=H}} &=& \beta_0+\beta_2 + \epsilon_i = \mu_3+\epsilon_i . \end{eqnarray*}\]

met $\epsilon_i \sim N(0,\sigma^2)$ en met

\[\mu_j = \text{E}\left[Y_i \mid \text{behandelingsgroep } j\right].\]

De oorspronkelijk nulhypothese $H_0:\mu_1=\mu_2=\mu_3$ kan equivalent geformuleerd worden als

\[H_0: \beta_1=\beta_2=0.\]

Gezien Model (3) een lineair regressiemodel is, kunnen de methoden van lineaire regressie gebruikt worden voor het schatten van de parameters en hun varianties, het opstellen van hypothesetesten en betrouwbaarheidsintervallen. Het testen van $H_0: \beta_1=\beta_2=0$ gebeurt d.m.v. een $F$-test. Hiermee is bijna de volledige oplossing bekomen.

Voor het prostacycline voorbeeld bekomen we het volgende model in het software pakket R:

model1 <- lm(prostac ~ dose, data = prostacyclin)
summary(model1)

## 
## Call:
## lm(formula = prostac ~ dose, data = prostacyclin)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -35.167 -17.117  -4.958  17.927  41.133 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   40.108      6.150   6.521 2.10e-07 ***
## dose25         8.258      8.698   0.949    0.349    
## dose50        43.258      8.698   4.974 1.99e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 21.3 on 33 degrees of freedom
## Multiple R-squared:  0.458,	Adjusted R-squared:  0.4252 
## F-statistic: 13.94 on 2 and 33 DF,  p-value: 4.081e-05

We zien dat R eveneens de lage klasse (dose10) kiest als referentie-klasse aangezien er enkel een intercept voorkomt en parameters voor dose25 (M) en dose50 (H). De output laat dus onmiddellijk toe om het effect te vergelijken tussen de middelste en laagste dosisgroep en de hoogste en laagste dosisgroep a.d.h.v. twee t-testen.
De volledige nulhypothese $H_0: \beta_1=\beta_2=0$ kan worden geëvalueerd op basis van de F-test onderaan in de output. De p-waarde van de test geeft aan dat er een extreem significant effect is van de arachidonzuurconcentratie op het gemiddelde prostacycline niveau ($p<<0.001$). In de volgende Sectie tonen we dat de F-test opnieuw opgebouwd wordt d.m.v. kwadratensommen.