Het additieve meervoudig lineaire regressie model

Afzonderlijke lineaire regressiemodellen, zoals

\[E(Y|X_v)=\alpha+\beta_v X_v\]

laten enkel toe om de associatie tussen de prostaat specifieke antigeen concentratie te evalueren op basis van 1 variabele, bijvoorbeeld het log-tumorvolume. Het spreekt voor zich dat meer accurate predicties kunnen bekomen worden door meerdere predictoren simultaan in rekening te brengen. Bovendien geeft de parameter \(\beta_v\) in dit model mogelijks geen zuiver effect van het tumorvolume weer. Inderdaad, \(\beta_v\) is het gemiddeld verschil in log-psa voor patiënten die 1 eenheid in het log tumorvolume (lcavol) verschillen. Zelfs als lcavol niet is geassocieerd met het lpsa, dan nog kunnen patiënten met een groter tumorvolume een hoger lpsa hebben omdat ze bijvoorbeeld een aantasting van de zaadblaasjes hebben (svi status 1). Dit is een probleem van confounding (nl. het effect van lcavol wordt verward met het effect van svi) dat kan verholpen worden door patiënten te vergelijken met verschillend log-tumorvolume, maar met dezelfde status voor svi. We zullen in dit hoofdstuk aantonen dat meervoudige lineaire regressiemodellen dit op een natuurlijke wijze mogelijk maken.

Statistisch model

De techniek die we hiertoe gaan gebruiken heet meervoudige lineaire regressie, in tegenstelling tot enkelvoudige lineaire regressie die we eerder gebruikt hebben. Stel dat we \(p-1\) verklarende variabelen \(X_1,...,X_{p-1}\) en een uitkomst \(Y\) beschikbaar hebben voor \(n\) subjecten. Stel bovendien dat de gemiddelde uitkomst lineair kan beschreven worden in functie van deze verklarende variabelen; d.w.z.

\[Y_i =\beta_0 + \beta_1 X_{i1} + ... +\beta_{p-1} X_{ip-1} + \epsilon_i\]

waarbij \(\beta_0,\beta_1,...,\beta_{p-1}\) onbekende parameters zijn en \(\epsilon_i\) de residuen die niet kunnen worden verklaard a.d.h.v. de predictoren. Het principe van de kleinste kwadratenmethode kan ook voor dit model worden gebruikt om schatters te bekomen voor de onbekende parameters \(\beta_0, \ldots, \beta_{p-1}\). De formules voor deze schattingen zijn nu een stuk complexer dan voorheen, maar worden door de software automatisch uitgerekend. Voor gegeven schattingen \(\hat{\beta}_0,\hat{\beta}_1,...,\hat{\beta}_{p-1}\) laat het lineaire regressiemodel dan toe om:

de verwachte uitkomst te voorspellen voor subjecten met gegeven waarden \(x_1,...,x_{p-1}\) voor de verklarende variabelen. Dit kan geschat worden als

\[E[Y\vert X_1=x_1, \ldots X_{p-1}=x_{p-1}]=\hat{\beta}_0+\hat{\beta}_1x_1+...+\hat{\beta}_{p-1}x_{p-1}\]

na te gaan in welke mate de gemiddelde uitkomst verschilt tussen 2 groepen subjecten met \(\delta\) eenheden verschil in een verklarende variabele \(X_j\) met \(j=1,\ldots,p\), maar met dezelfde waarden voor alle andere variabelen \(\{X_k,k=1,...,p,k\ne j\}\). Namelijk:

\[\begin{array}{l} E(Y|X_1=x_1,...,X_j=x_j+\delta,...,X_{p-1}=x_{p-1}) - E(Y|X_1=x_1,...,X_j=x_j,...,X_{p-1}=x_{p-1}) \\ \quad =\beta_0 + \beta_1 x_1 + ... + \beta_j(x_j+\delta)+...+\beta_{p-1} x_{p-1} - \beta_0 - \beta_1 x_1 - ... - \beta_jx_j-...-\beta_{p-1} x_{p-1} \\ \quad= \beta_j\delta \end{array}\]

In het bijzonder kan \(\beta_j\) geïnterpreteerd worden als het verschil in gemiddelde uitkomst tussen subjecten die 1 eenheid verschillen in de waarde van \(X_j\), maar dezelfde waarde hebben van de overige verklarende variabelen in het model. Dit kan geschat worden als \(\hat{\beta}_j\).