Notatie

Stel Yij de uitkomst van observatie i=1,,nj uit populatie j=1,2. We zullen dikwijls de term behandeling of groep gebruiken in plaats van populatie, zelfs wanneer de twee populaties niet geïnterpreteerd kunnen worden als behandelingen. Beschouw het als een (misgroeide) conventie. In de context van het voorbeeld is behandeling j=1 de microbiële transplantatie en behandeling j=2 de placebo behandeling.

We veronderstellen

Yij i.i.d. N(μj,σ2)i=1,,nij=1,2.

Merk op dat dit inhoudt dat gelijke varianties verondersteld worden. De eigenschap van gelijke varianties wordt ook aangeduid met de term homoskedasticiteit, en ongelijke varianties met heteroskedasticiteit.

We zijn geïnteresseerd in het testen van de nulhypothese

H0:μ1=μ2

tegenover de alternatieve hypothese

H1:μ1μ2.

De alternatieve hypothese drukt dus de onderzoeksvraag uit: een verschil in relatieve abundantie van Staphylococcus spp. na microbiële transplantatie t.o.v. de placebo behandeling.
De nul en alternatieve hypothese kunnen ook worden uitgedrukt in termen van de effectgrootte tussen behandeling en placebo groep μ1μ2:

H0:μ1μ2=0, H1:μ1μ20.

We kunnen de effectgrootte in het experiment schatten a.d.h.v. de steekproefgemiddeldes:

μ^1μ^2=Y¯1Y¯2.

Gezien de experimentele eenheden onafhankelijk zijn, zijn de steekproefgemiddeldes dat ook en is de variantie op het verschil:

VarY¯1Y¯2=σ2n1+σ2n2=σ2(1n1+1n2).

De standard error is bijgevolg:

σY¯1Y¯2=σ1n1+1n2.

We zouden de variantie apart kunnen schatten in elke groep aan de hand van de steekproefvariatie, maar als we gelijkheid van variantie kunnen veronderstellen kan de variantie meer precies worden geschat door gebruik te maken van alle gegevens in beide groepen. Deze variatieschatter wordt ook de gepoolde variantieschatter genoemd: Sp2.

Op basis van de observaties uit de eerste groep kan σ12 geschat worden als

S12=1n11i=1n1(Yi1Y¯1)2.

Analoog: op basis van de observaties uit de tweede groep kan σ22 geschat worden als

S22=1n21i=1n2(Yi2Y¯2)2.

Merk op dat we homoscedasticiteit veronderstellen, σ12=σ22=σ2. Dus S12 en S22 zijn schatters zijn voor dezelfde parameter σ2. Daarom kunnen ze gezamenlijk gebruikt worden om tot één schatter te komen die alle n1+n2 observaties gebruikt:

Sp2=n11n1+n22S12+n21n1+n22S22=1n1+n22j=12i=1nj(YijY¯j)2.

De gepoolde variantieschatter wordt dus geschat door gebruik te maken van de kwadratische afwijkingen tussen de observaties en hun groepsgemiddelde en dat te delen door het aantal vrijheidsgraden n1+n22[35].

Nu we de effectgrootte en de standard error op de effectgrootte hebben kunnen schatten, kunnen we opnieuw een t-statistiek definiëren (two-sample t-teststatistiek):

T=Y¯1Y¯2Sp2n1+Sp2n2=Y¯1Y¯2Sp1n1+1n2.

Als de data onafhankelijk zijn, de steekproefgemiddelden normaal verdeeld zijn en de variantie in beide groepen gelijk zijn, dan kan men aantonen de teststatistiek T opnieuw een t-verdeling volgt met n1+n22 vrijheidsgraden onder de nulhypothese.

Aangezien de alternatieve hypothese H1:μ1μ2 impliceert dat de probabiliteitsmassa van de distributie van T onder H1 verschuift naar hogere of lagere waarden, zullen we H0 wensen te verwerpen ten gunste van H1 voor grote absolute waarde van de teststatistiek. De p-waarde wordt dus

p=P0[T|t|]+P0[T|t|]=P0[|T||t|]=P0[T|t|]×2=2×(1FT(|t|;n1+n22)),

met FT(;n1+n22) de cumulatieve distributiefunctie van tn1+n22.