In de Saksenstudie werd een heel grote steekproef getrokken: 6155 onafhankelijke observaties uit dezelfde populatie (verdeling).
We kunnen dus de centrale limietstelling (CLT) toegepassen op gemiddelde: de data volgen een Bernoulli verdeling, maar gemiddelde o.b.v. onafhankelijke en identiek verdeelde observaties in heel grote steekproef volgt approximatief een normaal verdeling.
Voor Bernoulli verdeelde gegevens weten we dat:
Uit de steekproef weten we verder dat \(\bar x\) = 0.516 en kunnen we de standard error schatten:
se <- sqrt((pi*(1-pi))/n)
De standard error is dus SE = 0.0064
\[\text{SE} = \hat\sigma_{\bar x} = \sqrt{\frac{\bar x(1-\bar x)}{n}}\]En we bekomen volgend betrouwbaarheidsinterval (BI) op het gemiddelde: [0.503, 0.528]
\[[\bar x - z_{\alpha/2} \text{SE}_{\bar x}, \bar x + z_{\alpha/2} \text{SE}_{\bar x}]\]0.5 valt niet binnen het 95% BI. Uit de equivalentie tussen betrouwbaarheidsintervallen en statistische testen volgt dus dat de kans op een jongen significant hoger is dan 50% op het 5% significantie-niveau.
Voor een statistische test moeten we de onderzoeksvraag vertalen naar een nul en alternatieve hypothese in termen van een modelparameter. We wensen aan te tonen dat de kans \(\pi\) verschillend is van 50% (alternatieve hypothese). Daarom zullen we de nul hupothese falsifiëren dat \(\pi = 0.5\).
\[H_0: \pi = 0.5 \text{ vs } H_1: \pi \neq 0.5\]Merk op dat voor een Bernoulli verdeling de variantie onder H\(_0\) ook gekend is: \(\pi_0 (1-\pi_0)\).
Dus onder \(H_0\) is standaard error op \(\bar x\):
\[\text{SE}_{0, \bar x}=\sqrt{\frac{\pi_0 (1-\pi_0)}{n}}\]We kunnen onder de nulhypothese dus volgende statistiek gebruiken die een afwijking van de nulhypothese in de richting van het alternatief zal detecteren.
\[z = \frac{\bar x - \pi_0}{\text{SE}_{0, \bar x}}\]Onder \(H_0\) verwachten we z dicht bij 0. Onder \(H_1\) zal z verschuiven naar negatieve (\(\pi < \pi_0\))of positieve waarden (\(\pi>\pi_0\)).
z volgt onder de nulhypothese dat er evenveel kans is op een jongen of een meisje (\(\pi_0=0.5\)) asymptotisch een standaard normaal verdeling: we kunnen immers de CLT toepassen!
We kunnen eenvoudig een p-waarde bekomen door gebruik te maken van de cumulatieve distributie van een standaard normale verdeling. Merk op dat het een tweezijdige test is!
pi0 <- 0.5
se0 <- sqrt(pi0*(1-pi0)/n)
z <- (pi-pi0)/se0
z
## [1] 2.485539
pval <- pnorm(abs(z),lower=FALSE) *2
pval
## [1] 0.01293554
We besluiten dus dat er significant meer kans is dat een ongeboren kind mannelijk dan vrouwelijk is (p=0.013). De kans dat een ongeboren kind mannelijk is bedraagt 0.516 (95% BI [0.503, 0.528]).