Toetsen voor een proportie

In Saksen werd een studie opgezet binnen een vrij gesloten populatie mensen (weinig immigratie en emigratie) om te bepalen hoe waarschijnlijk het was dat een ongeboren kind mannelijk is.

boys <- 3175
n <- 6155

Op 6155 ongeboren kinderen werden 3175 jongens geobserveerd. We wensen na te gaan of er een verschil is in de kans dat het ongeboren kind een jongen is of een meisje. In het vervolg van deze sectie vatten we deze gegevens op als uitkomsten van een numerieke toevalsveranderlijke \(X\) met uitkomst 1 voor jongens en 0 voor meisjes. Merk op dat we hier met een zogenaamd telprobleem te maken hebben omdat de uitkomst een telling (nl. het aantal jongens) voorstelt.

Formeel hebben we nu een populatie van ongeboren kinderen beschouwd waarin elk individu gekenmerkt wordt door een 0 of een 1. De uitkomst variabele is dus binair. Binaire data kan worden gemodelleerd a.d.h.v. een Bernoulli verdeling:

\[X_i \sim B(\pi) \text{ met}\] \[B(\pi)=\pi^{X_i}(1-\pi)^{(1-X_i)},\]

een distributie met 1 model parameter \(\pi\). \(\pi\) is de verwachte waarde van \(X_i\):

\[\text{E}[X_i]=\pi,\]

de proportie van ongeboren jongens (d.i. kinderen met een 1) in de populatie. Bijgevolg is \(\pi\) ook de kans dat een lukraak getrokken individu een jongen is (een observatie die 1 oplevert).

De variantie van Bernoulli data is eveneens gerelateerd aan de kans \(\pi\).

\[\text{Var}[X_i]=\pi (1-\pi).\]

Een grafische weergave van enkele Bernoulli kansverdelingen wordt weergegeven in Figuur 54.

Figuur 54: Bernoulli verdelingen.

In het voorbeeld werden lukraak 6155 observaties getrokken uit de populatie. We kunnen \(\pi\) schatten op basis van de data d.m.v. het steekproefgemiddelde van de binaire data:

\[\hat \pi = \bar X = \frac{\sum\limits_{i=1}^n X_i}{n},\]

pi <- boys/n
pi

## [1] 0.5158408

In ons voorbeeld is \(\bar x =\) 3175 / 6155 = 51.6%.

De vraag stelt zich nu of het feit dat 51.6% van de kinderen in de studie mannelijk zijn, voldoende overtuigingskracht draagt om te beweren dat er meer kans is dat een ongeboren kind een jongen is dan een meisje. Met andere woorden, we wensen op basis van deze observaties statistisch te toetsen of de kans \(\pi\) al dan niet gelijk is aan 50%.

We zullen die vraag eerst beantwoorden met een asymptotisch betrouwbaarheidsinterval, vervolgens ontwikkelen we een asymptotische test en een exacte test die ook geldig is in kleine steekproeven.