Referentie intervallen

Het bepalen van grenswaarden voor de lengte die vrij veel voorkomen kunnen worden bekomen door gebruik te maken van een referentie interval.

Typisch wordt een 95% referentie interval gebruikt zodat we voor 95% van de subjecten in de populatie verwachten dat ze een karakteristiek hebben die in het referentie interval ligt.

We kunnen dat opnieuw op basis van de empirische distributie.

We moeten hiervoor \(\hat{F}(x_{2.5\%})=0.025\) en \(\hat{F}(x_{97.5\%})=0.975\) berekenen zodat 95% van de observaties in de steekproef vallen in het interval \([x_{2.5\%},x_{97.5\%}]\).
Dat kan met de quantile functie.

Grote steekproef

NHANES %>%
  filter(Gender=="female"&!is.na(Height)&Age>18) %>%
  pull(Height) %>%
  quantile(prob=c(0.025,0.975))

##  2.5% 97.5% 
## 147.6 176.7

Op basis van de grote steekproef schatten we dat 95% van de vrouwen in de populatie een lengte heeft die ligt in het interval \(147.6, 176.7\).

Kleine steekproef

fem10 %>%
  pull(Height) %>%
  quantile(prob=c(0.025,0.975))

##     2.5%    97.5% 
## 154.7250 178.3275

Dit interval o.b.v. de kleine steekproef is een ruwe benadering.
We hebben immers niet voldoende observaties om een goede benadering te hebben voor extreme quantielen.

Normale benadering

We kunnen de functie qnorm gebruiken om quantielen te berekenen van de normale distributie. We weten dat een 95% referentie interval ongeveer binnen twee standaard deviaties rond het gemiddelde ligt.

We doen dit nu voor de - Grote steekproef

qnorm(0.025,mean=HeightSum$mean,sd=HeightSum$sd)

## [1] 147.8192

HeightSum$mean - 2 * HeightSum$sd

## [1] 147.528

qnorm(0.975,mean=HeightSum$mean,sd=HeightSum$sd)

## [1] 176.3237

HeightSum$mean + 2 * HeightSum$sd

## [1] 176.6149

Kleine steekproef

qnorm(0.025,mean=HeightSum10$mean,sd=HeightSum10$sd)

## [1] 147.1499

qnorm(0.975,mean=HeightSum10$mean,sd=HeightSum10$sd)

## [1] 179.2701

We zien dat de benadering voor de kleine steekproef op basis van de aanname van Normaliteit opnieuw goed werkt!

Conclusions

Voor de grote steekproef geven de empirische distributie en de normale benadering vergelijkbare resultaten.
Voor de kleine steekproef werkt de normale benadering beter dan de empirische distributie.
- We kijken immers naar extreme quantielen 2.5% en 97.5%.
- Er zijn inderdaad weinig gegevens in de steekproef die toelaten om deze quantielen direct te schatten.
- Met de normale benadering kunnen we alle data gebruiken om het gemiddelde en de standaarddeviatie te schatten.
- Als de aanname van normaliteit geldt dan krijgen we betere schattingen voor deze kwantielen.