Het bepalen van grenswaarden voor de lengte die vrij veel voorkomen kunnen worden bekomen door gebruik te maken van een referentie interval.
Typisch wordt een 95% referentie interval gebruikt zodat we voor 95% van de subjecten in de populatie verwachten dat ze een karakteristiek hebben die in het referentie interval ligt.
We kunnen dat opnieuw op basis van de empirische distributie.
We moeten hiervoor \(\hat{F}(x_{2.5\%})=0.025\) en \(\hat{F}(x_{97.5\%})=0.975\) berekenen zodat 95% van de observaties in de steekproef vallen in het interval \([x_{2.5\%},x_{97.5\%}]\).
Dat kan met de quantile
functie.
Grote steekproef
NHANES %>%
filter(Gender=="female"&!is.na(Height)&Age>18) %>%
pull(Height) %>%
quantile(prob=c(0.025,0.975))
## 2.5% 97.5%
## 147.6 176.7
Kleine steekproef
fem10 %>%
pull(Height) %>%
quantile(prob=c(0.025,0.975))
## 2.5% 97.5%
## 154.7250 178.3275
We kunnen de functie qnorm gebruiken om quantielen te berekenen van de normale distributie. We weten dat een 95% referentie interval ongeveer binnen twee standaard deviaties rond het gemiddelde ligt.
We doen dit nu voor de
qnorm(0.025,mean=HeightSum$mean,sd=HeightSum$sd)
## [1] 147.8192
HeightSum$mean - 2 * HeightSum$sd
## [1] 147.528
qnorm(0.975,mean=HeightSum$mean,sd=HeightSum$sd)
## [1] 176.3237
HeightSum$mean + 2 * HeightSum$sd
## [1] 176.6149
qnorm(0.025,mean=HeightSum10$mean,sd=HeightSum10$sd)
## [1] 147.1499
qnorm(0.975,mean=HeightSum10$mean,sd=HeightSum10$sd)
## [1] 179.2701
We zien dat de benadering voor de kleine steekproef op basis van de aanname van Normaliteit opnieuw goed werkt!
Voor de grote steekproef geven de empirische distributie en de normale benadering vergelijkbare resultaten.
Voor de kleine steekproef werkt de normale benadering beter dan de empirische distributie.