Om resultaten van een steekproef te kunnen veralgemenen naar de populatie toe trekken we subjecten at random uit de populatie.
Randomisatie is sterk gerelateerd met het concept van de populatie en scope van de studie. De scope van de studie moet goed worden omschreven voor de start van het experiment. Het is immers de populatie naar waar we de resultaten uit de steekproef kunnen veralgemenen.
We nemen daarom een random steekproef uit de populatie:
alle subjecten van de populatie hebben dus evenveel kans om in de steekproef te worden opgenomen.
de selectie van een subject is onafhankelijk van andere subjecten in de steekproef.
De steekproef is dan representatief voor de populatie, maar is nog steeds random.
Om te begrijpen dat een steekproef random is zouden we hetzelfde
experiment veel keer moeten kunnen herhalen (repeated sampling
). Dan
zouden we inzicht kunnen krijgen hoe de gegevens veranderen van
steekproef tot steekproef.
Om dit te illustreren zullen we gebruik maken van de National Health And Nutrition Examination Study (NHANES) studie. Uit die studie kunnen we herhaaldelijk kleine steekproeven trekken om te begrijpen hoe de gegevens en statistieken veranderen van steekproef tot steekproef. Of om met andere woorden na te gaan wat de variabiliteit is tussen steekproeven.
De National Health And Nutrition Examination Study (NHANES) studie:
Sinds 1960 worden elk jaar mensen van alle leeftijden geïnterviewd bij hen thuis.
Er maakt ook een gezondheidsonderzoek deel uit van de study die in een mobiel onderzoekscentrum wordt afgenomen.
We zullen deze grote studie gebruiken om at random personen te selecteren van de Amerikaanse populatie.
Dat zal inzicht geven in hoe de gegevens en resultaten van een analyse zullen variëren van steekproef tot steekproef.
De data van deze studie is terug te vinden in het R pakket NHANES
. Met
de functie head
kunnen we de eerste 6 rijen van de dataset bekijken.
library(NHANES)
head(NHANES)
## # A tibble: 6 x 76
## ID SurveyYr Gender Age AgeDecade AgeMonths Race1 Race3 Education MaritalStatus
## <int> <fct> <fct> <int> <fct> <int> <fct> <fct> <fct> <fct>
## 1 51624 2009_10 male 34 " 30-39" 409 White <NA> High Sch~ Married
## 2 51624 2009_10 male 34 " 30-39" 409 White <NA> High Sch~ Married
## 3 51624 2009_10 male 34 " 30-39" 409 White <NA> High Sch~ Married
## 4 51625 2009_10 male 4 " 0-9" 49 Other <NA> <NA> <NA>
## 5 51630 2009_10 female 49 " 40-49" 596 White <NA> Some Col~ LivePartner
## 6 51638 2009_10 male 9 " 0-9" 115 White <NA> <NA> <NA>
## # ... with 66 more variables: HHIncome <fct>, HHIncomeMid <int>, Poverty <dbl>,
## # HomeRooms <int>, HomeOwn <fct>, Work <fct>, Weight <dbl>, Length <dbl>,
## # HeadCirc <dbl>, Height <dbl>, BMI <dbl>, BMICatUnder20yrs <fct>, BMI_WHO <fct>,
## # Pulse <int>, BPSysAve <int>, BPDiaAve <int>, BPSys1 <int>, BPDia1 <int>,
## # BPSys2 <int>, BPDia2 <int>, BPSys3 <int>, BPDia3 <int>, Testosterone <dbl>,
## # DirectChol <dbl>, TotChol <dbl>, UrineVol1 <int>, UrineFlow1 <dbl>, UrineVol2 <int>,
## # UrineFlow2 <dbl>, Diabetes <fct>, DiabetesAge <int>, HealthGen <fct>,
## # DaysPhysHlthBad <int>, DaysMentHlthBad <int>, LittleInterest <fct>, Depressed <fct>,
## # nPregnancies <int>, nBabies <int>, Age1stBaby <int>, SleepHrsNight <int>,
## # SleepTrouble <fct>, PhysActive <fct>, PhysActiveDays <int>, TVHrsDay <fct>,
## # CompHrsDay <fct>, TVHrsDayChild <int>, CompHrsDayChild <int>, Alcohol12PlusYr <fct>,
## # AlcoholDay <int>, AlcoholYear <int>, SmokeNow <fct>, Smoke100 <fct>,
## # Smoke100n <fct>, SmokeAge <int>, Marijuana <fct>, AgeFirstMarij <int>,
## # RegularMarij <fct>, AgeRegMarij <int>, HardDrugs <fct>, SexEver <fct>, SexAge <int>,
## # SexNumPartnLife <int>, SexNumPartYear <int>, SameSex <fct>, SexOrientation <fct>,
## # PregnantNow <fct>
We focussen in dit voorbeeld op het verschil in lengte tussen volwassen vrouwen en mannen in de Amerikaanse populatie.
Onderzoeksvraag: hoe verschilt de lengte van volwassen mannen en vrouwen.
We exploreren hiervoor eerst de lengte data in de NHANES studie. Omdat we heel veel gegevens hebben, maken we gebruik van histogrammen om inzicht te krijgen in de verdeling van de data.
Code 1. We pipen de dataset naar de function filter
om de data te
filteren volgens leeftijd. We verwijderen eveneens gegevens waarvoor de
lengte metingen ontbreken. Voor deze gevens werd de data ingegeven met
de code NA (Not Available) 2. We plotten de lengte metingen. - We
selecteren de data met het commando ggplot(aes(x=lengte))
- We voegen
een histogram toe met het commando geom_histogram()
- We maken twee
vertikale panels met het commando facet_grid(Gender~.)
. Een panel per
geslacht. - We veranderen het label van de x-as met de xlab
functie.
NHANES%>%
filter(Age >= 18 & !is.na(Height)) %>%
ggplot(aes(x = Height))+
geom_histogram() +
facet_grid(Gender ~ .) +
xlab("Lengte (cm)")
Interpretatie
We maken nu een subset van de data die we zullen gebruiken om aan te tonen hoe de variabiliteit in kleine steekproeven kan variëren van steekproef tot steekproef.
Code
nhanesSub <- NHANES %>%
filter(Age >= 18 & !is.na(Height)) %>%
select(c("Gender","Height"))
We berekenen het gemiddelde en de standaard deviatie voor de lengte voor mannen en vrouwen in de grote dataset. We groeperen de data hiervoor op basis van het geslacht (variable Gender).
HeightSum <- nhanesSub %>%
group_by(Gender) %>%
summarize_at("Height",
list(mean = mean,
sd = sd)
)
knitr::kable(
HeightSum %>%
mutate_if(is.numeric, round, digits=1),
"html"
)
Gender | mean | sd |
---|---|---|
female | 162.1 | 7.3 |
male | 175.9 | 7.5 |
Interpretatie
Vrouwen zijn gemiddeld 162.1 cm HeightSum en mannen 175.9 cm. Wat onze intuïtie bevestigt dat mannen gemiddeld groter zijn dan vrouwen.