Om de resultaten van een experimentele of observationele studie te rapporteren, is het uiteraard niet mogelijk om per subject waarvoor gegegevens verzameld werden in de studie de bekomen gegevens neer te schrijven. Met de veelheid aanwezige informatie is het integendeel belangrijk de gegevens gericht samen te vatten en voor te stellen. Zelfs wanneer het duidelijk is welke analyse er moet uitgevoerd worden, moet er eerst een basisbeschrijving komen van de verzamelde gegevens. Dit zal mee helpen aangeven of er geen fouten zijn gemaakt tijdens het onderzoek of bij de registratie van gegevens. Eventuele anomalieën of zelfs fraude worden in deze fase opgespoord en tenslotte krijgt men een indruk of voldaan is aan de onderstellingen (bvb. de onderstelling dat de gegevens Normaal verdeeld zijn) die aan de grond liggen van de voorgestelde statistische analyses in de latere fase.
De eerste vraag die moet gesteld worden bij het benaderen van een echte data set is:
Als het vertrekpunt duidelijk is en alle variabelen goed beschreven zijn, kan men starten met een betekenisvolle exploratie van de gerealiseerde observaties.
Dit hoofdstuk zullen werken rond een centrale dataset: de NHANES studie.
De National Health and Nutrition Examination Survey (NHANES) wordt sinds
1960 op regelmatige basis of genomen. In dit voorbeeld maken we gebruik
van de gegevens die werden verzameld tussen 2009-2012 bij 10000
Amerikanen en die werden opgenomen in het R-pakket NHANES. Er werd een
groot aantal fysische, demografische, nutritionele, levelsstijl en
gezondheidskarakteristieken gecollecteerd in deze studie (zie Tabel
7). Merk op dat ontbrekende
waarnemingen hier gecodeerd worden a.d.h.b. de code NA
(Not Available
/ Missing Value)
Einde voorbeeld
ID | Gender | Age | Race1 | Weight | Height | BMI | BPSysAve | TotChol | SmokeNow | Smoke100 |
---|---|---|---|---|---|---|---|---|---|---|
51624 | male | 34 | White | 87.4 | 164.7 | 32.22 | 113 | 3.49 | No | Yes |
51625 | male | 4 | Other | 17.0 | 105.4 | 15.30 | NA | NA | NA | NA |
51630 | female | 49 | White | 86.7 | 168.4 | 30.57 | 112 | 6.70 | Yes | Yes |
51638 | male | 9 | White | 29.8 | 133.1 | 16.82 | 86 | 4.86 | NA | NA |
51646 | male | 8 | White | 35.2 | 130.6 | 20.64 | 107 | 4.09 | NA | NA |
51647 | female | 45 | White | 75.7 | 166.7 | 27.24 | 118 | 5.82 | NA | No |