Nadat de centrale ligging van de gegevens werd bepaald, is men in tweede
instantie geïnteresseerd in de spreiding van de gegevens rond die
centrale waarde. Er zijn verschillende redenen waarom daar interesse in
bestaat:
Om risico’s te berekenen (zie Sectie 4.4)
volstaat het niet om de centrale locatie van de gegevens te kennen,
maar moet men bovendien weten hoeveel de gegevens rond die waarde
variëren. Inderdaad, stel dat men wenst te weten welk percentage van
de subjecten een BMI heeft van boven de 35. Wetende dat een
geometrisch gemiddelde van 25.69 wordt geobserveerd, zal dat
percentage relatief hoog zijn wanneer de metingen zeer gespreid zijn
en relatief laag anders.
Veldbiologen zijn vaak geïnteresseerd in de mate waarin dieren of
planten verspreid zijn over een zeker studiegebied. Op die manier
kunnen ze immers leren over de relaties tussen individuen onderling
en met hun omgeving. Daartoe zal men in de praktijk op verschillende
plaatsen in het studiegebied tellingen maken van het aantal
individuen op die plaats. Men kan aantonen dat, onder bepaalde
veronderstellingen, individuen lukraak verspreid zijn over het
studiegebied wanneer de spreiding op die tellingen, zoals gemeten
door de variantie (zie verder), van dezelfde grootte-orde is als de
gemiddelde telling. Indien de spreiding groter is, dan hebben
individuen de neiging om zich te groeperen. Andersom, indien de
spreiding op die tellingen lager is dan de gemiddelde telling, dan
zijn de individuen zeer uniform verdeeld over het studiegebied.
Stel dat men een zekere uitkomst (bvb. het aantal species
ongewervelde dieren in een stuk bodemkorst) wenst te vergelijken
tussen 2 groepen (bvb. gebieden met en zonder bosbrand), dan zal men
een duidelijk beeld van het groepseffect krijgen wanneer de uitkomst
weinig gespreid is, maar een veel minder duidelijk beeld wanneer de
gegevens meer chaotisch (en dus meer gespreid) zijn. Om uit te maken
of een interventie-effect toevallig of systematisch is, moet men
daarom een idee hebben van de spreiding op de gegevens.
Dat uitkomsten variëren tussen individuen en binnen individuen omwille
van allerlei redenen ligt aan de basis van de statistische analyse van
veel fenomenen. Het goed beschrijven van variatie naast de centrale
locatie van de gegevens is daarom belangrijk! Hierbij zal men typisch
een onderscheid maken tussen variatie die men kan verklaren (door middel
van karakteristieken, zoals bijvoorbeeld de leeftijd, van de bestudeerde
individuen) en onverklaarde variatie. We gaan dieper in op dit
onderscheid in Hoofdstuk 6 rond lineaire
regressie.
Variatie betekent dat niet alle observaties gelijk zijn aan het
gemiddelde . De afwijking is om die
reden interessant. Het gemiddelde van die afwijkingen is echter altijd 0
(verifieer!) omdat positieve en negatieve afwijkingen mekaar opheffen.
Bijgevolg levert de gemiddelde afwijking geen goede maat op voor de
variatie en is het beter om bijvoorbeeld naar kwadratische afwijkingen
te kijken. Het gemiddelde van die kwadratische
afwijkingen rond het gemiddelde, het gemiddelde dus van
, levert daarom wel een goede maat op. Merk op dat
we bij het berekenen van het gemiddelde niet delen door het aantal
observaties , maar door waarbij we corrigeren voor het feit
dat we voor de berekening van de steekproef variantie 1 vrijheidsgraad
hebben gespendeerd aan het schatten van het gemiddelde.
Definitie
16: (variantie)
De variantie een reeks waarnemingen is per
definitie
Als duidelijk is om welke waarnemingen het gaat, wordt dit ook met
genoteerd.
Einde definitie
Indien alle observaties gelijk waren en er dus geen variatie was, dan
zou hun variantie 0 bedragen. Hoe meer de gegevens uitgesmeerd zijn rond
hun gemiddelde, hoe groter . Helaas is de waarde van de variantie
zelf niet gemakkelijk te interpreteren. Dit is deels omdat door het
kwadrateren de variantie niet langer de dimensie van de oorspronkelijke
waarnemingen heeft. Handiger om mee te werken is daarom de
standaarddeviatie of * standaardafwijking*:
De standaarddeviatie is gedefinieerd voor elke numerieke variabele, maar
is vooral nuttig omdat voor heel wat variabelen (in het bijzonder
Normaal verdeelde variabelen - zie Sectie 4.4)
bij benadering 68% van de waarnemingen liggen tussen
en , en 95% van de waarnemingen liggen tussen
en . Deze intervallen noemt men
respectievelijk 68% en 95% referentie-intervallen. Het is precies deze
eigenschap die de standaarddeviatie zo nuttig maakt in de praktijk. De
standaarddeviatie van een reeks waarnemingen wordt vaak afgekort als SD
in de wetenschappelijke literatuur.
Eigenschap
Als alle uitkomsten met een willekeurige constante worden
vermenigvuldigd, dan wordt hun variantie vermenigvuldigd met en
hun standaarddeviatie met (de absolute waarde van ). Als
bij alle uitkomsten wordt opgeteld, wijzigen hun variantie en
standaarddeviatie niet.
Einde eigenschap
# Het gebruik van functie sd() levert de standarddeviatie# van de variabele BMI in de NHANES dataset.# Het na.rm=TRUE argument wordt gebruikt omdat er# ontbrekende waarnemingen voorkomen.sd(NHANES$BMI,na.rm=TRUE)
## [1] 7.376579
# levert de variantie van de variabele BMIvar(NHANES$BMI,na.rm=TRUE)
## [1] 54.41392
Wanneer een variabele niet Normaal verdeeld is (dit is bijvoorbeeld het
geval voor het BMI gezien het niet symmetrisch verdeeld is), dan geldt
niet langer dat bij benadering 95% van de waarnemingen ligt tussen
en . Een symmetrische maat voor de
spreiding van de gegevens, zoals de standaarddeviatie, is dan niet
langer interessant. In dat geval zijn de range en interkwantielafstand
betere maten.
Definitie
17: (bereik en interkwartielafstand)
Het bereik of de range van een reeks waarnemingen
, is per definitie het verschil tussen de grootste
en kleinste geobserveerde waarde. De interkwartielafstand van een
reeks waarnemingen is per definitie de afstand
tussen het derde kwartiel en het eerste kwartiel .
Dat wordt ook grafisch weergegeven op een boxplot (breedte van de box).
Hierbinnen liggen circa 50% van de observaties. Circa 95% van de
observaties kan men vinden tussen het 2.5% en 97.5% percentiel.
Einde definitie
Het bereik is zeer gevoelig voor outliers en is systematisch afhankelijk
van het aantal observaties: hoe groter hoe groter men
verwacht. Om die reden vormt een interkwartielafstand een betere maat
voor de spreiding van de gegevens dan de range.
Tenslotte is het vaak zo dat de gegevens meer gespreid zijn naarmate hun
gemiddelde hogere waarden aanneemt. De variatiecoëfficiënt=
standaardiseert daarom de standaarddeviatie door ze uit te drukken als
een percentage van het gemiddelde
Omdat ze gestandaardiseerd is, dient ze beter dan de standaarddeviatie
zelf om de spreiding op de gegevens te vergelijken tussen populaties met
een verschillend gemiddelde. De variatiecoëfficiënt heeft verder de
aantrekkelijke eigenschap dat ze geen eenheden heeft en ongevoelig is
voor herschaling van de gegevens (d.w.z. wanneer alle gegevens met een
constante worden vermenigvuldigd, dan is ).