--- title: "Categorische data analyse - half1 - studenten" output: html_document: code_download: true theme: cosmo toc: true toc_float: true highlight: tango number_sections: true --- ```{r, message=FALSE, warning=FALSE} library(dplyr) ``` # Samenlevingsvormen van olifanten Olifanten leven in verschillende types groepen. Vrouwelijke olifanten leven ofwel in: - familiegroepen met verwante vrouwelijke olifanten en hun kroost zonder een mannelijke olifant (`Familiegroep`) - met een mannelijke olifant (`FamilieMan`). Mannelijke olifanten kunnen alleen leven (`Solitair`) of in gezelschap van andere mannelijke olifanten, zonder vrouwelijke individuen (`Mannengroep`). Onderzoekers in het Mikumi National Park in Tanzania hebben als deel van een uitgebreide studie van de grootste overblijvende populatie Afrikaanse olifanten onderzocht of er een verband is tussen de verschillende samenlevingsvormen en de seizoenen. April Ereckson observeerde daartoe een aantal olifantengroepen in droge en natte seizoenen in 1998/1999 (Ereckson, 2001). De volgende tabel werd geobserveerd: ```{r} dat <- as.data.frame(matrix(c(196, 7, 43, 4, 195, 8, 92, 17), nrow = 2, ncol = 4, byrow = TRUE, dimnames = list(c("Droog","Nat"), c("Familiegroep","FamilieMan", "Solitair", "Mannengroep")))) dat #standaard printing in html ``` We gaan ervan uit dat de data onafhankelijk zijn. Dit betekent uiteraard dat elke observatie onafhankelijk is (er is bv. niet twee keer dezelfde groep gemeten in hetzelfde seizoen en er zijn geen groepen die op de een of andere manier meer gelijkaardig zijn dan andere groepen). Het betekent ook dat er geen gepaardheid in de data zit: we observeren dus niet twee keer dezelfde groep in het natte en het droge seizoen. Moest dit laatste door toeval toch het geval zijn, dan gaan we ervan uit dat de manier waarop de olifanten groeperen in het natte seizoen volledig onafhankelijk is van de manier waarop de olifanten groeperen in het droge seizoen. Merk op dat deze laatste aanname in de praktijk weinig waarschijnlijk zou zijn. We wensen op een zinvolle manier na te gaan of de samenlevingsvorm beïnvloed wordt door het seizoen. Specifieer de nulhypothese en alternatieve hypothese, en de test die u daartoe zult uitvoeren. Deze onderzoeksvraag impliceert het testen van het verband tussen twee categorische variabelen: samenlevingsvorm en seizoen. De data zijn onafhankelijk. Hieroe kunnen we dus een Chi-kwadraat test gebruiken om verband na te gaan tussen samenlevingsvormen en seizoenen. De nul- en alternatieve hypothese zijn: # Vraag 1: Nulhypotheses (meerkeuzevraag) - $H_0$: Er is geen verband tussen samenlevingsvorm en seizoen bij Afrikaanse olifanten in het Mikumi National Park. - $H_0$: Er is geen lineair verband tussen samenlevingsvorm en seizoen bij Afrikaanse olifanten in het Mikumi National Park. - $H_0$: Er is een verband tussen samenlevingsvorm en seizoen bij Afrikaanse olifanten in het Mikumi National Park. # Vraag 2: Alternatieve hypotheses (meerkeuzevraag) - $H_A$: Er is een lineair verband tussen samenlevingsvorm en seizoen bij Afrikaanse olifanten in het Mikumi National Park. - $H_A$: Er is een verband tussen samenlevingsvorm en seizoen bij Afrikaanse olifanten in het Mikumi National Park. - $H_A$: Er is geen verband tussen samenlevingsvorm en seizoen bij Afrikaanse olifanten in het Mikumi National Park. # Vraag 3: Assumpties van de chi-kwadraat test Toets op het 5%-significantieniveau of de samenlevingsvorm afhangt van het seizoen. Hiertoe zullen we de $\chi^2$-test uitvoeren zonder continuïteitscorrectie. We gebruiken geen correctie, omdat dit standaard enkel voor $2 \times 2$ tabellen wordt toegepast. We zullen allereerst de voorwaarden nagaan van de $\chi^2$-test, om te checken of onze test wel geldig is. De voorwaarden voor deze test zijn: - onafhankelijke observaties - minstens 80% van de verwachte aantallen is groter dan of gelijk aan 5 De eerste voorwaarde is voldaan volgens het studiedesign. Voor de tweede voorwaarde kunnen we de verwachte waarden onder de nulhypothese gemakkelijk extraheren uit de output van de `chisq.test` functie. Sla de output van de test op in de variabele `testGlobaal`. Sla de verwachte waarden van de kruistabel onder de nulhypothese op onder de naam `verwacht_1`. ```{r} verwacht_1 <- ... ``` # Vraag 4: Conclusie (meerkeuze) - We besluiten dat er op het 5% significantieniveau een extreem significante afhankelijkheid is (p-waarde $= 0.0002$) tussen de samenlevingsvorm en het seizoen bij Afrikaanse Olifanten in het Mikumi National Park. - We besluiten dat er op het 5% significantieniveau een extreem significante afhankelijkheid is (p-waarde $= 0.0002$) tussen de samenlevingsvorm en het seizoen bij Olifanten. - We besluiten dat er een afhankelijkheid is (p-waarde $= 0.0002$) tussen de samenlevingsvorm en het seizoen bij Olifanten. # Vraag 5: Categorische post-hoc (leesopdracht) Voer nu, verder werkend op het globale 5% significantieniveau, een post-hoc analyse uit waarin de samenlevingsvormen 2 aan 2 vergeleken worden. Voer deze post-hoc analyse enkel uit voor de vergelijking tussen de Familie met man groep en de Mannengroep. We zullen voor deze vergelijking eerst onze data matrix subsetten. ```{r} datMan <- dat %>% select(c("FamilieMan","Mannengroep")) datMan ``` # Vraag 6: Voorwaarden post-hoc test (opdracht) Vervolgens doen we een post-hoc test om na te gaan of het seizoen een invloed heeft op de mannelijke samenlevingsvormen. Aangezien we nu met een $2 \times 2$ tabel werken, zullen we nu de continuïteitscorrectie van Yates toepassen in de $\chi^2$ test, zodat de nuldistributie beter benaderd kan worden. Voer de chi-kwadraat test uit. Sla de output van de test op in de variabele `testMan`. Sla de verwachte waarden van de kruistabel onder de nulhypothese op onder de naam `verwacht_2`. ```{r} verwacht_2 <- ... ``` # Vraag 7: Voorwaarden post-hoc test (leesopdracht) Tijdens het uitvoeren van de test krijgen we een waarschuwing - `Chi-squared approximation may be incorrect` - dat de benadering van de $\chi^2$ als nuldistributie van onze test mogelijks niet opgaat. Deze waarschuwing krijgen we omdat we met lage aantallen werken, en hierdoor deze benadering minder makkelijk opgaat (merk op dat we ook maar een bepaald aantal mogelijke waarden van de teststatistiek hebben hierdoor, maar we benaderen de nuldistributie wel met een continue distributie!). Bij het nagaan van de voorwaarden voor de $\chi^2$ test zien we dat slechts $75\%$ van de verwachte waarden is groter dan 5, waardoor de voorwaarden niet voldaan zijn. De waarde in de eerste rij, tweede kolom ligt ook dicht bij 5. # Vraag 8: Fisher's exact test (opdracht) Aangezien de voorwaarden niet voldaan zijn, zullen we beroep doen op de conservatievere Fisher's exact test. Sla het resultaat van de test op in de variabele `fisherTest`. ```{r} fisherTest <- ... ``` # Vraag 9: Conclusie Fisher's exact test (leesopdracht) In de opgave werd vermeld om een post-hoc analyse te doen waarbij we alle $(4 \times 3)/2 = 6$ paarsgewijze samenlevingsvormen vergeleken. We zullen de p-waarde aldus aanpassen voor meervoudig toetsen volgens de Bonferroni methode in de conclusie. We vinden onvoldoende bewijs om te kunnen stellen dat de samenlevingsvorm voor mannelijke olifanten beïnvloed wordt door het seizoen (p-waarde = $6 \times 0.141 = 0.85$) op een **globaal** 5%-significantieniveau.