--- title: "Categorische data analyse - half2 - studenten" output: html_document: code_download: true theme: cosmo toc: true toc_float: true highlight: tango number_sections: true --- # Boominfecties in Hawaii In Hawaii is de abundantie van een bepaalde boomsoort sterk afgenomen door een infectie veroorzaakt door wespen. De bomen die door de wespen worden aangevallen zijn soorten van het geslacht Erythrina waaronder de endemische soort *Erythrina sanwichensis*. Deze soort heeft een grote culturele waarde voor de Hawaiianen, die traditioneel gebruik maken van hout in verschillende aspecten van hun cultuur. De parasitaire wesp valt de bomen aan door eitjes te leggen in de bladeren die een ‘gal’ in het blad creeëren. Te veel gallen doden het blad en te veel dode bladeren doden de bomen. Men wil een schatting maken van het aantal bomen in Hawaii dat geïnfecteerd is door de wesp. Daartoe onderzoekt men of 120 bomen al dan niet geïnfecteerde bladeren bevatten. Men vond 80 bomen met geïnfecteerde bladeren. Veronderstel dat men deze bomen behandelt door middel van sproeistoffen en een maand later dezelfde bomen opnieuw observeert. Stel dat men de volgende resultaten vindt: ```{r} datBomen <- matrix(c(30,10, 50,30), nrow = 2, ncol = 2, byrow = TRUE, dimnames = list(c("na_infectie","na_geenInfectie"), c("voor_infectie","voor_geenInfectie"))) datBomen ``` In deze tabel bedoelt men met ‘na’ na de behandeling en met ‘voor’ voor de behandeling. Uit de tabel kan men dan bvb. afleiden dat er 30 bomen waren die zowel voor als na de behandeling met sproeistoffen geïnfecteerd waren. Voer zo mogelijk een gepaste toets uit om na te gaan of de sproeistoffen effectief zijn. De onderzoekers zijn geïnteresseerd of het sproeien effectief geweest is voor de infectie. # Vraag 1: Leesopdracht Tracht allereerst tot inzicht te komen over de betekenis van de waarden in de tabel, een eerste cruciale stap. Merk op dat dit voorbeeld gepaarde data betreft. Elke boom werd namelijk tweemaal geobserveerd: eens voor de behandeling en eens na de behandeling. Telkens werd genoteerd of de boom al dan niet geïnfecteerd is. We wensen dus de associatie tussen twee kwalitatieve variabelen (infectie, behandeling) na te gaan aan de hand van gepaarde data. Hiervoor zullen we de bionomiaaltest gebruiken. # Vraag 2: Nulhypotheses (meerkeuzevraag) - $H_0$: Het sproeimiddel heeft geen effect op de infectie door galwespen bij *Erythrina sanwichensis*. - $H_0$: Er is een lineair verband tussen sproeimiddel en de infectie door galwespen bij *Erythrina sanwichensis*. - $H_0$: Het sproeimiddel zorgt er niet voor dat de infectie door galwespen bij *Erythrina sanwichensis* vermindert. # Vraag 3: Binomiaaltest (leesopdracht) Merk op dat uit de vier aantallen in de tabel, er slechts twee relevante informatie bevatten om bewijs tegen de nulhypothese samen te vatten. Inderdaard, het getal linksboven stelt dat 30 bomen zowel voor als na behandeling geïnfecteerd werden. Idem, het getal rechtsonder stelt dat zowel na als voor behandeling de bomen niet geïnfecteerd werden. De interessante data zit hem linksonder en rechtsboven. Deze aantallen stellen dat 50 (noem dit $g$) bomen genezen zijn na behandeling, terwijl er 10 (noem dit $f$) bomen ziek zijn geworden. Deze cellen noemt men de *discordante paren*. Indien het sproeimiddel geen effect zou hebben, verwachten we dat het aandeel zieke bomen onveranderd blijft tijdens de tweede check. Men kan dit ook bekijken als: indien het sproeimiddel geen effect zou hebben, verwachten we dat er evenveel bomen 'genezen' zijn dan dat er bomen ziek zijn geworden. In dat geval, dus onder de nulhypothese, verwacht men in elke cel discordante paren $\frac{f+g}{2}=30$ bomen. # Vraag 4: Binomiaaltest (opdracht) Men kan beroep doen op een exacte binomiale test om te testen voor een significant verschillende odds. Sla het resultaat op in de variabele `binomTest`. ```{r} binomTest <- ... ``` # Vraag 5: Interpretatie (opdracht) Om de interpretatie te vergemakkelijken zullen we gebruik maken van het absoluut risicoverschil en diens standaardfout. Sla de waarde voor het absoluut risicoverschil (ARV), de standaardfout op het ARV en het 95% betrouwbaarheidsinterval op het ARV op in de respectievelijke variabelen `ARV`, `SE` en `BI`. ```{r} ARV <- ... SE <- ... BI <- ... ``` # Vraag 6: Conclusie (meerkeuzevraag) Welke conclusies zijn correct? Dien ze in als een vector (bv `c(5,6)`) - We vinden een extreem significant effect van de behandeling op de galwespen infectie bij *Erythrina sanwichensis* (p-waarde $< 0.0001$). De kans op infectie na behandeling is 33.3% lager dan voor behandeling (95% BI: 22.2% tot 44.5%). - We vinden een extreem significant effect van de behandeling op de galwespen infectie bij *Erythrina sanwichensis* (p-waarde $< 0.0001$). De kans op infectie na behandeling is 33.3% lager dan voor behandeling (95% BI: 8.30% tot 28.5%). - We vinden een extreem significant effect van de behandeling op de galwespen infectie bij *Erythrina sanwichensis* (p-waarde $< 0.0001$). De kans op infectie na behandeling is 16.7% lager dan voor behandeling (95% BI: 22.2% tot 44.5%). - We vinden een extreem significant effect van de behandeling op de galwespen infectie bij *Erythrina sanwichensis* (p-waarde $< 0.0001$). De kans op infectie na behandeling is 16.7% lager dan voor behandeling (95% BI: 8.30% tot 28.5%).