Vraag 7: Voorwaarden ANOVA

We zullen de assumpties van de ANOVA test nagaan. We weten dat de volgende vier voorwaarden voldaan moeten zijn alvorens de test uit te voeren:

normale verdeling binnen elke groep
elke groep heeft een gelijke variantie
De gegevens zijn onafhankelijk

De data uit de database is een verzameling van data van verschillende studies, die onafhankelijk van elkaar verzameld zijn. Echter, sommige soorten zijn meermaals geobserveerd (bv. binnen de groep van de carnivoren, zien we bijvoorbeeld dat er 10 waarnemingen zijn van honden, 5 van katten, 2 van de Bengaalse tijger en dat van de andere soorten slechts 1 waarneming aanwezig is). Het is sterk te verwachten dat de genoomgroottes van twee honden meer gelijkaardig zullen zijn dan de genoomgroottes van een hond versus een kat. Er zit dus een additionele correlatiestructuur in de data waardoor de gegevens binnen elke groep niet onafhankelijk zijn.

Om didactische redenen zullen we de test echter toch uitvoeren.

Merk op: We kunnen ons ook de vraag stellen of deze database een goede voorstelling is van de werkelijke populatie. Als we binnen de groep van de carnivoren kijken, zien we bijvoorbeeld dat er 10 waarnemingen zijn van honden, 5 van katten, 2 van de Bengaalse tijger en dat van de andere soorten slechts 1 waarneming aanwezig is. Het is hoogst te betwijfelen dat in de werkelijke populatie van “Carnivoren” de frequentieverdeling van de groepen gelijk is als deze dataset. Bij het verzamelen van genetische data wordt namelijk eerder gekeken naar soorten van interesse (of soorten waar men gemakkelijk toegang toe krijgt). In het optimale geval zou de steekproef (database) de werkelijke frequentie van de populatie moeten benaderen. De steekproef is dus niet aselect gebeurd waardoor het resultaat vertekend zal zijn door de overrepresentatie van bepaalde dieren en de onderrepresentatie van andere dieren.