Naar aanleiding van de geografische migratie in de Verenigde Staten ten tijde van de vooroorlogse econonomische depressie, merkte de Amerikaanse komiek Will Rogers1 het volgende op:
Toen de Okies2 Oklahoma verlieten en naar Californië verhuisden, verhoogden ze het gemiddelde intelligentieniveau in beide staten.
Dat was natuurlijk als grap bedoeld, maar het fenomeen is daadwerkelijk mogelijk. Beschouw bijvoorbeeld de volgende twee reeksen natuurlijke getallen: \[ \begin{eqnarray}A &=& [5, 6, 7, 8, 9] \\ B &=& [1, 2, 3, 4] \end{eqnarray} \] Als we element 5 verplaatsen van reeks $$A$$ naar reeks $$B$$ dan stijgt het gemiddelde van beide reeksen.
Dit zogenaamd Will Rogers-fenomeen3 heeft een enigszins paradoxaal effect wanneer artsen een betere manier vinden om een ziekte op te sporen. Betere screening zorgt er immers voor dat relatief gezonde mensen verplaatst worden van de categorie "gezond" naar de categorie "ziek", waardoor de gemiddelde gezondheid van beide populaties verbetert nog voor de behandeling plaatsvindt.
We stellen een reeks natuurlijke getallen voor als een lijst (list) of een tuple (tuple) van natuurlijke getallen (int). Daarbij mag je er altijd van uitgaan dat geen enkele reeks (list of tuple) leeg is. Gevraagd wordt:
Schrijf een functie gemiddelde waaraan een reeks (list of tuple) natuurlijke getallen (int) moet doorgegeven worden. De functie moet het gemiddelde (float) van de getallen uit de gegeven reeks teruggeven.
Schrijf een functie verplaats1 waaraan drie argumenten moeten doorgegeven worden: twee lijsten $$a$$ en $$b$$ (list) met natuurlijke getallen (int), en een reeks $$c$$ (list of tuple) met natuurlijke getallen (int) die geselecteerd werden uit lijst $$a$$. De functie moet de waarde None teruggeven, maar na het aanroepen van de functie moeten alle getallen van reeks $$c$$ verwijderd zijn uit lijst $$a$$ en in de opgegeven volgorde achteraan toegevoegd zijn aan lijst $$b$$. Als een getal verschillende keren voorkomt in lijst $$a$$, dan moet telkens het eerste voorkomen ervan verwijderd worden.
Schrijf een functie verplaats2 waaraan drie argumenten moeten doorgegeven worden: twee reeksen $$a$$ en $$b$$ (list of tuple) met natuurlijke getallen (int), en een reeks $$c$$ (list of tuple) met natuurlijke getallen (int) die geselecteerd werden uit reeks $$a$$. De functie mag geen enkel argument wijzigen, maar moet een tuple (tuple) met twee nieuwe lijsten (list) teruggeven. De eerste lijst bevat alle getallen (int) van reeks $$a$$, in de opgegeven volgorde, maar waaruit alle getallen van reeks $$c$$ verwijderd werden. Als een getal verschillende keren voorkomt in lijst $$a$$, dan moet telkens het eerste voorkomen ervan verwijderd worden. De tweede lijst bevat alle getallen (int) van reeks $$b$$, waaraan achteraan alle getallen (int) van reeks $$c$$ in de opgegeven volgorde toegevoegd werden.
Schrijf een functie iswillrogers waaraan drie argumenten moeten doorgegeven worden: twee reeksen $$a$$ en $$b$$ (list of tuple) met natuurlijke getallen (int), en een reeks $$c$$ (list of tuple) met natuurlijke getallen (int) die geselecteerd werden uit reeks $$a$$. De functie mag geen enkel argument wijzigen, en moet een Booleaanse waarde (bool) teruggeven die aangeeft of het gemiddelde van beide reeksen $$a$$ en $$b$$ zou stijgen als de getallen van reeks $$c$$ uit reeks $$a$$ zouden verwijderd worden en aan reeks $$b$$ zouden toegevoegd worden.
>>> gemiddelde((5, 6, 7, 8, 9))
7.0
>>> gemiddelde([1, 2, 3, 4])
2.5
>>> reeks1 = [5, 6, 7, 8, 9]
>>> reeks2 = [1, 2, 3, 4]
>>> reeks3 = [5]
>>> verplaats1(reeks1, reeks2, reeks3)
>>> reeks1
[6, 7, 8, 9]
>>> reeks2
[1, 2, 3, 4, 5]
>>> reeks3
[5]
>>> reeks1 = (5, 6, 7, 8, 9)
>>> reeks2 = [1, 2, 3, 4]
>>> reeks3 = [5]
>>> verplaats2(reeks1, reeks2, reeks3)
([6, 7, 8, 9], [1, 2, 3, 4, 5])
>>> reeks1
(5, 6, 7, 8, 9)
>>> reeks2
[1, 2, 3, 4]
>>> reeks3
[5]
>>> iswillrogers([5, 6, 7, 8, 9], [1, 2, 3, 4], [5])
True
>>> iswillrogers((5, 6, 7, 8, 9), (1, 2, 3, 4), (7, 9))
False
Het Will Rogers-fenomeen4 komt in de praktijk bijvoorbeeld voor wanneer groepen patiënten met een carcinoom5 — in stadia ingedeeld volgens het TNM-systeem6 — met elkaar vergeleken worden. Felsenstein et al. vergeleken twee groepen patiënten met longcarcinoom bij wie de diagnose respectievelijk gesteld was in 1953–54 en in 1977. Terwijl de verdeling van de patiënten over de TNM-stadia I–III in beide groepen gelijk was, bleek de overleving na 6 maanden voor alle stadia beter te zijn in de groep uit 1977.
Feit was echter dat in 1977 ten behoeve van de stadiumindeling ook veelvuldig gebruik was gemaakt van moderne methoden zoals computertomografie, echografie en isotopenonderzoek. Als de patiënten in 1977 ingedeeld zouden zijn zonder gebruik te maken van deze technieken, dan zou een aanzienlijk aantal in een gunstiger stadium terecht zijn gekomen. Als in dat laatste geval de overleving na 6 maanden opnieuw werd berekend, dan zou deze niet verschillen van de in 1953–54 behandelde patiënten.
De verbeterde overleving in 1977 bleek dus geen gevolg van een verbeterde therapie, maar was het resultaat van een meer nauwkeurige stadiumindeling door gebruik te maken van nieuwe diagnostische technieken. Dit onderzoek toont het gevaar aan van conclusies gebaseerd op vergelijkingen met historische controlegroepen, zelfs als gebruik gemaakt wordt van een schijnbaar gelijke stadiumindeling.
Feinstein AR, Sosin DM, Wells CK (1985). The Will Rogers phenomenon. Stage migration and new diagnostic techniques as source of misleading statistics for survival in cancer. The New England Journal of Medicine 312(25), 1604–1608. 7
Sormani MP, Tinorè M, Rovaris M, Rovira A, Vidal X, Bruzzi P, Filippi M, Montalban X (2008). Will Rogers phenomenon in multiple sclerosis. Annals of Neurology 64(4), 428–433. 8