Player stats

Voor deze oefening maken we gebruik van een dataset met statistieken van de spelers die deelnamen aan de kwalificatiewedstrijden voor het wereldkampioenschap voetbal in Qatar in 2022.

Gegevens

Voor elk land dat deelnam aan de kwalificatie, beschikken we over een bestand met alle spelers die minstens één keer opgeroepen werden voor een kwalificatiewedsstrijd.

De bestanden werden gedownload vanop Kaggle via deze link: https://www.kaggle.com/datasets/mateusdesousamartins/world-cup-2022-national-teams-data-set?resource=download1

Als voorbeeld zie je hieronder de eerste regels van het bestand "2022 Belgium.csv".

schermafdruk csv
2022 Belgium.csv
Eerste lijnen in het bestand.

Elke speler staat op een afzonderlijke rij en voor elke speler zijn er 24 kolommen (inclusief eerste kolom met een volgnummer). Voor deze oefening zijn we enkel geïnteresseerd in deze kolommen:

  1. Player: naam van de speler
  2. Pos: de positie(s) op het veld. Deze worden als volgt afgekort:
    • DF: verdediger
    • MF: middenvelder
    • FW: aanvaller
    • GK: doelman
    Sommige spelers komen in aanmerking voor meer dan één positie, in dat geval worden de verschillende mogelijkheden door een komma gescheiden. Bijvoorbeeld 'Adnan Januzaj': 'FW,MF'.
  3. Min_Playing_Time: het totaal aantal speelminuten van deze speler tijdens alle kwalificatiewedstrijden samen. Voor spelers die geen speelminuten kregen komt hier de string "NA".

Databestanden

Voor elk land X beschik je over een databestand 2022 X.csv waarin X de naam van het land (in het Engels) voorstelt.

De bestanden zijn geëncodeerd via utf-8 encoding. Je kan ze openen via volgende instructie:
f = open('2022 X.csv', 'r', encoding='utf-8')

De bestanden zijn beschikbaar in het working directory van Dodona. Als je de oefening echter lokaal wilt maken (in PyCharm of in een Jupyter Notebook), dan moet je de bestanden downloaden en bewaren in dezelfde map als je .py of .ipynb bestand.

Je kan de bestanden van 5 landen hier downloaden:

Opgave