Meest voorkomende data science jobs per land

Voor deze oefening maken we gebruik van een dataset met de resultaten van een bevraging bij 3755 data scientists betreffende hun functie en salaris tussen 2020 en 2023.

We werken met een bestand dat werd gedownload vanop Kaggle via deze link: https://www.kaggle.com/datasets/arnabchaki/data-science-salaries-2023/data1

Hieronder de eerste regels van het bestand "ds_salaries.csv".

schermafdruk csv
ds_salaries.csv
Eerste lijnen in het bestand.

De dataset bevat volgende gegevens voor 3755 data scientists:

  1. work_year: het jaar waarin het salaris uitbetaald was
  2. experience_level: EN = Entry Level, MI = Mid Level, SE = Senior Level, EX = Executive Level
  3. employment_type: FT = fulltime, FL = freelancer, CT = contractor, PT = parttime
  4. job_title: de functie
  5. salary: bruto jaarsalaris
  6. salary_currency: de munteenheid volgens ISO 4217 currency code
  7. salaryinusd: salaris in USD
  8. employee_residence: het land waar de werknemer woont (ISO 3166 country code)
  9. remote_ratio: percentage tijd waar de werknemer van op afstand werkt
  10. company_location: het land waar het bedrijf gevestigd is (ISO 3166 country code)
  11. company_size: de grootte van het bedrijf

Databestand

Het bestand is beschikbaar in het working directory van Dodona. Om te debuggen in PyCharm of in een Jupyter Notebook) zal je het bestand moeten downloaden en bewaren in dezelfde map als je .py of .ipynb bestand.

Je kan het bestand hier downloaden:

Opgave