Hoogste loon van data scientists per land

Voor deze oefening maken we gebruik van een dataset met de resultaten van een bevraging bij 3755 data scientists betreffende hun functie en salaris tussen 2020 en 2023.

We werken met een bestand dat werd gedownload vanop Kaggle via deze link: https://www.kaggle.com/datasets/arnabchaki/data-science-salaries-2023/data¹

Hieronder de eerste regels van het bestand "ds_salaries.csv".

ds_salaries.csv

Eerste lijnen in het bestand.

De dataset bevat volgende gegevens voor 3755 data scientists:

work_year: het jaar waarin het salaris uitbetaald was
experience_level: EN = Entry Level, MI = Mid Level, SE = Senior Level, EX = Executive Level
employment_type: FT = fulltime, FL = freelancer, CT = contractor, PT = parttime
job_title: de functie
salary: bruto jaarsalaris
salary_currency: de munteenheid volgens ISO 4217 currency code
salaryinusd: salaris in USD
employee_residence: het land waar de werknemer woont (ISO 3166 country code)
remote_ratio: percentage tijd waar de werknemer van op afstand werkt
company_location: het land waar het bedrijf gevestigd is (ISO 3166 country code)
company_size: de grootte van het bedrijf

Databestand

Het bestand is beschikbaar in het working directory van Dodona. Om te debuggen in PyCharm of in een Jupyter Notebook) zal je het bestand moeten downloaden en bewaren in dezelfde map als je .py of .ipynb bestand.

Je kan het bestand hier downloaden:

ds_salaries.csv²

Opgave

gegevens

Schrijf een functie gegevens met één argument: een landcode (string)

De functie leest het databestand in en retourneert een geneste lijst.

Voor elke data scientist uit dit land (employee_residence) wordt een sublijst toegevoegd met drie elementen: jaartal (int), experience_level (string) en salaris in USD (int). De sublijsten staan in dezelfde volgorde als ze voorkomen in de dataset.

Als er geen records zijn voor het opgegeven land, dan retourneert de functie een lege lijst.

Voorbeelden
```
>>> gegevens("BE")
[[2022, 'EN', 50000], [2022, 'EN', 84053], [2022, 'EN', 52008], [2021, 'SE', 82744], [2021, 'MI', 88654]]
>>> gegevens("XX")
[]

      
```
hoogste_loon

Schrijf een functie hoogste_loon met twee argumenten: een landcode (string) en een jaartal (int).

De functie haalt de gegevens op van het land en gaat na wat het hoogste gerapporteerde loon (in USD) is per experience level in dat land voor dit jaartal.

De functie retourneert een dictionary met als sleutels de experience levels waarvoor er minstens één respondent is voor dit land en jaartal.

Als er geen respondenten zijn voor dit land, dan retourneert de functie de string
"Er zijn geen respondenten uit dit land"

Als er wel respondenten zijn voor dit land, maar geen enkele voor dit jaartal, dan retourneert de functie de string
"Er zijn geen gegevens uit dit land voor dit jaar"

Voorbeelden
```
>>> hoogste_loon('BE', 2021)
{'SE': 82744, 'MI': 88654}
>>> hoogste_loon('BE', 2039)
'Er zijn geen gegevens uit dit land voor dit jaar'
>>> hoogste_loon('XX', 2021)
'Er zijn geen respondenten uit dit land'
      
```

Hoogste loon van data scientists per land

Databestand

Opgave

Voorbeelden

Voorbeelden