De internationale keten van koffiehuizen Starbucks1 is aanwezig in minsten 76 landen. Men verkoopt er een grote waaier aan koffiemixen en dranken op koffiebasis. Bij elk drankje kan je voor een bepaalde grootte, een hoeveelheid room, siroop, enz… kiezen. Starbucks beweert dat er meer dan 170 000 verschillende keuzes2 mogelijk zijn.
In deze oefening werpen we een blik op de hoeveelheid cafeïne in suikerarme en suikerrijke drankjes.
Deze dataset3 bevat voor verschillende keuzeopties het aantal calorieën, het aantal gram suiker, de hoeveelheid cafeïne, enz…
Je kan de data inlezen via het volgende commando:
# Een dataset over Starbucks
data <- read.csv("https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2021/2021-12-21/starbucks.csv",
header = TRUE,
colClasses = c("character", rep("NULL", 3), rep("numeric", 3), rep("NULL",4), rep("numeric", 4)))
Gebruik head(data)
om een voorsmaakje van de gegevens te verkrijgen.
product_name serv_size_m_l calories total_fat_g total_carbs_g fiber_g sugar_g caffeine_mg
1 brewed coffee - dark roast 236 3 0.1 0 0 0 130
2 brewed coffee - dark roast 354 4 0.1 0 0 0 193
3 brewed coffee - dark roast 473 5 0.1 0 0 0 260
4 brewed coffee - dark roast 591 5 0.1 0 0 0 340
5 brewed coffee - decaf pike place roast 236 3 0.1 0 0 0 15
6 brewed coffee - decaf pike place roast 354 4 0.1 0 0 0 20
De kolommen spreken eigenlijk voor zich. product_name
bevat de naam van de verschillende dranken, serv_size_m_l
de bekermaat (in ml), calories
, total_fat_g
, total_carbs_g
, fiber_g
, sugar_g
en caffeine_mg
respectievelijk het aantal calorieën en daarna de hoeveelheden vet, koolhydraten, vezels, suiker en cafëine.
Je merkt dat de dataset gegevens van hetzelfde product, maar in verschillende maten bevat. We zullen ons enkel focussen op een bekermaat van 473 ml, genaamd “Tall”. Maar hiervoor een booleaanse variabele aan grote_beker
. (In de volgende opgaves werk je telkens met deze bekermaat.)
Volgens verschillende artsen mag een zwangere vrouw niet meer dan 200 mg cafeïne per dag consumeren. Hoeveel (grote) drankjes zijn er die hier niet aan voldoen? Sla dit op in de variabele aantal_teveel_caf
.
Onderzoek welke drankjes (product_name
) meer dan een gemiddeld aantal g suiker en aantal mg cafeïne bevatten. Sla deze drankjes op in de variabele ongezonde_drank
. Hoeveel procent van het aanbod is dit? Sla dit op in de variabele ongezond_percentage
en rond af op 2 cijfers na de komma.
Maak hiervoor zelf de nodige hulpvariabelen. Denk eraan om enkel te werken met de grote bekermaat.
Tip
Maak als hulpvariabelen (onder andere) vectoren aan waar je enkel van de grote bekermaat de hoeveelheid suiker en cafeïne in opslaat.