In deze oefening geven we een start voor het analyseren van tekst in een e-mail.

We beschikken over een aantal berichten in tekstfiles (.txt bestanden). De naam van het bestand is telkens MM-DD.txt (maand en dag).

Opgave

woordenlijst

Schrijf een functie woordenlijst met twee gehele getallen m en d als argumenten, respectievelijk de maand en de dag waarop de mail verzonden is.

De functie leest het bestand in met naam MM-DD.txt (maand en dag worden altijd met twee cijfers genoteerd, bijvoorbeeld 28 maart wordt 03-28.txt).

Vervolgens wordt de tekst omgezet naar een lijst met woorden.

De woorden komen in deze lijst in de volgorde zoals die in de oorspronkelijke stond stonden. De woorden worden ontdaan van leestekens vooraan of achteraan, en staan in kleine letters. Onder leestekens verstaan we deze karakters: .,!?;\n-()

De functie retourneert een lijst met woorden. Zorg ervoor dat hier geen lege string in voorkomt.
voorkomens

Schrijf een functie voorkomens met drie argumenten: twee gehele getallen m en d en een woord (string).

De functie leest het bestand in met naam MM-DD.txt. Vervolgens wordt deze tekst omgezet naar een lijst met woorden zoals hierboven en wordt geteld hoe vaak het opgegeven woord voorkomt in de tekst.

De functie retourneert een geheel getal.

Databestanden

De bestanden zijnbeschikbaar in het working directory van Dodona.

Als je de oefening lokaal wilt maken (in PyCharm of in een Jupyter Notebook), dan moet je de bestanden downloaden en bewaren in dezelfde map als je .py of .ipynb bestand.

De bestanden kan je hier downloaden:

Voorbeeld

        >>> woordenlijst(3, 2)
['beste', 'studenten', 'dit', 'is', 'een', 'kort', 'bericht', 'dat', 'niet', 'over', 'corona', 'gaat', 'vriendelijke', 'groeten', 'els', 'clarysse']

>>> voorkomens(3, 2, "groeten")
1

>>> voorkomens(3, 2, "vriendelijk")
0