In deze oefening geven we een start voor het analyseren van tekst in een e-mail.
We beschikken over een aantal berichten in tekstfiles (.txt bestanden). De naam van het bestand is telkens MM-DD.txt (maand en dag).
woordenlijst
Schrijf een functie woordenlijst met twee gehele getallen
De functie leest het bestand in met naam MM-DD.txt (maand en dag worden altijd met twee cijfers genoteerd, bijvoorbeeld 28 maart wordt 03-28.txt).
Vervolgens wordt de tekst omgezet naar een lijst met woorden.
De woorden komen in deze lijst in de volgorde zoals die in de oorspronkelijke stond stonden. De woorden worden ontdaan van leestekens vooraan of achteraan, en staan in kleine letters. Onder leestekens verstaan we deze karakters: .,!?;\n-()
De functie retourneert een lijst met woorden. Zorg ervoor dat hier geen lege string in voorkomt.
voorkomens
Schrijf een functie voorkomens met drie argumenten: twee gehele getallen
De functie leest het bestand in met naam MM-DD.txt. Vervolgens wordt deze tekst omgezet naar een lijst met woorden zoals hierboven en wordt geteld hoe vaak het opgegeven woord voorkomt in de tekst.
De functie retourneert een geheel getal.
De bestanden zijnbeschikbaar in het working directory van Dodona.
Als je de oefening lokaal wilt maken (in PyCharm of in een Jupyter Notebook), dan moet je de bestanden downloaden en bewaren in dezelfde map als je .py of .ipynb bestand.
De bestanden kan je hier downloaden:
>>> woordenlijst(3, 2) ['beste', 'studenten', 'dit', 'is', 'een', 'kort', 'bericht', 'dat', 'niet', 'over', 'corona', 'gaat', 'vriendelijke', 'groeten', 'els', 'clarysse'] >>> voorkomens(3, 2, "groeten") 1 >>> voorkomens(3, 2, "vriendelijk") 0