Bij tekstanalyse gebruikt men vaak volgende concepten:

Tokens: woorden uit een zin of tekst worden dikwijls tokens genoemd
Normaliseren: alle hoofdletters worden naar kleine letters omgezet
Bag of words: een tekst kan omgezet worden naar een bag of words. Dat is een lijst met tokens waarbij aangegeven wordt hoe vaak elk token voorkomt in de tekst. Meestal wordt de tekst dan genormaliseerd en worden de leestekens en/of getallen verwijderd. Een bag of words wordt ook soms een word vector genoemd.

Het omzetten van een tekst naar een bag of words is dikwijls een eerste stap in een tekstanalyse, zoals bijvoorbeeld sentiment analysis of natural language processing (NLP).

Opgave

get_tokens

Schrijf een functie get_tokens met één argument: een tekst (string)

Een lijst met tokens wordt opgesteld. Volg daarbij volgende stappen:
1. Alle getallen en speciale karakters worden verwijderd behalve de spaties. (tip: gebruik de functie isalpha)
2. Alles wordt omgezet naar kleine letters.
3. De woorden (tokens) zijn gescheiden door spaties.
4. Een lege string is geen geldig token.
5. De lijst bevat de tokens in de oorspronkelijke volgorde.
unique_tokes

Schrijf een functie unique_tokens met één argument: een tekst (string)

De functie geeft een lijst terug met alle tokens alfabetisch gesorteerd. Elk uniek token mag maar één keer voorkomen in deze lijst.
bag_of_words

Schrijf een functie bag_of_words met één argument: een tekst (string)

De functie retourneert een lijst van tuples, waarbij elk tuple bestaan uit een token (string) en een geheel getal. Het getal geeft aan hoeveel keer dit token voorkomt in de zin.
popular_words

Schrijf een functie popular_words met één argument: een tekst (string)

De functie retourneert een alfabetische lijst met tokens. Enkel de tokens die minstens twee keer voorkomen in de zin, mogen opgenomen worden in deze lijst.

Voorbeelden

        >>> doc = "Ik ben Kamiel Kafka... ik ben Kamiel Kafka. En ik zal het maar 1 keer zeggen ;)"

>>> get_tokens(doc)
['ik', 'ben', 'kamiel', 'kafka', 'ik', 'ben', 'kamiel', 'kafka', 'en', 'ik', 'zal', 'het', 'maar', 'keer', 'zeggen']

>>> unique_tokens(doc)
['ben', 'en', 'het', 'ik', 'kafka', 'kamiel', 'keer', 'maar', 'zal', 'zeggen']

>>> bag_of_words(doc)
[('ben', 2), ('en', 1), ('het', 1), ('ik', 3), ('kafka', 2), ('kamiel', 2), ('keer', 1), ('maar', 1), ('zal', 1), ('zeggen', 1)]

>>> popular_words(doc)
['ben', 'ik', 'kafka', 'kamiel']