Bij tekstanalyse gebruikt men vaak volgende concepten:
Het omzetten van een tekst naar een bag of words is dikwijls een eerste stap in een tekstanalyse, zoals bijvoorbeeld sentiment analysis of natural language processing (NLP).
get_tokens
Schrijf een functie get_tokens met één argument: een tekst (string)
Een lijst met tokens wordt opgesteld. Volg daarbij volgende stappen:
unique_tokes
Schrijf een functie unique_tokens met één argument: een tekst (string)
De functie geeft een lijst terug met alle tokens alfabetisch gesorteerd. Elk uniek token mag maar één keer voorkomen in deze lijst.
bag_of_words
Schrijf een functie bag_of_words met één argument: een tekst (string)
De functie retourneert een lijst van tuples, waarbij elk tuple bestaan uit een token (string) en een geheel getal. Het getal geeft aan hoeveel keer dit token voorkomt in de zin.
popular_words
Schrijf een functie popular_words met één argument: een tekst (string)
De functie retourneert een alfabetische lijst met tokens. Enkel de tokens die minstens twee keer voorkomen in de zin, mogen opgenomen worden in deze lijst.
>>> doc = "Ik ben Kamiel Kafka... ik ben Kamiel Kafka. En ik zal het maar 1 keer zeggen ;)" >>> get_tokens(doc) ['ik', 'ben', 'kamiel', 'kafka', 'ik', 'ben', 'kamiel', 'kafka', 'en', 'ik', 'zal', 'het', 'maar', 'keer', 'zeggen'] >>> unique_tokens(doc) ['ben', 'en', 'het', 'ik', 'kafka', 'kamiel', 'keer', 'maar', 'zal', 'zeggen'] >>> bag_of_words(doc) [('ben', 2), ('en', 1), ('het', 1), ('ik', 3), ('kafka', 2), ('kamiel', 2), ('keer', 1), ('maar', 1), ('zal', 1), ('zeggen', 1)] >>> popular_words(doc) ['ben', 'ik', 'kafka', 'kamiel']