Bij tekstanalyse gebruikt men vaak volgende concepten:
Het omzetten van een tekst naar een bag of words is dikwijls een eerste stap in een tekstanalyse, zoals bijvoorbeeld sentiment analysis of natural language processing (NLP).
get_tokens
Schrijf een functie get_tokens met één argument: een tekst (string)
Een lijst met tokens wordt opgesteld. Volg daarbij volgende stappen:
unique_tokes
Schrijf een functie unique_tokens met één argument: een tekst (string)
De functie geeft een lijst terug met alle tokens alfabetisch gesorteerd. Elk uniek token mag maar één keer voorkomen in deze lijst.
bag_of_words
Schrijf een functie bag_of_words met één argument: een tekst (string)
De functie retourneert een lijst van tuples, waarbij elk tuple bestaan uit een token (string) en een geheel getal. Het getal geeft aan hoeveel keer dit token voorkomt in de zin.
wordcount
Schrijf een functie wordcount met twee argumenten: een tekst (string) en een woord (dit is een string waar geen spaties in voorkomen)
De functie zet het opgegeven woord om in een token zoals hierboven beschreven en geeft vervolgens weer hoe vaak dit token voorkomt. De functie retourneert een geheel getal.
>>> doc = "Ik ben Kamiel Kafka... ik ben Kamiel Kafka. En ik zal het maar 1 keer zeggen ;)" >>> get_tokens(doc) ['ik', 'ben', 'kamiel', 'kafka', 'ik', 'ben', 'kamiel', 'kafka', 'en', 'ik', 'zal', 'het', 'maar', 'keer', 'zeggen'] >>> unique_tokens(doc) ['ben', 'en', 'het', 'ik', 'kafka', 'kamiel', 'keer', 'maar', 'zal', 'zeggen'] >>> bag_of_words(doc) [('ben', 2), ('en', 1), ('het', 1), ('ik', 3), ('kafka', 2), ('kamiel', 2), ('keer', 1), ('maar', 1), ('zal', 1), ('zeggen', 1)] >>> wordcount(doc, "kafka") 2