Bij tekstanalyse gebruikt men vaak volgende concepten:
Het omzetten van een tekst naar een bag of words wordt vaak gebruikt in tekstanalyse.
get_tokens
Schrijf een functie get_tokens met één argument: een tekst (string)
Een lijst met tokens wordt opgesteld. Volg daarbij volgende stappen:
bag_of_words
Schrijf een functie bag_of_words met één argument: een tekst (string)
De functie retourneert een lijst van tuples, waarbij elk tuple bestaan uit een token (string) en een geheel getal. Het getal geeft aan hoeveel keer dit token voorkomt in de zin.
wordcount
Schrijf een functie wordcount met twee argumenten: een tekst (string) en een woord (dit is een string waar geen spaties in voorkomen)
De functie zet het opgegeven woord om in een token zoals hierboven beschreven en geeft vervolgens weer hoe vaak dit token voorkomt. De functie retourneert een geheel getal.
>>> doc = "Ik ben Kamiel Kafka... ik ben Kamiel Kafka. En ik zal het maar 1 keer zeggen ;)" >>> get_tokens(doc) ['ik', 'ben', 'kamiel', 'kafka', 'ik', 'ben', 'kamiel', 'kafka', 'en', 'ik', 'zal', 'het', 'maar', 'keer', 'zeggen'] >>> bag_of_words(doc) {'ben': 2, 'en': 1, 'het': 1, 'ik': 3, 'kafka': 2, 'kamiel', 2, 'keer', 1, 'maar': 1, 'zal': 1, 'zeggen': 1} >>> wordcount(doc, "kafka") 2