Bij tekstanalyse gebruikt men vaak volgende concepten:

Het omzetten van een tekst naar een bag of words is dikwijls een eerste stap in een tekstanalyse, zoals bijvoorbeeld sentiment analysis of natural language processing (NLP).

Opgave

Voorbeelden

>>> doc = "Ik ben Kamiel Kafka... ik ben Kamiel Kafka. En ik zal het maar 1 keer zeggen ;)"

>>> get_tokens(doc)
['ik', 'ben', 'kamiel', 'kafka', 'ik', 'ben', 'kamiel', 'kafka', 'en', 'ik', 'zal', 'het', 'maar', 'keer', 'zeggen']


>>> unique_tokens(doc)
['ben', 'en', 'het', 'ik', 'kafka', 'kamiel', 'keer', 'maar', 'zal', 'zeggen']


>>> bag_of_words(doc)
[('ben', 2), ('en', 1), ('het', 1), ('ik', 3), ('kafka', 2), ('kamiel', 2), ('keer', 1), ('maar', 1), ('zal', 1), ('zeggen', 1)]


>>> wordcount(doc, "kafka")
2