Bij tekstanalyse gebruikt men vaak volgende concepten:

Het omzetten van een tekst naar een bag of words wordt vaak gebruikt in tekstanalyse.

Opgave

Voorbeelden

>>> doc = "Ik ben Kamiel Kafka... ik ben Kamiel Kafka. En ik zal het maar 1 keer zeggen ;)"

>>> get_tokens(doc)
['ik', 'ben', 'kamiel', 'kafka', 'ik', 'ben', 'kamiel', 'kafka', 'en', 'ik', 'zal', 'het', 'maar', 'keer', 'zeggen']


>>> bag_of_words(doc)
{'ben': 2, 'en': 1, 'het': 1, 'ik': 3, 'kafka': 2, 'kamiel', 2, 'keer', 1, 'maar': 1, 'zal': 1, 'zeggen': 1}


>>> wordcount(doc, "kafka")
2