Sentimentanalyse (of opinion mining) is het op een geautomatiseerde manier toewijzen van een sentiment aan een tekst. Het wordt onder meer toegepast om positieve en negatieve berichten op sociale media betreffende een bepaald product, persoon of bedrijf te capteren.

In deze oefening zullen we een eigen algoritme toepassen om het sentiment van film reviews te bepalen. We maken daarvoor gebruik van twee lijsten: een lijst met woorden met positieve connotatie en een lijst met woorden met een negatieve connotatie.

De lijsten zijn bewaard in twee eenvoudige tekstbestanden: positive.txt en negative.txt. De woorden staan elk op een afzonderlijke lijn. De woorden zijn in kleine letters.

screenshot positive.csv
screenshot positive.csv

Databestanden

De bestanden zijn beschikbaar in het working directory van Dodona.

Als je de oefening lokaal wilt maken (in PyCharm of in een Jupyter Notebook), dan moet je de bestanden downloaden en bewaren in dezelfde map als je .py of .ipynb bestand.

De bestanden kan je hier downloaden:

Opgave

Bron: Minqing Hu and Bing Liu, “Mining and summarizing customer reviews.”, Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD-2004), Seattle, Washington, USA, Aug 22-25, 2004.