HTML en XML zijn standaardformaten die gebruikt worden om informatie op webpagina’s te tonen. Ze bestaan uit leesbare tekst, waarin formatteringsinstructies zijn opgenomen. Data analisten moeten regelmatig data “schrapen” uit webpagina’s. Je kunt daar reguliere expressies voor gebruiken, maar als de pagina’s redelijk fatsoenlijk geformatteerd zijn, kun je de “Beautiful Soup” module gebruiken.

De Beautiful Soup module wordt in Python bs4 genoemd (bs3 kwam ervoor, en er kunnen meer updates volgen). De module bevat de BeautifulSoup class die je kunt gebruiken om HTML en XML bestanden te laden. bs4 wordt niet standaard door Python ondersteund; je moet het apart installeren, wat een beetje gedoe geeft, tenzij je gebruik maak van het pip programma dat wel standaard met Python 3 wordt meegeleverd.

Een alternatief voor Beautiful Soup is de lxml module, maar de eerstgenoemde is populairder.

Omdat dit soort modules apart installaties nodig hebben, ga ik ze niet hier beschrijven. Ik wil alleen aangeven dat als je data uit webpagina’s wilt halen (en dat moet je inderdaad waarschijnlijk doen op een bepaald moment), je beter eerst de standaard hulpmiddelen die beschikbaar zijn kunt bestuderen voordat je je werpt op het ontwerpen van excentrieke reguliere expressies.