De urllib
module geeft je de mogelijkheid om webpagina’s te benaderen
zoals je bestanden benadert. Er zijn twee modules die van belang zijn:
urllib.request
bevat functies om informatie op het Internet te
benaderen, en urllib.error
bevat definities van exceptions die
gegenereerd kunnen worden. Je kunt urllib
ook gebruiken om te
communiceren met webpagina’s; als je dat wilt doen, moet je de
urllib.parse
module bestuderen. Ik geef hier alleen een eenvoudig
voorbeeld waarin de inhoud van een webpagina wordt gelezen.
from urllib.request import urlopen
from urllib.error import HTTPError, URLError
from sys import exit
try:
u = urlopen( "http://www.python.org" )
except HTTPError as e:
print( "HTTP Error", e )
sys.exit()
except URLError as e:
print( "URL error", e )
sys.exit()
for i in range( 5 ):
tekst = u.readline()
print( tekst )
u.close()
Merk op dat van urllib
alleen urlopen
geïmporteerd hoeft te worden.
Zodra je een webpagina hebt geopend, beschik je over een handle, waarop
je de reguliere methodes kunt gebruiken die zijn uitgelegd in hoofdstuk
17.