Een website of webpagina wordt opgebouwd in html-code. Dat is tekst verrijkt met zogenaamde tags, dit zijn speciale codes die tussen brackets staan. Meer info: https://www.w3schools.com/html/
Als je op een webpagina een e-mail-link wil plaatsten, dan doe je dat op deze manier:
<a href="mailto:voornaam.familienaam@bedrijf.be">Klik hier om te mailen</a>
Op een website verschijnt dit als een hyperlink: Klik hier om te mailen1
De broncode of html-code van een webpagina kan je steeds zichtbaar maken in je browser. Ook via een python programma kan je "surfen" naar een webpagina en de html-code inlezen als een string. Je zou dit bijvoorbeeld kunnen gebruiken om op automatische manier e-mailadressen te verzamelen.
href
-attribuut voorafgegaan door mailto:
. Je mag er ook van uitgaan dat dit steeds tussen aanhalingstekens (double quotes) staat.
E-mailadressen die niet voorafgaan door mailto:
worden genegeerd.
Een stukje html-code op één regel.
Alle e-mailadressen, gescheiden door puntkomma. Als er geen mailto-link voorkomt in de html-code, is de output de string "geen e-mailadres gevonden".
Invoer:
<tr><td><a class="internal-link" href="https://www.ugent.be/eb/nl/student/overzicht.htm" target="_self">Facultaire studentenadministratie (FSA)</a></td><td>09/264.79.27</td><td><a class="email-link" href="mailto:fsa.eb@ugent.be" target="_self">fsa.eb@ugent.be</a></td></tr><tr><tr><td><a href="mailto:int.feb@ugent.be">int.feb@ugent.be</a></td><td><a class="email-link" href="mailto:stage.eb@ugent.be" target="_self">stage.eb@ugent.be</a></td>
Uitvoer:
fsa.eb@ugent.be;int.feb@ugent.be;stage.eb@ugent.be
Invoer:
<div><p><span style="font-family: ETmodules;"></span> praeses@moederlies.be</p></div><p class="et_pb_member_position"></p></span>
Uitvoer:
geen e-mailadres gevonden