Iedereen ergert zich wel eens aan jargon — van die meerlettergrepige technische termen die gebruikt worden in plaats van eenvoudige woorden, of erger nog, alledaagse woorden die omgetoverd worden tot technische vaktaal die voor buitenstaanders vaak moeilijk te begrijpen is. Hieronder staan alvast twee van mijn favoriete (zij het ietwat oude) definities van geologische termen, die allebei lichtjes ironisch moeten opgevat worden.

"Crocydite, belonging to the group of vaguely bordered migmatites (dictyonite, nebulite, stictolite), may be genetically defined by the new terminology as an endomerismite with magmatic neosome in a palaeosome which is a stereogenic cyriosome." (de Waard D, 1950)

"A cactolith is a quasihorizontal chonolith composed of anastomosing ductoliths whose distal ends curl like a harpolith, thin like a sphenolith, or bulge discordantly like an akmolith or ethmolith." (Hunt CB, 1953)

Deze laatste term en de bijhorende definitie zijn van de hand van Charles B. Hunt, onderzoeker aan de United States Geological Survey (USGS). Naast het feit dat hij daarmee een werkelijk geologisch fenomeen beschreef — een laccoliet die hij had waargenomen en die de vorm had van een cactus — was het meteen ook een ironische commentaar op wat hij zag als een absurd aantal "-lith" woorden in het domein van de geologie. Het tijdschrift Word Ways: The Journal of Recreational Linguistics1 riep cactolith uit tot haar woord van het jaar voor 2010.

Om de leesbaarheid van teksten te bepalen, wordt in de taalkunde vaak gebruikgemaakt van de Gunning-Fog index. Deze index geeft een schatting van het aantal jaren onderwijs dat iemand moet genoten hebben om een bepaalde tekst te kunnen begrijpen bij eerste lezing. Een fog index van 12 vereist bijvoorbeeld het leesniveau die een beginnende universitair zou moeten hebben (leeftijd van ongeveer 18 jaar). De fog index wordt doorgaans gebruikt om te bevestigen dat een tekst makkelijk leesbaar is voor het beoogde doelpubliek. Onderstaande tabel geeft een overzicht van enkele typische fog index scores, samengesteld door Philip Chalmers van Benefit from IT.

fog index voorbeelden
6 handleiding TV, Bijbel, Mark Twain
8 Reader's Digest
8-10 populaire boeken
10 Time, Newsweek
11 Wall Street Journal
14 The Times, The Guardian
15-20 wetenschappelijke tijdschriften
$$\geq$$ 20 enkel websites van de overheid komen hiermee
weg, omdat je ze toch niet kunt negeren
$$\geq$$ 30 de overheid heeft iets te verbergen

De Gunning-Fog index wordt berekend aan de hand van het volgende algoritme:

  1. Selecteer een tekstfragment (typisch één of meer paragrafen) van ongeveer 100 woorden. Laat geen zinnen weg.

  2. Bepaal de gemiddelde lengte van een zin door het aantal woorden te delen door het aantal zinnen.

  3. Tel het aantal complexe woorden: dit zijn woorden die bestaan uit minstens drie lettergrepen.

  4. Tel de gemiddelde lengte van de zinnen en het percentage complexe woorden bij elkaar op.

  5. Vermenigvuldig het resultaat uit de vorige stap met 0.4.

Uitgedrukt als een formule wordt dit \[ 0.4 \left[ \left( \frac{\textrm{woorden}}{\textrm{zinnen}} \right) + 100 \left( \frac{\textrm{complexe woorden}}{\textrm{woorden}} \right) \right] \] Ondanks het feit dat de Gunning-Fog index een goede maatstaf is voor de leesbaarheid van teksten, heeft hij toch zijn beperkingen. Niet alle complexe woorden zijn moeilijk. Zo wordt "lettergrepen" algemeen niet als een moeilijk woord beschouwd, terwijl het toch vier lettergrepen telt. Een kort woord kan toch moeilijk zijn als het niet vaak gebruikt wordt door de meeste mensen.

Gunning fog index
De formule van de Gunning-Fog index.

Opgave

Voor deze opgave vragen we je om de Gunning-Fog index te bepalen van enkele tekstfragmenten, waarbij we elk tekstfragment hebben opgeslaan in een tekstbestand. Hiervoor ga je als volgt te werk.

Voorbeeld

Bij onderstaande voorbeeldsessie gaan we ervan uit dat de tekstbestanden crocydite.txt2, cactolith.txt3 en wikipedia.txt4 zich in de huidige directory bevinden. De eerste twee tekstbestanden bevatten de definities van de geologische termen uit de inleiding van deze opgave. Het derde tekstbestand bevat de inleidende paragrafen uit het Wikipedia artikel over geologie.

>>> lettergrepen('cactolith')
3
>>> lettergrepen('quasihorizontal')
6
>>> lettergrepen('palaeosome')
4

>>> statistieken('crocydite.txt')
(1, 34, 17)
>>> statistieken('cactolith.txt')
(1, 29, 11)
>>> statistieken('wikipedia.txt')
(5, 119, 37)

>>> gunningfog('crocydite.txt')
33.6
>>> gunningfog('cactolith.txt')
26.77241379310345
>>> gunningfog('wikipedia.txt')
21.956974789915968

Bronnen

de Waard D (1950). Palingenetic structures in augen gneiss of the Sierra de Guadarrama, Spain. Bull. Comm. Géol. Finlande 150(23), 51–66. 5

Hunt CB (1953). Geology and geography of the Henry Mountains region, Utah. US Geological Survey Professional Paper 228, 234. 6