Achtergrond Normale verdeling

De Normale curve of Normale dichtheidsfunctie wordt gegeven door:

\[\begin{equation*} f(x) = \frac{1}{\sigma \sqrt{2 \pi} } \exp \left ( - \frac{ (x - \mu)^2 }{ 2 \sigma^2} \right ). \end{equation*}\]

Ze wordt beschreven door 2 onbekende parameters \(\mu\) en \(\sigma\), waarbij \(\mu\) het gemiddelde van de verdeling van de observaties aangeeft en \(\sigma\) de standaarddeviatie. Deze curve geeft voor elke waarde \(x\) weer hoe frequent deze waarde, relatief gezien, voorkomt. De notatie \(\pi\) verwijst naar het getal \(\pi=3.1459...\) Wanneer het gemiddelde 0 is en de variantie 1, spreekt men van de standaardnormale curve of standaardnormale dichtheidsfunctie.

Een lukrake observatie uit een reeks gegevens wiens verdeling de Normale curve volgt, wordt een Normaal verdeelde observatie genoemd. Dergelijke observaties komen frequent voor: voor heel wat reeksen gegevens die symmetrisch verdeeld zijn, vormt de Normale curve met \(\mu\) gelijk aan \(\bar x\) en \(\sigma\) gelijk aan \(s_x\) immers een goede benadering voor het histogram.

Voor Normaal verdeelde gegevens geeft de oppervlakte onder de Normale curve tussen 2 willekeurige getallen \(a\) en \(b\) het percentage van de observaties weer dat tussen deze 2 getallen gelegen is. Op die manier laat de Normale curve toe om, enkel op basis van kennis van het gemiddelde en de standaarddeviatie, na te gaan welk percentage van de gegevens bij benadering tussen 2 willekeurige getallen \(a\) en \(b\) gelegen is.

Om deze berekening uit te voeren, gaan we als volgt te werk. Zij \(X\) een lukrake meting uit een reeks Normaal verdeelde gegevens met gemiddelde \(\mu\) en standaarddeviatie \(\sigma\). Dan noteren we met \(P(X\leq b)\) de oppervlakte onder de Normale curve die links van \(b\) gelegen is, en met \(P(a\leq X\leq b)\) de oppervlakte onder de Normale curve tussen \(a\) en \(b\). Hierbij is[5]

\[\begin{equation*} P(a\leq X\leq b)=P(X\leq b)-P(X\leq a) \end{equation*}\]

Om \(P(a\leq X\leq b)\) te berekenen, hebben we dus enkel een strategie nodig om voor een willekeurig getal \(x\), het getal \(F(x) = P(X \leq x)\) uit te rekenen. Dit staat uitgezet in functie van \(x\) in Figuur ??1 (rechtsboven) voor \(\mu=80\) en \(\sigma=12\) en wordt een distributiefunctie genoemd.

Definitie 1 (distributiefunctie)

De functie die voor elk getal \(x\) uitdrukt wat de kans is dat een lukrake meting \(X\) met gekende verdeling (bvb. een Normale verdeling) kleiner of gelijk is aan \(x\), wordt de distributiefunctie van die verdeling genoemd.

Einde definitie

Omdat de Normale dichtheidsfunctie zeer complex is, blijkt dat het getal \(F(x)\) niet expliciet uit te rekenen is. Om die reden heeft men de getallen \(F(x)\) voor de standaardnormale verdelingsfunctie getabuleerd. Voor deze standaardnormale curve duidt men voor een willekeurige waarde \(z\), het getal \(F(z)\) met \(\Phi(z)\) aan. Omwille van de symmetrie rond 0 van de standaardnormale curve kan de waarde van \(\Phi(-z)\) dan uit de waarde van \(\Phi(z)\) worden afgeleid als

\[\begin{equation*} \Phi(-z)= 1- \Phi(z) \end{equation*}\]

Deze uitdrukking geeft aan dat voor een reeks standaardnormaal verdeelde metingen, het percentage dat kleiner is dan \(-z\) gelijk is aan het percentage dat groter is dan \(z\).

Om nu \(P(a\leq X\leq b)\) te berekenen op basis van de tabellen voor de standaardnormale verdeling gaan we als volgt te werk. Vooreerst kan men aantonen dat het resultaat van een lineaire transformatie \(aX+b\) op een Normaal verdeelde meting \(X\) met gemiddelde \(\mu\) en standaarddeviatie \(\sigma\) terug een Normaal verdeelde meting toevalsveranderlijke is, maar nu met gemiddelde \(a\mu+b\) en standaarddeviatie \(|a|\sigma\). Op die manier kan men elke Normaal verdeelde meting met gemiddelde \(\mu\) en standaarddeviatie \(\sigma\) omzetten naar een standaardnormale meting door ze als volgt te standaardiseren:

\[\begin{equation*} Z = \frac{X- \mu}{\sigma} \end{equation*}\]

Verifieer dat \(Z\) inderdaad gemiddelde 0 en standaarddeviatie 1 heeft!

Aangezien voor een willekeurig getal \(x\)

\[\begin{equation*} X\leq x \Leftrightarrow \frac{X-\mu}{\sigma} \leq \frac{x-\mu}{\sigma} \end{equation*}\]

vinden we nu dat

\[\begin{eqnarray*} P(a \leq X \leq b) & = & P\left(\frac{a-\mu}{\sigma} \leq Z \leq \frac{b-\mu% }{\sigma} \right) \\ & = & \Phi \left (\frac{b-\mu}{\sigma} \right ) - \Phi \left (\frac{a-\mu}{% \sigma} \right ) \end{eqnarray*}\]

De getallen \(\Phi \left (\frac{b-\mu}{\sigma} \right )\) en \(\Phi \left (\frac{a-\mu}{\sigma} \right )\) kunnen hierbij rechtstreeks uit tabellen of R software worden gehaald. In het vervolg zullen we algemeen de notatie \(Z\) gebruiken om een standaardnormaal verdeelde meting aan te duiden.

Oefening 1

Een labo bepaalt in een visstaal Hg via een methode op basis van AAS. In werkelijkheid bevat het staal (gemiddeld) 1.90 ppm. De meetmethode is echter niet perfect, zoals aangegeven door een standaarddeviatie van 0.10 ppm. Wat is de kans dat de laborant die het staal onderzoekt, een meetresultaat van 2.10 ppm of meer vaststelt?

Om op deze vraag te antwoorden, noteren we met \(X\) het meetresultaat van de laborant en berekenen we

\[\begin{eqnarray*} P(X\geq 2)&=&P\left(\frac{X-\mu}{\sigma}\geq \frac{2.1-1.9}{0.1}\right) \\ &=&P(Z\geq 2) = 2.28\% \end{eqnarray*}\]

We besluiten dat er 2.28% kans is dat de laborant een meetresultaat van minstens 2.10 ppm zal vaststellen. In R kan dit resultaat als volgt bekomen worden:

1 - pnorm(2.1, mean = 1.9, sd = 0.1)
## [1] 0.02275013

waarbij de functie pnorm de distributiefunctie van de Normale verdeling voorstelt.

Einde oefening

Met \(z_{\alpha}\) duiden[6] we die waarde aan waar \(\alpha100\%\) van de oppervlakte onder de standaardnormale curve rechts van zit; m.a.w. waarvoor geldt dat \(P(Z \geq z_{\alpha}) = \alpha\). Als \(Z\) een standaardnormaal verdeelde meting is, dan stelt \(z_{\alpha}\) bijgevolg het \((1-\alpha)100\%\) percentiel van die verdeling voor. Voor \(z_{\alpha/2}\) geldt dat \(P(-z_{\alpha/2}\leq Z \leq z_{\alpha/2}) = 1-\alpha\). Bijvoorbeeld, \(P( - z_{0.025}\leq Z \leq z_{0.025}) = 95\%\). Voor een reeks standaardnormaal verdeelde metingen bevat het interval \([-z_{\alpha/2},z_{\alpha/2}]\) dus \((1-\alpha)100\%\) van de observaties.

Stel dat \(X\) een Normaal verdeelde meting is met gemiddelde \(\mu\) en standaarddeviatie \(\sigma\). Dan geldt dat

\[\begin{equation*} P\left( - z_{\alpha/2}\leq \frac{X - \mu}{\sigma} \leq z_{\alpha/2}\right) = 1-\alpha . \end{equation*}\]

Hieruit volgt dat

\[\begin{equation*} P( \mu - z_{\alpha/2} \sigma \leq X \leq \mu + z_{\alpha/2} \sigma ) = 1-\alpha . \end{equation*}\]

Voor een reeks Normaal verdeelde metingen met gemiddelde \(\mu\) en standaarddeviatie \(\sigma\) bevat het interval \([\mu-z_{\alpha/2}\sigma,\mu+z_{\alpha/2}\sigma]\) dus \((1-\alpha)100\%\) van de observaties. In de praktijk worden de parameters \(\mu\) en \(\sigma\) hierbij vervangen door \(\bar x\) en \(s_x\).

Het resulterende interval \([\bar x-z_{\alpha/2}s_x,\bar x+z_{\alpha/2}s_x]\) wordt vaak gebruikt[7], o.a. in de klinische chemie, om referentie-intervallen te berekenen voor een test ter opsporing van een bepaalde pathologie. Eenmaal zo’n referentie-interval, ook wel normaal interval genoemd, werd bepaald, wordt het testresultaat van een patiënt met de vermoede pathologie vergeleken met het interval. Een resultaat buiten het interval is dan indicatief voor de aanwezigheid van de pathologie.

Bij het bepalen van referentie-intervallen is het noodzakelijk om de methode eerst te testen bij mensen zonder de pathologie in kwestie. Voor dit doel worden `normale en gezonde vrijwilligers’ aangezocht. Vaak worden hiertoe collega’s genomen uit het laboratorium dat de test heeft ontwikkeld, hoewel dit allesbehalve ideaal is. Immers, mensen die in een zelfde laboratorium werken, zijn blootgesteld aan dezelfde werkomgeving, die op zijn beurt een invloed kan hebben op hun bloedsamenstelling. Bijgevolg is de bloedsamenstelling van de studiepersonen mogelijks niet representatief voor een normale, gezonde populatie, hetgeen kan leiden tot vertekende referentie-intervallen. In deze cursus zullen we een referentie-interval meer algemeen als volgt definiëren.

Definitie 2 (referentie-interval)

Een \((1-\alpha)100\%\) referentie-interval voor een veranderlijke \(X\) (bvb. albumine-concentratie in het bloed) in een gegeven studiepopulatie (bvb. volwassen Belgen onder de 60 jaar) is een interval dat zó gekozen werd dat het met \((1-\alpha)100\%\) kans de observatie voor een lukraak individu uit die populatie bevat. Voor een Normaal verdeelde veranderlijke \(X\) met gemiddelde \(\mu\) en standaarddeviatie \(\sigma\) kan dit berekend worden als

\[\begin{equation*} [\mu-z_{\alpha/2}\sigma,\mu+z_{\alpha/2}\sigma] \end{equation*}\]

en geschat worden op basis van een lukrake steekproef als

\[\begin{equation*} [\bar x-z_{\alpha/2}s_x,\bar x+z_{\alpha/2}s_x] \end{equation*}\]

Einde definitie