Stel dat we een dataset hebben die bestaat uit $$n \in \mathbb{N}_0$$ metingen $$\{x_1, x_2, \ldots, x_n\}$$.
In een traditionele analyse van meetgegevens gaat men ervan uit dat de meetgegevens compleet zijn. Er zijn met andere woorden geen ontbrekende gegevens. In dat geval berekenen we het steekproefgemiddelde $$\bar{x}$$ als \[ \bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i = \frac{x_1 + x_2 + \cdots + x_n}{n}\] en de steekproefvariantie $$s^2$$ als \[ s^2 = \frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^2 = \frac{1}{n-1}\sum_{i=1}^{n}x_i^2 - \frac{n}{n-1}\bar{x}^2 \] De standaardafwijking van de steekproef wordt bepaald als de vierkantswortel van de steekproefvariantie.
Het $$(1 - \alpha)$$% betrouwbaarheidsinterval voor een individuele meting is dan \[ \left[ \bar{x} - t_{\alpha} \times s \times \sqrt{\frac{n+1}{n}}, \bar{x} + t_{\alpha} \times s \times \sqrt{\frac{n+1}{n}} \right] \]
Als er in de dataset $$\{x_1, x_2, \ldots, x_n\}$$ meetgegevens ontbreken omdat ze onder de detectielimiet vallen, dan worden bovenstaande statistieken enkel berekend voor de $$m \in \mathbb{N}_0$$ metingen $$\{x'_1, x'_2, \ldots, x'_m\}$$ die niet onder de detectielimiet vallen.
Als we enkel de metingen die niet onder de detectielimiet vallen in rekening brengen, dan krijgen we echter een overschatting van het gemiddelde en een onderschatting van de variantie en standaardafwijking, omdat de gecensureerde data met lage waarden (onder de detectielimiet) niet in rekening gebracht worden bij de bereking van de statistieken. De maximum-likelihood-methode laat ons echter toe om een correctie uit te voeren op de berekende statistieken, rekening houdend met het aantal metingen dat onder de detectielimiet valt. Voor een gegeven detectielimiet $$L$$ en een gegeven waarde $$\lambda$$ wordt het gecorrigeerde steekproefgemiddelde \[ \bar{x}_{\text{corr}} = \bar{x} - \lambda(\bar{x} - L) \] en de gecorrigeerde steekproefvariantie \[ s^2_{\text{corr}} = s^2 + \lambda(\bar{x} - L)^2 \] De gecorrigeerde standaardafwijking van de steekproef wordt opnieuw bepaald als de vierkantswortel van de gecorrigeerde steekproefvariantie.
Dit gecorrigeerde gemiddelde en standaarddeviatie kan dan opnieuw gebruikt worden voor de berekening van het betrouwbaarheidsinterval.
De eerste drie regels van de invoer bevatten de volgende gegevens:
het aantal metingen $$n \in \mathbb{N}_0$$
de detectielimiet $$L$$
de waarde $$\lambda$$ die gebruikt wordt voor het corrigeren van de statistieken
Daarna volgen $$n$$ regels die elk één meting bevatten uit een dataset $$\{x_1, x_2, \ldots, x_n\}$$, waarbij $$x_i \in \mathbb{R}$$ ($$i = 1, 2, \ldots, n$$). Een meting die onder de detectielimiet valt wordt voorgesteld als een regel die enkel een koppelteken (-) bevat.
Drie regels met daarop het gecorrigeerde steekproefgemiddelde, de gecorrigeerde steekproefvariantie en de gecorrigeerde standaardafwijking van de gegeven dataset. Het formaat van de uitvoer kan je afleiden uit onderstaand voorbeeld.
Invoer:
8
1.0
0.3386
-
-
1.24
1.49
1.50
1.56
1.61
1.78
Uitvoer:
gemiddelde: 1.3505420000000001
variantie: 0.12639273999999895
standaardafwijking: 0.3555175663733073