Bij een HPLC-UV analyse kan een bepaalde onzuiverheid onder de detectielimiet liggen, waardoor er geen specifieke waarde aan deze onzuiverheid kan gegeven worden. Deze metingen kunnen dus ook niet in rekening worden gebracht bij het berekenen van de statistieken.

Opgave

Stel dat we een dataset hebben die bestaat uit $$n \in \mathbb{N}_0$$ metingen $$\{x_1, x_2, \ldots, x_n\}$$.

In een traditionele analyse van meetgegevens gaat men ervan uit dat de meetgegevens compleet zijn. Er zijn met andere woorden geen ontbrekende gegevens. In dat geval berekenen we het steekproefgemiddelde $$\bar{x}$$ als \[ \bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i = \frac{x_1 + x_2 + \cdots + x_n}{n}\] en de steekproefvariantie $$s^2$$ als \[ s^2 = \frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^2 = \frac{1}{n-1}\sum_{i=1}^{n}x_i^2 - \frac{n}{n-1}\bar{x}^2 \] De standaardafwijking van de steekproef wordt bepaald als de vierkantswortel van de steekproefvariantie.

Het $$(1 - \alpha)$$% betrouwbaarheidsinterval voor een individuele meting is dan \[ \left[ \bar{x} - t_{\alpha} \times s \times \sqrt{\frac{n+1}{n}}, \bar{x} + t_{\alpha} \times s \times \sqrt{\frac{n+1}{n}} \right] \]

Als er in de dataset $$\{x_1, x_2, \ldots, x_n\}$$ meetgegevens ontbreken omdat ze onder de detectielimiet vallen, dan worden bovenstaande statistieken enkel berekend voor de $$m \in \mathbb{N}_0$$ metingen $$\{x'_1, x'_2, \ldots, x'_m\}$$ die niet onder de detectielimiet vallen.

Als we enkel de metingen die niet onder de detectielimiet vallen in rekening brengen, dan krijgen we echter een overschatting van het gemiddelde en een onderschatting van de variantie en standaardafwijking, omdat de gecensureerde data met lage waarden (onder de detectielimiet) niet in rekening gebracht worden bij de bereking van de statistieken. De maximum-likelihood-methode laat ons echter toe om een correctie uit te voeren op de berekende statistieken, rekening houdend met het aantal metingen dat onder de detectielimiet valt. Voor een gegeven detectielimiet $$L$$ en een gegeven waarde $$\lambda$$ wordt het gecorrigeerde steekproefgemiddelde \[ \bar{x}_{\text{corr}} = \bar{x} - \lambda(\bar{x} -  L) \] en de gecorrigeerde steekproefvariantie \[ s^2_{\text{corr}} = s^2 + \lambda(\bar{x} - L)^2 \] De gecorrigeerde standaardafwijking van de steekproef wordt opnieuw bepaald als de vierkantswortel van de gecorrigeerde steekproefvariantie.

Dit gecorrigeerde gemiddelde en standaarddeviatie kan dan opnieuw gebruikt worden voor de berekening van het betrouwbaarheidsinterval.

Invoer

De eerste drie regels van de invoer bevatten de volgende gegevens:

Daarna volgen $$n$$ regels die elk één meting bevatten uit een dataset $$\{x_1, x_2, \ldots, x_n\}$$, waarbij $$x_i \in \mathbb{R}$$ ($$i = 1, 2, \ldots, n$$). Een meting die onder de detectielimiet valt wordt voorgesteld als een regel die enkel een koppelteken (-) bevat.

Uitvoer

Drie regels met daarop het gecorrigeerde steekproefgemiddelde, de gecorrigeerde steekproefvariantie en de gecorrigeerde standaardafwijking van de gegeven dataset. Het formaat van de uitvoer kan je afleiden uit onderstaand voorbeeld.

Voorbeeld

Invoer:

8
1.0
0.3386
-
-
1.24
1.49
1.50
1.56
1.61
1.78

Uitvoer:

gemiddelde: 1.3505420000000001
variantie: 0.12639273999999895
standaardafwijking: 0.3555175663733073

Resources