Normaalverdeling - Data Analyse en Statistiek (2024)

De Normaalverdeling
Z-score en waarschijnlijkheden

We hebben in het hoofdstuk De Centrale Limietstelling gezien waarom onzekerheden op metingen zo vaak Normaal zijn verdeeld. Het is nu duidelijk dat de Normaalverdeling een belangrijke rol speelt in statistiche methodes. In dit hoofdstuk bekijken we nogmaals de Normaalverdeling en introduceren we de zogeheten $z$ z-score methode die we later gaan toepassen bij de $\chi^2$ χ2-methode en bij het toetsen van hypotheses.

De Normaalverdeling

Allereerst herhalen we de formule die jullie ook al in Module 1 hebben gezien. De Normaalverdeling is gedefinieerd als:

{\Large \displaystyle f(x) = \frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{1}{2}\left( \frac{x-\mu}{\sigma} \right)^2} .}

f(x)=σ2π1e−21(σx−μ)2.

De functie heeft twee parameters, $\mu$ μ en $\sigma$ σ. De verwachtingswaarde van de Normaalverdeling is precies $\mu$ μ en de standaardafwijking is precies gelijk aan $\sigma$ σ. (De notering is niet toevallig!)

In de figuur hieronder, zie je enkele voorbeelden van de Normaalverdeling voor verschillende waardes voor $\mu$ μ en $\sigma$ σ.

Er is geen relatie tussen de het gemiddelde $\mu$ μ en de standaardafwijking $\sigma$ σ, lage waardes van $\mu$ μ kunnen een grotere of kleinere standaardafwijking hebben. (Anders dan bij de Poissonverdeling.) We zien dat voor hogere waardes voor $\sigma$ σ de datapunten meer verspreid zijn.

Voorbeeld Stel dat we een meting doen $L$ L en we kennen het populatiegemiddelde $\mu_L = 10.0$ μL=10.0 cm met een spreiding van $\sigma_L = 2.0$ σL=2.0 cm. De kans dat we een meting doen die $L=4.0$ L=4.0 cm oplevert is dan niet zo groot. Als de spreiding rond het populatiegemiddelde daarentegen groter is, bijvoorbeeld $\sigma=5.0$ σ=5.0 cm dan is de kans veel groter dat de meting een waarde van $L=4.0$ L=4.0 cm oplevert.

Als de uitkomsten uit een experiment Normaal verdeeld zijn, en we kennen $\mu$ μ en $\sigma$ σ, dan kunnen we de kans op een bepaalde uitkomst exact berekenen. Hoe grotere de afstand met $\mu$ μ, hoe kleiner de kans op dat meetresultaat. Hoe groter de standaardafwijking $\sigma$ σ, hoe meer verspreid de meetuitkomsten zijn en hoe groter de kans op een grotere afstand ten opzichte van het gemiddelde $\mu$ μ. Deze kansen kunnen we exact berekenen met behulp van de Normaalverdeling.

Z-score en waarschijnlijkheden

Om de kans op een bepaalde meetuitkomst uit te drukken maken we gebruik van de oppervlaktes onder de Normaalverdeling. Dit kunnen we schematisch weergeven.

See Also

5.6: The Normal Distribution

P(x>X) = 1 - P(x< X) = 1-P\left( Z<\frac{X-\mu}{\sigma} \right)

P(x>X)=1−P(x<X)=1−P(Z<σX−μ)

Dit kun je zelf nagaan door schetsen te maken van de bijbehorende oppervlakken onder de normaalkromme.

Als je de $z$ z-score hebt berekend, kun je uit een voorberekende tabel aflezen wat de bijbehorende overschrijdingskans is.

Hieronder laten we in twee voorbeelden zien hoe je deze methode toepast.

Voorbeeld Onderkans: Een stochast $x$ x is Normaal verdeeld met gemiddelde $\mu = 20$ μ=20 en standaardafwijking $\sigma=2$ σ=2. De kans op een waarde $x<16$ x<16 is nu gelijk aan
$\begin{aligned} P(x<16) &= P\left(Z<\frac{X-\mu}{\sigma}\right) \\ &= P\left(Z<\frac{16-20}{2}\right) \\ &= P(Z<-2). \end{aligned}$ P(x<16)=P(Z<σX−μ)=P(Z<216−20)=P(Z<−2).
Dit is een linkszijdige overschrijding. In de z-score tabel kunnen we nu de bijbehorende kans waarde opzoeken. Dit is een waarde van $0.02275$ 0.02275.We schrijven dus
$P(x<16) = P\left(Z<\frac{X-\mu}{\sigma}\right) = 0.02275.$ P(x<16)=P(Z<σX−μ)=0.02275.
Er is in dit geval dus een kans van 0.02 dat we bij de gegeven dataset een waarde onder de 15 zullen vinden.

Voorbeeld Bovenkans: Een stochast $x$ x is Normaal verdeeld met gemiddelde $\mu = 20$ μ=20 en standaardafwijking $\sigma=2$ σ=2, de kans op een waarde $x>22$ x>22 is nu gelijk aan
$\begin{aligned}P(x>22) &= 1-P(x<22) \\ &= 1-P\left(Z<\frac{X-\mu}{\sigma}\right) \\ &= 1 - P\left(Z<\frac{22-20}{2}\right) \\ &= 1 - P(Z<1).\end{aligned}$ P(x>22)=1−P(x<22)=1−P(Z<σX−μ)=1−P(Z<222−20)=1−P(Z<1).
Dit is een rechtszijdige overschrijding. In de z-score tabel kunnen we nu de bijbehorende kans waarde opzoeken. Dit is een waarde van $0.84134$ 0.84134.We schrijven dus
$P(x>22) = 1 - P\left(Z<\frac{X-\mu}{\sigma}\right) = 1-0.84134 = 0.15866.$ P(x>22)=1−P(Z<σX−μ)=1−0.84134=0.15866.
Er is in dit geval dus een kans van 0.16 dat we bij de gegeven dataset een waarde boven de 22 zullen vinden.

Bij een tweezijdige overschrijdingskans bereken we de waarde van een absolute afstand tot het gemiddelde. We berekenen dit door de kans op een waarde groter dan de gestelde waarde opgeteld bij de kans op een waarde kleiner dan de gestelde waarde:

\begin{aligned}P(|x-\mu|>X) &= P\left(Z<\frac{-X}{\sigma}\right) + P\left(Z>\frac{X}{\sigma} \right)\\ &= 2\cdot P\left( Z>\frac{X}{\sigma} \right). \end{aligned}

P(∣x−μ∣>X)=P(Z<σ−X)+P(Z>σX)=2⋅P(Z>σX).

Het oppervlak onder de Normaalkromme behorende bij de kans om een waarde $|x - \mu|> X$ ∣x−μ∣>X te vinden, is hier schematisch weergegeven

Voorbeeld Dubbelzijdige kans: Een stochast $x$ x is Normaal verdeeld met gemiddelde $\mu = 20$ μ=20 en standaardafwijking $\sigma=4$ σ=4. De kans op een waarde die meer afwijkt dan 2 van het gemiddelde is nu gelijk aan
$\begin{aligned} P(|x-\mu| > 2) &= 2 \times P\left(Z > \frac{X}{\sigma}\right) \\ &= 2 \times P\left(Z > \frac{2}{4}\right) \\ &= 2\times P\left( Z > 0.5 \right). \end{aligned}$ P(∣x−μ∣>2)=2×P(Z>σX)=2×P(Z>42)=2×P(Z>0.5).
In de z-score tabel kunnen we nu de bijbehorende kans waarde opzoeken, dit is een waarde van $(2 \times 0.30854) = 0.69146$ (2×0.30854)=0.69146.We schrijven dus
$P(|x - \mu| >X) = 0.69146.$ P(∣x−μ∣>X)=0.69146.
Er is in dit geval dus een kans van 0.69 dat we bij de gegeven dataset een waarde vinden die in absolute zin meer dan 2 afwijkt van het gemiddelde.