Normaalverdeling - Data Analyse en Statistiek (2024)

  1. De Normaalverdeling
  2. Z-score en waarschijnlijkheden

We hebben in het hoofdstuk De Centrale Limietstelling gezien waarom onzekerheden op metingen zo vaak Normaal zijn verdeeld. Het is nu duidelijk dat de Normaalverdeling een belangrijke rol speelt in statistiche methodes. In dit hoofdstuk bekijken we nogmaals de Normaalverdeling en introduceren we de zogeheten zzz-score methode die we later gaan toepassen bij de χ2\chi^2χ2-methode en bij het toetsen van hypotheses.

De Normaalverdeling

Allereerst herhalen we de formule die jullie ook al in Module 1 hebben gezien. De Normaalverdeling is gedefinieerd als:

f(x)=1σ2πe12(xμσ)2.{\Large \displaystyle f(x) = \frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{1}{2}\left( \frac{x-\mu}{\sigma} \right)^2} .}f(x)=σ2π1e21(σxμ)2.

De functie heeft twee parameters, μ\muμ en σ\sigmaσ. De verwachtingswaarde van de Normaalverdeling is precies μ\muμ en de standaardafwijking is precies gelijk aan σ\sigmaσ. (De notering is niet toevallig!)

In de figuur hieronder, zie je enkele voorbeelden van de Normaalverdeling voor verschillende waardes voor μ\muμ en σ\sigmaσ.

Normaalverdeling - Data Analyse en Statistiek (1)

Er is geen relatie tussen de het gemiddelde μ\muμ en de standaardafwijking σ\sigmaσ, lage waardes van μ\muμ kunnen een grotere of kleinere standaardafwijking hebben. (Anders dan bij de Poissonverdeling.) We zien dat voor hogere waardes voor σ\sigmaσ de datapunten meer verspreid zijn.

Voorbeeld Stel dat we een meting doen LLL en we kennen het populatiegemiddelde μL=10.0\mu_L = 10.0μL=10.0 cm met een spreiding van σL=2.0\sigma_L = 2.0σL=2.0 cm. De kans dat we een meting doen die L=4.0L=4.0L=4.0 cm oplevert is dan niet zo groot. Als de spreiding rond het populatiegemiddelde daarentegen groter is, bijvoorbeeld σ=5.0\sigma=5.0σ=5.0 cm dan is de kans veel groter dat de meting een waarde van L=4.0L=4.0L=4.0 cm oplevert.

Als de uitkomsten uit een experiment Normaal verdeeld zijn, en we kennen μ\muμ en σ\sigmaσ, dan kunnen we de kans op een bepaalde uitkomst exact berekenen. Hoe grotere de afstand met μ\muμ, hoe kleiner de kans op dat meetresultaat. Hoe groter de standaardafwijking σ\sigmaσ, hoe meer verspreid de meetuitkomsten zijn en hoe groter de kans op een grotere afstand ten opzichte van het gemiddelde μ\muμ. Deze kansen kunnen we exact berekenen met behulp van de Normaalverdeling.

Z-score en waarschijnlijkheden

Om de kans op een bepaalde meetuitkomst uit te drukken maken we gebruik van de oppervlaktes onder de Normaalverdeling. Dit kunnen we schematisch weergeven.

Het oppervlak onder de Normaalkromme behorende bij de kans om een waarde x<Xx < Xx<X te vinden, kun je als volgt schematisch weergeven . Dit noemen we ook wel de linkszijdige overschrijding en we berekenen de onderkans.

Normaalverdeling - Data Analyse en Statistiek (2)

Het oppervlak onder de Normaalkromme behorende bij de kans om een waarde x>Xx > Xx>X te vinden, is hier schematisch weergegeven. Dit noemen we ook wel de rechtszijdige overschrijding en we berekenen de bovenkans.

Normaalverdeling - Data Analyse en Statistiek (3)

Het oppervlak onder de kromme van een Normaalverdeling is lastig uit te rekenen, zie bijvoorbeeld de uitleg op wikipedia. We maken hierom een tussenstap en berekenen eerst de zo genoemde zzz-score. Stel een dataset is Normaal verdeeld met gemiddelde μ\muμ en standaardafwijking σ\sigmaσ, de zzz-score, voor een bepaalde gemeten waarde XXX, is dan gelijk aan:

Z=Xμσ.Z = \frac{X-\mu}{\sigma}.Z=σXμ.

Het oppervlak onder de Normaalkromme, behorende bij de kans op een bepaalde waarde, hangt op de volgende manier van de zzz-score af.

De kans om een waarde x<Xx < Xx<X te vinden is gelijk aan:

P(x<X)=P(Z<Xμσ)P(x < X) = P\left( Z<\frac{X-\mu}{\sigma} \right)P(x<X)=P(Z<σXμ)

De kans om een waarde x>Xx>Xx>X te vinden is gelijk aan:

P(x>X)=1P(x<X)=1P(Z<Xμσ)P(x>X) = 1 - P(x< X) = 1-P\left( Z<\frac{X-\mu}{\sigma} \right)P(x>X)=1P(x<X)=1P(Z<σXμ)

Dit kun je zelf nagaan door schetsen te maken van de bijbehorende oppervlakken onder de normaalkromme.

Als je de zzz-score hebt berekend, kun je uit een voorberekende tabel aflezen wat de bijbehorende overschrijdingskans is.

Hieronder laten we in twee voorbeelden zien hoe je deze methode toepast.

Voorbeeld Onderkans: Een stochast xxx is Normaal verdeeld met gemiddelde μ=20\mu = 20μ=20 en standaardafwijking σ=2\sigma=2σ=2. De kans op een waarde x<16x<16x<16 is nu gelijk aan

P(x<16)=P(Z<Xμσ)=P(Z<16202)=P(Z<2).\begin{aligned} P(x<16) &= P\left(Z<\frac{X-\mu}{\sigma}\right) \\ &= P\left(Z<\frac{16-20}{2}\right) \\ &= P(Z<-2). \end{aligned}P(x<16)=P(Z<σXμ)=P(Z<21620)=P(Z<2).

Dit is een linkszijdige overschrijding. In de z-score tabel kunnen we nu de bijbehorende kans waarde opzoeken. Dit is een waarde van 0.022750.022750.02275.We schrijven dus

P(x<16)=P(Z<Xμσ)=0.02275.P(x<16) = P\left(Z<\frac{X-\mu}{\sigma}\right) = 0.02275.P(x<16)=P(Z<σXμ)=0.02275.

Er is in dit geval dus een kans van 0.02 dat we bij de gegeven dataset een waarde onder de 15 zullen vinden.

Voorbeeld Bovenkans: Een stochast xxx is Normaal verdeeld met gemiddelde μ=20\mu = 20μ=20 en standaardafwijking σ=2\sigma=2σ=2, de kans op een waarde x>22x>22x>22 is nu gelijk aan

P(x>22)=1P(x<22)=1P(Z<Xμσ)=1P(Z<22202)=1P(Z<1).\begin{aligned}P(x>22) &= 1-P(x<22) \\ &= 1-P\left(Z<\frac{X-\mu}{\sigma}\right) \\ &= 1 - P\left(Z<\frac{22-20}{2}\right) \\ &= 1 - P(Z<1).\end{aligned}P(x>22)=1P(x<22)=1P(Z<σXμ)=1P(Z<22220)=1P(Z<1).

Dit is een rechtszijdige overschrijding. In de z-score tabel kunnen we nu de bijbehorende kans waarde opzoeken. Dit is een waarde van 0.841340.841340.84134.We schrijven dus

P(x>22)=1P(Z<Xμσ)=10.84134=0.15866.P(x>22) = 1 - P\left(Z<\frac{X-\mu}{\sigma}\right) = 1-0.84134 = 0.15866.P(x>22)=1P(Z<σXμ)=10.84134=0.15866.

Er is in dit geval dus een kans van 0.16 dat we bij de gegeven dataset een waarde boven de 22 zullen vinden.

Bij een tweezijdige overschrijdingskans bereken we de waarde van een absolute afstand tot het gemiddelde. We berekenen dit door de kans op een waarde groter dan de gestelde waarde opgeteld bij de kans op een waarde kleiner dan de gestelde waarde:

P(xμ>X)=P(Z<Xσ)+P(Z>Xσ)=2P(Z>Xσ).{\displaystyle \begin{aligned}P(|x-\mu|>X) &= P\left(Z<\frac{-X}{\sigma}\right) + P\left(Z>\frac{X}{\sigma} \right)\\ &= 2\cdot P\left( Z>\frac{X}{\sigma} \right). \end{aligned}}P(xμ>X)=P(Z<σX)+P(Z>σX)=2P(Z>σX).

Het oppervlak onder de Normaalkromme behorende bij de kans om een waarde xμ>X|x - \mu|> Xxμ>X te vinden, is hier schematisch weergegeven

Normaalverdeling - Data Analyse en Statistiek (4)

Voorbeeld Dubbelzijdige kans: Een stochast xxx is Normaal verdeeld met gemiddelde μ=20\mu = 20μ=20 en standaardafwijking σ=4\sigma=4σ=4. De kans op een waarde die meer afwijkt dan 2 van het gemiddelde is nu gelijk aan

P(xμ>2)=2×P(Z>Xσ)=2×P(Z>24)=2×P(Z>0.5).\begin{aligned} P(|x-\mu| > 2) &= 2 \times P\left(Z > \frac{X}{\sigma}\right) \\ &= 2 \times P\left(Z > \frac{2}{4}\right) \\ &= 2\times P\left( Z > 0.5 \right). \end{aligned}P(xμ>2)=2×P(Z>σX)=2×P(Z>42)=2×P(Z>0.5).

In de z-score tabel kunnen we nu de bijbehorende kans waarde opzoeken, dit is een waarde van (2×0.30854)=0.69146(2 \times 0.30854) = 0.69146(2×0.30854)=0.69146.We schrijven dus

P(xμ>X)=0.69146.P(|x - \mu| >X) = 0.69146.P(xμ>X)=0.69146.

Er is in dit geval dus een kans van 0.69 dat we bij de gegeven dataset een waarde vinden die in absolute zin meer dan 2 afwijkt van het gemiddelde.

Normaalverdeling - Data Analyse en Statistiek (2024)
Top Articles
Latest Posts
Article information

Author: Delena Feil

Last Updated:

Views: 5580

Rating: 4.4 / 5 (65 voted)

Reviews: 88% of readers found this page helpful

Author information

Name: Delena Feil

Birthday: 1998-08-29

Address: 747 Lubowitz Run, Sidmouth, HI 90646-5543

Phone: +99513241752844

Job: Design Supervisor

Hobby: Digital arts, Lacemaking, Air sports, Running, Scouting, Shooting, Puzzles

Introduction: My name is Delena Feil, I am a clean, splendid, calm, fancy, jolly, bright, faithful person who loves writing and wants to share my knowledge and understanding with you.