
Normaalverdeling
1. Dichtheidskromme
Een bioloog heeft de lengte gemeten van 180 wintervissen. De resultaten vind je in de onderstaande tabel.

Verwerkt in een gegroepeerde frequentietabel geeft dit:

Stellen we deze tabel grafisch voor met een histogram waarin we op de y-as de relatieve frequentie uitzetten dan ziet dit er als volgt uit:

In heel wat situaties kunnen histogrammen goed benaderd worden door vloeiende krommen, die de algemene vorm van de frequentieverdeling beschrijven. Een dergelijke kromme noemen we een dichtheidskromme. Deze kromme ligt volledig boven de x-as (omdat de relatieve frequenties steeds positief zijn).

De som van de oppervlaktes van de staven van het histogram zijn in dit voorbeeld gelijk aan de som van de relatieve frequenties van de verschillende klassen. En deze totale som is 100% of 1. Zo zal ook de totale oppervlakte onder de dichtheidskromme precies gelijk zijn aan 1 (=100%).
Wanneer we willen weten hoeveel % van de vissen een lengte hebben tussen 70cm en 76 cm, dan berekenen we gewoon de oppervlakte onder de dichtheidskromme (=relatieve frequentie) tussen x=70 en x=76. Deze oppervlakte bedraagt 0,31953... of 31,95% (berekend met het GRM zie verder).

Dit benaderd vrij goed het resultaat verkregen via het histogram namelijk 32% (3%+4%+5%+6%+6,5%+7,5%)
Samengevat:
Een dichtheidskromme beschrijft het algemene patroon van een frequentieverdeling:
Het is een kromme:
- die zich altijd op of boven de x-as bevindt
- waarvan de oppervlakte tussen de kromme en de x-as gelijk is aan 1.
De oppervlakte onder de kromme in een willekeurig interval is de relatieve frequentie van de waarnemingsgetallen die binnen dat interval liggen.
2. De normale verdeling
De dichtheidskromme hierboven kan beschreven worden met het functievoorschrift:

Dit is het voorschrift van een normale verdeling. De grafieken van normale verdelingen zijn symmetrische, ééntoppige, klokvormige dichtheidskrommen. Ze hebben allemaal dezelfde globale vorm.

Het algemeen voorschrift van een normale verdeling is:

Het was Carl Friedrich Gauss (1777-1855) die dit als eerste aantoonde. Daarom wordt de grafiek van een dergelijke normale verdeling ook vaak een Gausskromme of een Gausscurve genoemd. In het voorschrift is e het getal van Euler, een vaak voorkomende constante die gelijk is aan 2,718281828.

De parameters μ en σ bepalen de ligging en de breedte van de grafiek:
- De grafiek is symmetrisch t.o.v. de rechte x = μ; bij die x-waarde treedt ook het enige maximum (top) op, namelijk

- Bij de waarde μ ± σ heeft de grafiek telkens een buigpunt
Omdat μ en σ volstaan om de kromme ondubbelzinning vast te leggen, noteert men het voorschrift van de normale verdeling verkort als: y = N(μ,σ)
Zijn μ = 0 en σ = 1, dan spreekt men van de standaardnormale verdeling y = N(0,1).
De normale verdeling is zonder twijfel de meest gebruikte verdeling in de statistiek. Van heel wat gegevens is geweten dat ze normaal verdeeld zijn; lengte en gewicht van mensen of dieren; het IQ; de inhoud van machinaal gevulde verpakkinge; meetfouten; sportprestaties...
Men mag hier echter niet uit besluiten dat alles normaal verdeeld zou zijn: de leeftijd bij overlijden van mens of dier, het inkomen van alle werknemers van een groot bedrijf, de snelheid van geflitste wagens in de bebouwde kom,...
Maar ook bij niet-normaal verdeelde gegevens speelt de normale verdeling een belangrijke rol. Veronderstel dat je uit een reeks gegevens waarvan je niet weet of ze normaal verdeeld zijn, 100 keer een steekproef neemt en daar telkens het gemiddelde berekent, dan zullen deze gemiddelde niet gelijk zijn, maar een zekere variabiliteit vertonen. Al deze gemiddelde waarden zijn echter te beschrijven met een normale verdeling.
Wanneer mogen we stellen dat een reeks waarnemingen al dan niet normaal verdeeld zijn?

We noemen dit de 68-95-99,7-regel.

Opmerking: In veel gevallen zijn μ en σ niet gekend en benadert men μ door x(gemiddelde) en σ door s.

Controleer in Excel of de relatieve frequenties van de waarnemingen van de winterwissen voldoen aan de 68-95-99,7 regel en vervolgens beschreven kan worden door de normale verdeling N(x,s).
3. Normale verdeling met GRM
Voorbeeld: Een koffiebranderij heeft een nieuwe vulmachine gekocht voor het vullen van pakjes koffie van 1 kg. Omdat deze machine nog moet worden afgesteld, besluit de koffiebrander 80 pakjes koffie te vullen waarbij hij de machine instelt op 1005 gram. De resultaten zijn;

Neem je GRM erbij en volg de de stappen.
Stap 1: Gegevens opslaan

Stap 2: Gemiddelde en standaardafwijking bepalen

Stap 3: Histogram opstellen


Stap 4: De 68-95-99,7 regel nagaan

Stap 5: De normale verdeling N(1004,45 ; 4,07) plotten

- [2nd] [Distr] 1:normalpdf (X,μ,σ)
Met deze functie kan je berekenen hoeveel % een waarneming voorkomt onder de waarde X.
Voorbeeld: Hoeveel % van de pakken koffie bevat 1kg?
normalpdf(1000, 1004,45 , 4,07) = 0,0539 = 5,39% - [2nd] [Distr] 2:normalcdf (ondergrens, bovengrens, μ,σ)
Met deze functie kan je berekenen hoeveel % een waarneming voorkomt tussen de ondergrens en de bovengrens.
Voorbeeld: Hoeveel % van de pakken koffie weegt tussen 1000 gram en 1010 gram?
normalcdf(1000,1010, 1004,45 , 4,07) = 0,7765 = 77,65%
Merk op als ondergrens of bovengrens kan je ook +∞ of -∞ hanteren. In je rekenmachine vervang je dan de ondergrens door -1E99 of de bovengrens door 1E99.
Voorbeeld: Hoeveel % van de pakken koffie weegt meer dan 1011 gram?
Normalcdf(1011,1E99, 1004,45 , 4,07) - [2nd] [Distr] [Draw] 1:ShadeNorm (ondergrens, bovengrens, μ,σ)
Deze functie is gelijkaardig aan normalcdf, met daarbovenop een visuele voorstelling van het betrokken gebied op de normaalverdeling.
Voorbeeld: Type ShadeNorm(-1E99,1000, 1004,45 , 4,07) en kijk wat er op je schermt komt te staan. - [2nd] [Distr] 3: invNorm (f(%), μ,σ)
Deze functie kan je gebruiken als je het waarnemingsgetal wilt weten waarbij een gekozen frequentie juist onder valt.
Voorbeeld: Bij welke massa van een pakje koffie hebben 75% van alle pakjes een massa kleiner dan die massa? (Let op deze keer heb je de relatieve frequentie gekregen en zoek je naar het waarnemingsgetal)
invNorm (0,75 , 1004,45 , 4,07) = 1007,195g
interpretatie: 75 % van alle gevulde pakjes koffie hebben een massa die kleiner is dan 1007g.
4. Standaardisering
Op een verschuiving volgens de x-as en een eventuele uitrekking volgens de assen na, hebben alle normale verdelingen dezelfde vorm.
Bij bepaalde berekeningen herleidt men trouwens de waarnemingen van de normale verdeling N(μ,σ) met verwachting en standaardafwijking naar de normale verdeling N(0,1) met verwachting 0 en standaardafwijking 1. Deze omzetting wordt standaardisering genoemd. Om een waarde te standaardiseren wordt de verwachting ervan afgetrokken en vervolgens gedeeld door de standaardafwijking.
Als x een waarneming is uit N(μ,σ), dan is z de gestandaardiseerde waarde van x met z=(x-μ)/σ.
Een gestandaardiseerde waarde wordt ook een z-score genoemd.
Een z-score geeft aan hoeveel standaardafwijkingen de oorspronkelijke waarneming van het gemiddelde verwijderd is en in welke richting. Waarnemingen groter dan het gemiddelde geven een positieve z-score, waarnemingen die kleiner zijn dan het gemiddelde een negatieve. Z-scores worden o.a. gebruikt om waarnemingen uit verschillende populaties en/of steekproeven met elkaar te vergelijken.
Voorbeeld:
Robbe zit in klas A bij meester Kappa en behaalde op zijn laatste toets wiskunde 14 op 20. Het klasgemiddelde was 11 met een standaardafwijking van 3.
Katrien, de zus van Robbe, zit in klas B bij juf Lambda en behaalde op haar laatste toets wiskunde 23 op 30. Het klasgemiddelde was 19 met een standaardafwijking van 5.
Wie heeft er nu relatief gezien het beste gewerkt?
De z score van Robbe is 14-11/3 = 1
De z-score van Katrien is 23-19/5 = 0,8
z(Robbe) > z(Katrien) --> Het resultaat van Robbe is relatief gezien beter omdat deze verder verwijderd is van het gemiddelde in de positieve zin.
5. Oefeningen
Maak onderstaande oefeningen individueel op een blad.
Oef 1

Oef 2

Oef 3

Oef 4

Oef 5

Oef 6

Oef 7

Oef 8

Oef 9

Oef 10
