rozkład normalny (Gaussa)

Rozkład normalny (znany również pod nazwą rozkład Gaussa-Laplace’a) jest chyba najważniejszym z rozkładów prawdopodobieństwa. Odgrywa ważną rolę w statystycznym opisie zagadnień przyrodniczych, przemysłowych, medycznych, społecznych itp. Jest to rozkład częstości występowania danej wartości jakiejś dowolnej zmiennej. Wynika z niego, że najwięcej obserwacji (np. badanych osób) ma wynik bardzo bliski średniej. Im dalej od średniej tym mniej osób uzyskuje dany wynik.

Za przykład można wziąć wzrost ludzi w Polsce. Jeśli średnia wynosi (załóżmy) 168cm to najwięcej będzie ludzi właśnie z tym wynikiem lub bardzo podobnym. Im dalej od średniej (czy to na plus czy na minus) tym mniejszą część danej populacji będą stanowić ci badani. To niemal oczywiste dla każdego, że najwięcej jest „średniaków” a najmniej ludzi bardzo wysokich (np. powyżej 200cm) oraz bardzo niskich (np. poniżej 155cm).

Przyczyną ogromnego znaczenia tego rozkładu jest częstość jego występowania w naturze. Wspomniany wyżej wzrost ludzi, czasy spóźnień autobusów we Wrocławiu, liczba bąbelków w szklance wody gazowanej, wielkość jabłek ze wszystkich sadów w Polsce … wymieniać można by w nieskończoność – wszystkie te zmienne mają rozkłady normalne lub bardzo zbliżone do normalnych. Zresztą, nawet jeśli analizowana zmienna nie ma rozkładu normalnego to z uwagi na Centralne Twierdzenie Graniczne analizując pewną próbkę pobraną z populacji możemy uznać rozkład jej wyników za zbliżony lub dążący do normalnego (aproksymacja do rozkładu normalnego). Tutaj warto jednak wspomnieć o ciekawym artykule Theodore Micceri z roku 1989 pt. „The Unicorn, The Normal Curve, and Other Improbable Creatures”, z którego wynika, że jednak rozkład normalny (niemal idealny rozkład normalny) nie jest raczej obserwowany w naturze. Jak to w wielu dziedzinach nauki. Jedni twierdzą tak, a inni twierdzą inaczej…. Pewne jest to, że założenie o normalności rozkładu (charakterystyczne dla testów parametrycznych) jest przez wielu badaczy błędnie rozumiane, a przez wielu badaczy znacznie przeceniane.

Rozkład normalny pełni dodatkowo tak znaczącą rolę ze względu na Centralne Twierdzenie Graniczne. W jednym z tutoriali wyjaśniamy jaki związek ma jedno z drugim – O TUTAJ.

Mimo wszystko trudnym do obalenia jest fakt, że rozkład normalny jest rozkładem bardzo pożądanym przez badaczy. Powodem takiego stanu rzeczy jest fakt, że w rozkładzie normalnym dostrzegamy nieliczne anomalia (bardzo wysokie lub bardzo niskie wyniki). Co by było gdybyśmy chcieli np. zbadać związek wielkości zarobków z wiekiem badanych osób a w naszej próbie 90% badanych miałoby zarobki w przedziale od 100 do 200 tys. zł miesięcznie a tylko 10% „normalne” zarobki w okolicach 2-5 tys. zł? Ważne jest zatem aby rozkłady analizowanych zmiennych były zbliżone do normalnego, aby nie wykonywać analiz statystycznych na „nienormalnej” czy też niestandardowej próbie. Oczywiście jeśli mamy rozkłady silnie skośne, wielomodalne lub napotykamy na różne „dziwne” kształty to nie przejmując się można dobrać do nich odpowiednie metody statystyczne lub dokonać transformacji danych.

Najczęściej stosowanymi sposobami zbadania czy rozkład naszej zmiennej jest normalny czy nie są formalne testy Kołmogorowa-Smirnowa oraz Shapiro-Wilka. Metod sprawdzania normalności rozkładu jest jednak o wiele wiele więcej.

W tym miejscu zamieszczamy przykładowy wykres prezentujący rozkład normalny by zwizualizować opisane poniżej najważniejsze jego właściwości.

rozklad normalny small

– rozkład normalny jest symetryczny

– każdy rozkład normalny ma 2 parametry: średnią i odchylenie standardowe

– średnia jest równa medianie i dominancie (M=Me=Mo)

– ponad 68% wyników leży w maksymalnej odległości jednego odchylenia standardowego od średniej natomiast aż ponad 95% wyników znajduje się w odległości 2 odchyleń od średniej

– napotkanie wyników większych od średniej o 3 odchylenia standardowe jest niemal nieprawdopodobne (takie wyniki stanowią jedynie 0,2% całości)