Rozkład normalny (nazywany też rozkładem Gaussa lub rozkładem Laplace’a-Gaussa) – rodzaj rozkładu prawdopodobieństwa, który jest powszechny w statystyce i różnych dziedzinach nauki. Jest on podstawą wielu metod statystycznych i teoretycznych modeli. Używany jest on do modelowania błędów pomiarowych, charakterystyk populacji i testowaniu hipotez statystycznych w oparciu o testy statystyczne (podejście częstościowe).
Idea rozkładu normalnego została wprowadzona przez niemieckiego matematyka Carla Friedricha Gaussa w latach 1801-1809. Gauss badał błędy pomiarowe i zauważył, że wiele zjawisk naturalnych, takich jak pomiary błędów eksperymentalnych, może być opisane przez taki rozkład. Sam Gauss nie opublikował dokładnych wzorów, ale prace nad rozkładem kontynuowali inni matematycy. Ostateczną wersję rozkładu normalnego zawdzięczamy Abrahamowi de Moivre, Pierre’owi Simonowi Laplace’owi i Adrienowi-Marie Legendre’owi. Idea i zastosowanie rozkładu normalnego były rozwijane i poprawiane przez różnych matematyków na przestrzeni lat, a przystępny film instruktażowy na ten temat można obejrzeć tutaj.
Rozkład normalny oraz jego charakterystykę przedstawiono na rysunku 1.
Rysunek 1
Krzywa gęstości rozkładu normalnego
Na rysunku 1 zaprezentowano rozkład normalny w formie wystandaryzowanej, w której średnia wynosi 0, a odchylenie standardowe 1. Idealny rozkład normalny charakteryzuje się także parametrami równymi zero dla mediany i dominanty, skośności oraz kurtozy.
W rozkładzie normalnym bardzo ważna jest reguła 3 sigma (σ), która mówi o proporcjach obserwacji dostępnych pod krzywą gęstości w każdym odchyleniu standardowym:
Rozkład normalny (a także inne rozkłady takie jak F czy chi-kwadrat) jest tak ważny w statystyce, ponieważ posiada stałe właściwości matematyczne na podstawie których łatwo możemy wyznaczać prawdopodobieństwo – jest to punktem wyjścia m.in. do obliczania wartości p w testach statystycznych.
Warto także zwrócić uwagę, że mówiąc o rozkładzie (niezależnie od tego czy jest to rozkład normalny czy jakikolwiek inny), możemy odnosić się do jednego z trzech jego rodzajów:
Warto jednak pamiętać, że wykorzystanie charakterystyki rozkładu normalnego w testowaniu hipotez statystycznych dotyczy przede wszystkim tego trzeciego z opisywanych wyżej rozkładów, czyli rozkładu z próby. Ma to duże praktyczne znaczenie w kontekście procedury wnioskowania statystycznego, przede wszystkim testowania założenia o normalności rozkładu związanego z wykorzystaniem testów parametrycznych (np. t Studenta dla prób niezależnych lub ANOVA).
Czasami błędnie sądzi się (takie informacje znajdują się w niektórych podręcznikach do statystyki), że założenie o normalności rozkładu dotyczy rozkładu w próbie (rozkładu uzyskanych danych) i w związku z tym próbuje weryfikować się to założenie poprzez analizę rozkładu zmiennych. W praktyce, w wielu przypadkach (szczególnie przy dużych próbach) można założyć że rozkład próbkowania jest zbliżony do normalnego, nawet jeśli rozkład zmiennej odbiega od normalnego (sic!). Jest to związane z tzw. centralnym twierdzeniem granicznym, które wyjaśnia zależność między rozkładem w próbie (czyli tym który uzyskaliśmy w naszym badaniu) a rozkładem próbkowania. (tu znajduje się film na ten temat naszego autorstwa).
Jeśli chodzi o testowanie normalności rozkładu w próbie, to w tym celu wykorzystuje się różne metody, z czego najważniejsze to:
Istnieją różne sposoby dzięki którym możemy znormalizować rozkład zmiennej w sytuacji w której odbiega on od normalnego i z jakiegoś powodu chcemy to zmienić:
Podsumowując, rozkład normalny to rozkład prawdopodobieństwa o szczególnych znaczeniu w statystyce, a w szczególności w paradygmacie częstościowym. Jego określona charakterystyka matematyczna umożliwia w łatwy sposób wyznaczać prawdopodobieństwo i posługiwać się testami statystycznymi. Założenie o normalności rozkładu jest istotne dla testów parametrycznych, jednak warto pamiętać że dotyczy ono rozkładu próbkowania, a nie rozkładu zmiennej (rozkładu w próbie). Istnieją różne metody weryfikowania założenia o normalności rozkładu, na przykład testy normalności rozkładu oraz analiza skośności i kurtozy, choć w praktyce zawsze warto wykorzystywać równolegle kilka z nich oraz uzupełniać wnioskowanie o inne kwestie związane z danym badaniem, np. liczebność próby oraz specyfika badanej zmiennej.