Słownik

START | EDUKACJA | SŁOWNIK | Rozkład normalny

Rozkład normalny

Rozkład normalny (nazywany też rozkładem Gaussa lub rozkładem Laplace’a-Gaussa) – rodzaj rozkładu prawdopodobieństwa, który jest powszechny w statystyce i różnych dziedzinach nauki. Jest on podstawą wielu metod statystycznych i teoretycznych modeli. Używany jest on do modelowania błędów pomiarowych, charakterystyk populacji i testowaniu hipotez statystycznych w oparciu o testy statystyczne (podejście częstościowe).

Idea rozkładu normalnego została wprowadzona przez niemieckiego matematyka Carla Friedricha Gaussa w latach 1801-1809. Gauss badał błędy pomiarowe i zauważył, że wiele zjawisk naturalnych, takich jak pomiary błędów eksperymentalnych, może być opisane przez taki rozkład. Sam Gauss nie opublikował dokładnych wzorów, ale prace nad rozkładem kontynuowali inni matematycy. Ostateczną wersję rozkładu normalnego zawdzięczamy Abrahamowi de Moivre, Pierre’owi Simonowi Laplace’owi i Adrienowi-Marie Legendre’owi. Idea i zastosowanie rozkładu normalnego były rozwijane i poprawiane przez różnych matematyków na przestrzeni lat, a przystępny film instruktażowy na ten temat można obejrzeć tutaj.

Rozkład normalny oraz jego charakterystykę przedstawiono na rysunku 1.

Rysunek 1
Krzywa gęstości rozkładu normalnego

Na rysunku 1 zaprezentowano rozkład normalny w formie wystandaryzowanej, w której średnia wynosi 0, a odchylenie standardowe 1. Idealny rozkład normalny charakteryzuje się także parametrami równymi zero dla mediany i dominanty, skośności oraz kurtozy.

W rozkładzie normalnym bardzo ważna jest reguła 3 sigma (σ), która mówi o proporcjach obserwacji dostępnych pod krzywą gęstości w każdym odchyleniu standardowym:

  • 68% obserwacji mieści się w przedziale od -1 do 1 SD, niekiedy jest to określane jako przedział normy.
  • 95% obserwacji mieści się w przedziale odchyleń wyników od -2 do 2 SD.
  • 99,7% obserwacji mieści się w przedziale odchyleń wyników od -3 do 3 SD.

Rozkład normalny (a także inne rozkłady takie jak F czy chi-kwadrat) jest tak ważny w statystyce, ponieważ posiada stałe właściwości matematyczne na podstawie których łatwo możemy wyznaczać prawdopodobieństwo – jest to punktem wyjścia m.in. do obliczania wartości p w testach statystycznych.

Warto także zwrócić uwagę, że mówiąc o rozkładzie (niezależnie od tego czy jest to rozkład normalny czy jakikolwiek inny), możemy odnosić się do jednego z trzech jego rodzajów:

  • Rozkład w populacji – jest rozkładem empirycznym i obrazuje rzeczywisty rozkład cechy w całej populacji. W badaniach naukowych opartych o weryfikację hipotez statystycznych nie badamy całej populacji, natomiast wyciągamy wnioski na jej temat na podstawie przebadanej próby.
  • Rozkład w próbie – jest rozkładem empirycznym i obrazuje rozkład cechy w badanej próbce (pojedynczym badaniu). Rozkład ten jest szacowaniem rozkładu w populacji.
  • Rozkład z próby (rozkład próbkowania) – jest rozkładem teoretycznym obrazującym rozkład danej cechy w populacji (np. wzrost) uzyskanej z wielu prób losowych pobranej z tej samej populacji, czyli rozkład wyników uzyskanych w wielu powtórzeniach tego samego badania.

Warto jednak pamiętać, że wykorzystanie charakterystyki rozkładu normalnego w testowaniu hipotez statystycznych dotyczy przede wszystkim tego trzeciego z opisywanych wyżej rozkładów, czyli rozkładu z próby. Ma to duże praktyczne znaczenie w kontekście procedury wnioskowania statystycznego, przede wszystkim testowania założenia o normalności rozkładu związanego z wykorzystaniem testów parametrycznych (np. t Studenta dla prób niezależnych lub ANOVA).

Czasami błędnie sądzi się (takie informacje znajdują się w niektórych podręcznikach do statystyki), że założenie o normalności rozkładu dotyczy rozkładu w próbie (rozkładu uzyskanych danych) i w związku z tym próbuje weryfikować się to założenie poprzez analizę rozkładu zmiennych. W praktyce, w wielu przypadkach (szczególnie przy dużych próbach) można założyć że rozkład próbkowania jest zbliżony do normalnego, nawet jeśli rozkład zmiennej odbiega od normalnego (sic!). Jest to związane z tzw. centralnym twierdzeniem granicznym, które wyjaśnia zależność między rozkładem w próbie (czyli tym który uzyskaliśmy w naszym badaniu) a rozkładem próbkowania. (tu znajduje się film na ten temat naszego autorstwa).

 Jeśli chodzi o testowanie normalności rozkładu w próbie, to w tym celu wykorzystuje się różne metody, z czego najważniejsze to:

  • Testy normalności rozkładu (np. Shapiro-Wilka lub Kołmogorowa-Smirnowa) za pomocą których weryfikujemy czy rozkład jest zbliżony normalnego na podstawie obliczonej wartości p. Choć testy te są stosunkowo często stosowane, w praktyce ich użyteczność jest niewielka, ponieważ ich wynik zależy od wielkości próby. W przypadku małych prób ich moc statystyczna jest zbyt mała, co zwiększa ryzyko sytuacji w której uzyskany wynik będzie nieistotny statystycznie, co wskazywać będzie na normalność rozkładu, mimo tego że faktycznie rozkład będzie wyraźnie odbiegać od normalnego (błąd II rodzaju). Z kolei w przypadku dużych prób moc testów normalności jest wysoka co prowadzi do uzyskiwania wielu istotnych statystycznie wyników (wskazujących na brak normalności rozkładu) nawet dla bardzo małych odstępstw od w tym zakresie. Jest to sytuacja tym bardziej paradoksalna, ponieważ w przypadku dużych prób, zgodnie z centralnym twierdzeniem granicznym rozkład próbkowania przyjmuje rozkład normalny niezależnie od rozkładu w próbie.
  • Analiza statystyk opisowych, przede wszystkim skośności i kurtozy. Część badaczy uważa że kryterium granicznym jest skośność i kurtoza równa |2| (George i Mallery, 2021) – w takiej sytuacji rozkład dla którego skośność i kurtoza mieszczą się w granicach między -2 a 2 uznawać będziemy za zbliżony do normalnego. Oczywiście w literaturze podaje się też inne progi niż wyżej wymieniony.
  • Ocena graficzna rozkładu, na przykład za pomocą histogramu, wykresu skrzynkowego lub wykresu Q-Q (kwantyl-kwantyl).

Istnieją różne sposoby dzięki którym możemy znormalizować rozkład zmiennej w sytuacji w której odbiega on od normalnego i z jakiegoś powodu chcemy to zmienić:

  • Zebranie dodatkowych danych – oczywiście najlepszym lekiem na całe zło statystyki jest powiększenie badanej próbki, jednak nie jest to zawsze możliwe.
  • Diagnoza występowania obserwacji odstających – przyczyną braku normalności rozkładu może być występowanie obserwacji odstających. W takiej sytuacji usunięcie ich często koryguje odchylenie rozkładu od normalnego. Jednakże usuwanie danych nie zawsze jest dobrym pomysłem, m. in. w sytuacji gdy próba jest niewielka.
  • Transformacja rozkładu – rozkład zmiennej można zmienić poprzez zastosowanie transformacji, tj. matematycznego przekształcenia wyników. Przykładowe transformacje ich zastosowanie: pierwiastkowanie (w przypadku lewostronnej skośności); potęgowanie (skośność prawostronna); logarytmizacja (wysoka kurtoza wraz ze skośnością prawostronną)
  • Transformacja Boxa-Coxa – typ transformacji na każdy rodzaj problemów z normalnością o czym można poczytać tutaj.
  • Transformacja rangowa – w sytuacji braku możliwości zastosowania którejkolwiek z opcji powyżej, można zawsze przejść z metod parametrycznych, korzystających z rozkładu normalnego, na metody nieparametryczne w których normalność rozkładu ma mniejsze znaczenie.

Podsumowując, rozkład normalny to rozkład prawdopodobieństwa o szczególnych znaczeniu w statystyce, a w szczególności w paradygmacie częstościowym. Jego określona charakterystyka matematyczna umożliwia w łatwy sposób wyznaczać prawdopodobieństwo i posługiwać się testami statystycznymi. Założenie o normalności rozkładu jest istotne dla testów parametrycznych, jednak warto pamiętać że dotyczy ono rozkładu próbkowania, a nie rozkładu zmiennej (rozkładu w próbie). Istnieją różne metody weryfikowania założenia o normalności rozkładu, na przykład testy normalności rozkładu oraz analiza skośności i kurtozy, choć w praktyce zawsze warto wykorzystywać równolegle kilka z nich oraz uzupełniać wnioskowanie o inne kwestie związane z danym badaniem, np. liczebność próby oraz specyfika badanej zmiennej.

COFNIJ

wróć do spisu wszystkich pojęć

Podziel się wiedzą

z innymi

Opinie Klientów

Co o nas sądzą?

Współpracowaliśmy

między innymi z:

Nasi partnerzy