Wykonując analizy statystyczne wyników do pracy magisterskiej, doktorskiej czy artykułu naukowego, wyliczamy i przedstawiamy szereg statystyk/estymatorów. W przypadku zmiennych ilościowych, najczęściej najważniejszą z nich jest średnia arytmetyczna, ponieważ traktujemy ją, jako główny wskaźnik określający wartość mierzonego przez nas parametru, np. nasilenia jakiejś cechy lub poziomu danej zdolności. Średnia arytmetyczna jest szczególnie ważną statystyką w przypadku testów porównujących średnie, takich jak test t Studenta czy ANOVA, ponieważ m.in. na jej podstawie określamy czy zaobserwowane różnice między porównywanymi grupami są istotne statystycznie.
Wnioskowanie statystyczne nie polegają jednak na wyliczaniu bądź porównywaniu samych średnich arytmetycznych, a na porównywaniu rozkładów wyników zebranych z danych prób, w celu określenia czy (prawdopodobnie) pochodzą z tej samej populacji. Dlatego też, nawet w przypadku dużych rozbieżności w wartości średnich, wynik testu może okazać się nieistotny statystycznie. Obrazuje to poniższy rysunek, na którym widać, że mimo tych samych wartości średnich, rozkłady w różnym stopniu nakładają się na siebie, co oczywiście ma swoje odbicie w wyniku testu oraz jego istotności statystycznej. Oznacza to, że im większa jest wartość odchylenia standardowego porównywanych rozkładów, tym większe muszą być różnice w średnich, aby uznać, że określone rozkłady istotnie statystycznie różnią się między sobą.
Jeżeli zmienność wyników wokół średniej ma wpływ na wynik testu, oczywistym jest, że wzór do obliczenia wyniku testu, a co za tym idzie jego istotności statystycznej, musi zawierać w sobie jakiś wskaźnik dotyczący tej zmienności. Wskaźnikiem tym jest wariancja, która jest miarą zmienności wyników w rozkładzie wokół wartości oczekiwanej – w tym przypadku średniej (wariancja wyliczana jest jako średnia arytmetyczna kwadratów odchyleń poszczególnych wartości od średniej).
PAMIĘTAJ, ŻE WARIANCJA TO ODCHYLENIE STANDARDOWE PODNIESIONE DO KWADRATU, A ODCHYLENIE STANDARDOWE TO PIERWIASTEK KWADRATOWY Z WARIANCJI. Oba te estymatory są względem siebie zależne.
Powyższe przykłady pokazują, że sama wartość średniej arytmetycznej nie jest dobrym wskaźnikiem dotyczącym otrzymanych wyników i musi ona zostać uzupełniona o statystykę opisującą rozproszenie wyników wokół średniej. W praktyce, nie podaje się wyżej wymienionej wartości wariancji, a odchylenia standardowego, która obliczana jest poprzez wyciągnięcie pierwiastka z wariancji. Dlaczego? Jest tak z racji tego, że wariancja obliczana jest, jako suma kwadratów odchyleń od wartości średniej – po to, żeby wyniki dodatnie i ujemne nie zniosły się wzajemnie – więc spierwiastkowanie tej wartości pozwala na “powrót” do “właściwej” wartości średniego odchylenia. Czyli? Czyli odchylenie standardowe wyrażone jest w jednostkach pomiaru zmiennej, którą mierzyć a wariancja nie. Wszystko to jest powodem, dla którego znienawidzona i niezrozumiała dla wielu osób wartość odchylenia standardowego, raportowana jest prawie zawsze przy wartości średniej. Dzięki niej możemy od razu zobrazować rozkład wszystkich wyników, a nie tylko samą średnią.
No dobra, wiemy już, że odchylenie standardowe to średnie odchylenie wyników od średniej. I co z tego? Do czego potrzebna jest nam ta informacja? W dużej mierze, dzięki niej, jesteśmy w stanie zrozumieć, na ile średnia arytmetyczna jest trafną wartością określającą otrzymane wyniki. Przyjmuje się, że jest tak w sytuacji, w której wartość odchylenia standardowego nie przekracza około 1/3 wartości średniej. Przykładowo, jeśli średni wiek badanych wyniósł 40 lat, a odchylenie standardowe 10, to wiemy, że większość osób badanych jest w wieku rzeczywiście zbliżonym do 40 lat. Występuje względnie silna koncentracja wyników wokół średniej. Natomiast gdyby przy tej średniej, odchylenie standardowe wyniosło 30, to istnieje szansa, że niewiele osób badanych jest wieku bliskim 40 lat – w dużej mierze zależy to od rozkładu wyników.
PAMIĘTASZ O JEDNORODNOŚCI WARIANCJI?
Jeśli tak, to super! Jeśli nie to koniecznie przeczytaj nasz wpis o tym czym jest ich homogeniczność i dlaczego jest taka ważna:
https://pogotowiestatystyczne.pl/slowniczek/rowne-wariancje/
Jednorodność wariancji to prawie to samo co jednorodność odchyleń standardowych. Dla większości analiz, które dobrze znacie (jak np. test t Studenta czy ANOVA) ważnym założeniem jest, aby odchylenia standardowe w porównywanych grupach były podobne do siebie. Średnie oczywiście nie. Zazwyczaj im bardziej się różnią tym dla Was lepiej. Odchylenia standardowe powinny być jedna podobne. Jeśli w jednej grupie SD (z ang. Standard Deviation) wynosi 12, a w drugiej 36 to oznacza, że prawdopodobnie na wyniki działa jakiś czynnik, którego nie kontrolujecie a nie tylko Wasza zmienna niezależna.
Należy jednak pamiętać, że odchylenie standardowe ma jedną istotną wadę – nie zawiera w sobie informacji o symetrii rozkładu. Wracając do powyższego przykładu dotyczącego wieku – przy średniej wieku 40 lat i odchyleniu standardowym 30, może być tak, że większość badanych jest w wieku ok 20 lat i ok 60 lat, jednakże również istnieje szansa, że 75% badanych jest wieku ok 20 lat, a reszta w wieku ok 90, lub na odwrót. W obu przypadkach, wartość odchylenia standardowego jest podobna, jednak rozkłady wyników – zupełnie różne. Dlatego też, warto raportować i zwracać uwagę na inne statystyki opisowe, takie jak wartość minimalna, maksymalna czy wartość skośności (asymetrii) czy kurtozy rozkładu.