Test statystyczny – procedura stosowana w statystyce, za pomocą której na podstawie zebranych danych ocenia się prawdopodobieństwo związane z występowaniem danego efektu i w wyniku tego podejmuje się decyzję dotyczącą określonej hipotezy badawczej.
Przykładowo, na podstawie testów statystycznych możliwe jest stwierdzenie czy istnieją istotne różnice między grupami lub pomiarami (analizy różnic np. parametryczna lub nieparametryczna), czy istnieje związek między zmiennymi (analiza korelacji), czy jedna zmienna przewiduje drugą (analizy predykcji) lub czy też wyniki można przypisać przypadkowym fluktuacjom (losowości).
Testy statystyczne służą testowaniu pewnych założeń i zwykle mogą być prowadzone w dwóch alternatywnych podejściach do analizy danych:
1) Paradygmat częstościowy (NHTS – null hypothesis significance testing).
2) Paradygmat Bayesowski
Z uwagi, iż podejście bayesowskie (w momencie pisania tego tekstu – AD 2024) jest jeszcze w fazie raczkowania w środowisku naukowym (choć przewiduje się jego błyskawiczny rozwój w latach), obecnie większość badań zasadza się na podejściu częstościowym, które ma dłuższą tradycję i nieraz spędza sen z powiek studenta, doktoranta, czy już doświadczonego naukowca.
Jak już wspomniano w podejściu częstościowym, podstawowym celem testów statystycznych jest analiza danych w kontekście pewnych założeń (hipotez) i ocena, czy zebrane dane są zgodne z tymi założeniami, czy też występują istotne odstępstwa. Proces ten obejmuje określenie statystyki testowej, która mierzy siłę dowodową przeciwko hipotezie zerowej (najczęściej zakładającej brak istotnej różnicy czy związku), a następnie porównanie tej statystyki z odpowiednią wartością krytyczną lub obliczenie wartości p.
Szczegółowo, wykorzystanie testów statystycznych w podejściu częstościowym (NHST) przebiega w następujący sposób:
1. Postawienie hipotezy:
Hipoteza zerowa (H0): Zwykle zakłada brak efektu, np. różnicy lub związku w populacji (np. Kobiety i mężczyźni nie różnią się poziomem zadowolenia z pracy). Hipoteza alternatywna (H1): Zwykle zakłada istnienie efektu, np. różnicy lub związku w populacji (np. Kobiety i mężczyźni różnią się zadowoleniem z pracy).
2. Wybór testu statystycznego:
Dobranie odpowiedniego testu statystycznego pozwalającego przetestować daną hipotezę. Wybór ten jest zwykle podyktowany sposobem operacjonalizacji zmiennej. Przykładowo chcąc porównać wyniki wyrażone w skali ilościowej pomiędzy określonymi grupami (zmienna niezależna o charakterze nominalnym) wybieramy zwykle testy t Studenta lub analizę wariancji.
3. Wybór poziomu istotności (alfa):
Określenie poziomu alfa, który jest akceptowalnym poziomem błędu pierwszego rodzaju (czyli odrzucenia prawdziwej hipotezy zerowej). Zwykle poziom ten określamy jako α = 0,05. Oznacza to, że (w kontekście wielokrotnego testowania danej hipotezy) akceptujemy do 5% przypadków potwierdzających hipotezę braku efektu. Mimo, że zwykle przyjmuje się α jako 0,05 to wartość ta może być inna (np. 0,01 lub 0,001). Wartość tego progu zależy od kilku czynników, m.in. charakteru prowadzonego badania (w tym dziedziny), mocy statystycznej, rozmiaru próby.
4. Zebranie danych:
Zebranie odpowiednich danych np. z eksperymentu lub badania w schemacie korelacyjnym. Etap ten wymaga określenia odpowiedniej wielkości próby w odniesieniu do założonej mocy statycznej (np. przy użyciu programu G*Power) wraz z jej doborem losowym lub celowym (najczęściej kwotowym).
5. Obliczenie wartości statystyki testowej:
Na podstawie zebranych danych oblicza się statystykę testową (czyli matematyczny wynik danego testu) odpowiednią dla wybranego testu statystycznego (przykładowe statystyki testowe: t, F, χ2). Statystyka ta mierzy różnice między obserwowanymi danymi a oczekiwanymi wartościami (zwykle dla hipotezy zerowej oczekujemy brak różnic czy zależności). Formalnie, wartość statystyki testowej porównuje się później z przyjętą wartością krytyczną, choć w praktyce etap ten “pomija się” (de facto zastępuje samą interpretacją wartości p).
6. Obliczenie wartości p:
Na podstawie uzyskanego wyniku testu oblicza się wartość p. Jest to prawdopodobieństwo otrzymania wyników równie skrajnych lub jeszcze bardziej skrajnych niż uzyskane w badaniu, przy założeniu że hipoteza zerowa jest prawdziwa.
7. Podjęcie decyzji – weryfikacja hipotezy:
Wartość obliczonej wartości p porównuje się ją z ustalonym poziomem istotności. Jeśli wartość p jest mniejsza niż poziom istotności, odrzuca się hipotezę zerową i przyjmuje hipotezę alternatywną. Taki wynik określamy jako “istotny statystycznie”. Przykładowo, jeśli jako poziom istotności przyjmujemy alfa na poziomie 0,05 to istotny statystycznie wynik jest gdy p < 0,05. Z kolei, jeśli wartość p jest większa od wartości α to przyjmujemy hipotezę zerową. Taki wynik określamy jako “nieistotny statystycznie”.
8. Wnioskowanie statystyczne:
Choć obliczenie wartości p i weryfikacja hipotezy to ostatni formalny etap związany ze stosowaniem danego testu statystycznego, to w rzeczywistości jest to dopiero początek właściwego wnioskowania. Powszechnie uznaje się, że koniecznym jest uzupełnienie tych informacji o uzyskane inne wyniki, przede wszystkim przedziały ufności oraz siłę efektu. Dopiero na podstawie analizy wszystkich tych wyników, dokonywanej w odniesieniu do wszystkich pozostałych rezultatów oraz teorii stojącej u podstaw danego badania, możliwa jest pełna interpretacja dotycząca ewentualnej generalizacji uzyskanych wyników na populację. Etap ten wymaga niebywałej czujności po stronie statystyka, związanej m.in. z koniecznością powstrzymania się od wnioskowania na podstawie uproszczonych algorytmów (tzw. testoza, bazowanie na bezkrytycznej interpretacji wyników testów), uwzględnienia różnych “pułapek” które mogą wpłynąć na poprawność wyciąganych wniosków (np. błąd wielokrotnego testowania) oraz podjęcia twórczej analizy całościowego obrazu związanego z danym badaniem.
Podsumowując, testy statystyczne są niezbędne dla oszacowania prawdopodobieństwa istnienia poszczególnych efektów, rozumianych np. jako różnice międzygrupowe, różnice wewnątrzgrupowe (między pomiarami), lub też korelacje między zmiennymi. Istnieją dwa alternatywne podejście do stosowania testów statystycznych – podejście częstościowe (NHST), oparte na obliczaniu wartości p, oraz statystyka bayesowska, która wciąż jest niszowa, choć stopniowo zyskuje popularność. W przypadku stosowania procedury NHST warto pamiętać, że obliczanie wartości p i weryfikacja hipotezy to tylko początek właściwej interpretacji i musi być ona uzupełniona m.in. o obliczenie i interpretację przedziałów ufności oraz siły efektu. Testy statystyczne są użyteczną metodą, zarówno w paradygmacie częstotliwościowym, jak i Bayesowskim, jednak ich poprawne stosowanie wymaga dużej wiedzy i czujności.