Wartość p – wartość prawdopodobieństwa (stąd p – probability) na podstawie której dokonujemy weryfikacji hipotezy statystycznej podczas wykonywania danego testu statystycznego w paradygmacie częstościowym (NHST). Sporo informacji na temat poprawnej interpretacji wartości p znajdziesz w naszym wpisie blogowym tutaj.
Ze statystycznego punktu widzenia wartość p to prawdopodobieństwo otrzymania takiego (lub bardziej skrajnego) wyniku testu jak został zaobserwowany, przy założeniu, że hipoteza zerowa jest prawdziwa. Wynik analizy określamy jako istotny statystycznie, jeśli wartość p jest mniejsza niż założony próg α (zwykle 0,05).
Interpretacja wartości p jest niestety niełatwa, ponieważ proces wnioskowania w paradygmacie częstościowym jest kontrintuicyjny. Jest tak, ponieważ dane z pojedynczego badania nie są interpretowane „bezpośrednio”, a przyrównywane są do pewnego rozkładu prawdopodobieństwa, a uzyskany wynik traktuje się jako jeden z nieskończonej ilości wyników jaki w danym badaniu który „prawdopodobnie” można by było uzyskać. Skutkiem tego jest wyciąganie trudnych w intuicyjnej interpretacji wniosków w stylu „brak jest podstaw do odrzucenia hipotezy zerowej wskazującej na brak różnicy między grupami”, zamiast „udowodniono występowanie różnicy”. Jest to niestety kwestia, której nie da się obejść.
Aby lepiej zrozumieć czym jest wartość p, spójrzmy na proces weryfikacji hipotezy statystycznej w całości. W skrócie (bardziej szczegółowy opis znajduje się tutaj), przebiega on w następujący sposób:
1. Formułowanie hipotezy
Najpierw stawia się dwie hipotezy – hipotezę zerową (H0), która zazwyczaj odnosi się do braku efektu oraz hipotezę alternatywną (H1), która zwykle sugeruje jego obecność.
2. Wybór poziomu istotności
Następnie wyznacza się poziom istotności α (zazwyczaj 0,05, choć może być inny), który określa prawdopodobieństwo błędu I rodzaju, czyli odrzucenia hipotezy zerowej, kiedy jest ona prawdziwa.
3. Wykonanie testu statystycznego
Na podstawie zebranych danych oblicza się statystykę testową (czyli matematyczny wynik danego testu) odpowiednią dla wybranego testu statystycznego.
4. Obliczenie wartości p:
Na podstawie uzyskanego wyniku testu oblicza się wartość p. Jest to prawdopodobieństwo otrzymania wyników równie skrajnych lub jeszcze bardziej skrajnych niż uzyskane w badaniu, przy założeniu że hipoteza zerowa jest prawdziwa.
5. Podjęcie decyzji – weryfikacja hipotezy:
Wartość obliczonej wartości p porównuje się z ustalonym poziomem istotności. Jeśli wartość p jest mniejsza niż poziom istotności, odrzuca się hipotezę zerową i przyjmuje hipotezę alternatywną. Taki wynik określamy jako “istotny statystycznie”.
Podsumowując, wartość p to wartość prawdopodobieństwa dotyczącego hipotezy zerowej, którą porównuje się z przyjętym poziomem istotności α. Przykładowo, jeśli jako alfa przyjmujemy wartość 0,05 to istotny statystycznie wynik jest gdy p < 0,05. Z kolei, jeśli wartość p jest większa od wartości α to przyjmujemy hipotezę zerową. Taki wynik określamy jako “nieistotny statystycznie”.
Aby lepiej zrozumieć ideę wartości p rozważmy przykład. Badacze zastanawiali się nas następującym pytaniem badawczym: Czy mężczyźni spożywają częściej alkohol niż kobiety? Poszukując odpowiedzi, przeprowadzili badanie, w którym porównano odpowiedzi kobiet i mężczyzn dotyczące częstotliwości spożycia alkoholu. Po obliczeniu różnic między grupami z użyciem odpowiedniego testu statystycznego uzyskano wynik p = 0,005. Wynik ten można zinterpretować w następujący sposób:
„Istnieje 0,5% prawdopodobieństwa na uzyskanie takiego wyniku (takiej różnicy) jaki uzyskaliśmy lub bardziej skrajnego (jeszcze większej różnicy), zakładając że hipoteza zerowa jest prawdziwa (brak jest różnicy między mężczyznami i kobietami w częstotliwości spożywania alkoholu). W skrócie – istnieje 0,5% prawdopodobieństwa uzyskania takiego efektu jaki został uzyskany lub większego, jeżeli prawdą jest, że między grupami nie ma różniy.”
Należy pamiętać, że wartość p możemy interpretować tylko i wyłącznie w odniesieniu do przyjętego progu α. Przykładowo, wartość 0,5% może wydawać się „obiektywnie bardzo mała”. I rzeczywiście, gdyby w tym badaniu przyjęto α = 0,05 to uzyskany wynik (p = 0,005) byłby istotny statystycznie. Jednakże, gdyby w tym badaniu przyjęto α = 0,001, to uzyskany wynik p = 0,005 byłby nieistotny statystycznie. Oznaczałoby to, że zmierzona różnica jest za mała, abyśmy mogli uznać ją za dowód pozwalający odrzucić hipotezę zerową.
Warto pamiętać, że weryfikacja hipotezy statystycznej na podstawie wartości p nie daje pewności absolutnej – zawsze istnieje ryzyko błędu I rodzaju (fałszywie odrzucenie H0) oraz II rodzaju (fałszywie przyjęcie H0). Dlatego ważne jest, aby wyniki testu statystycznego interpretować ostrożnie, biorąc pod uwagę kontekst badania i inne dostępne dowody. Wykonując testy statystyczne należy również ściśle przestrzegać całego procesu, aby uniknąć nadużyć metodologicznych, np. p-hackingu. W celu m.in. ograniczenia różnych nadużyć metodologicznych stworzono ruch Open Science.
Ponadto, interpretacja wartości p wymaga uwzględnienia poziomu mocy statystycznej testu, ponieważ to od niego pośrednio zależy wartość p. W skrócie – jeśli moc testu jest za mała, uzyskany wynik może być nieistotny statystycznie, chociaż jego realny efekt (mierzony wskaźnikiem siły efektu) będzie np. umiarkowany. Jeśli natomiast moc testu jest bardzo wysoka, możemy uzyskać wiele wyników istotnych statystycznie o niewielkiej, prawie zerowej sile. Dlatego najlepszym rozwiązaniem jest oszacowanie odpowiedniej liczebności próby (np. przy użyciu G*Power), dzięki czemu wykonywany przez nas test charakteryzować się będzie odpowiednią mocą. Po drugie, wnioskowanie na podstawie wartości p powinna być uzupełniona o interpretację wyliczonej wartości siły efektu. Więcej o tych zagadnieniach piszemy w tym wpisie blogowym.
Podsumowując wartość p jest użyteczną miarą, dzięki której możemy dokonać weryfikacji postawionej hipotezy poprzez porównanie jej z przyjętym poziom istotności α (alfa). Zaletą tego rozwiązanie jest prosty, zero-jedynkowy, sposób wyciągania wniosków. Jednocześnie, zaleta ta bywa zarazem największą wadą – rozwiązanie to nie jest niezwodne, przede wszystkim z powodu zależności wartości p od mocy statystycznej i ryzyka błędnej interpretacji w przypadku zbyt małej lub wyjątkowo dużej mocy testu. W efekcie tego, spotkać się można z dużą ilością badań (również tych opublikowanych), w których na podstawie wartości p wyciąga się nieuprawione wnioski. Dlatego też poprawne wnioskowanie statystyczne oparte o wartości p wymaga szerszej wiedzy z zakresu statystyki i metodologii badań, dzięki temu możliwa jest ostrożna interpretacja uwzględniająca szerszy kontekst badania (np. siłę uzyskanego efektu).