OTWÓRZ / POBIERZ ARTYKUŁ JAKO PLIK PDF
OTWÓRZ / POBIERZ SAME TABELE ZE WZORAMI JAKO PLIK PDF
Wprowadzenie – czym jest siła efektu?
W paradygmacie częstościowym wnioskowanie statystyczne opieramy przede wszystkim na interpretacji wartości p (p-value), którą zestawiamy z przyjętym poziomem istotności statystycznej (α). Z racji tego, że zazwyczaj α = 0,05, przyjęło się, że wynik p < 0,05 określamy jako „istotny statystycznie”, a p > 0,05 jako „nieistotny statystycznie”. Na tej podstawie podejmujemy decyzję o odrzuceniu bądź nieodrzuceniu hipotezy zerowej.
Warto jednak pamiętać, że samo określenie tego czy wynik jest „istotny statystycznie” nie jest wystarczające do dokonania pełnej interpretacji uzyskanych wyników i wyciągnięcia z nich trafnych wniosków. Konieczne jest uzupełnienie raportowania o inne statystyki. Jedną z nich jest wartość wskaźnika siły efektu (ang. effect size) – miary statystycznej, która służy do oceny skali (wielkości) uzyskanego efektu, np. różnicy między grupami lub siły związków między zmiennymi. Warto podkreślić, że raportowanie effect size powinniśmy potraktować nie jako możliwość, z której warto skorzystać, a jako konieczność – jest to bowiem niezbędny element raportu wymagany w standardzie APA.
Jaki jest związek między siłą efektu a wartością p?
Raportowanie siły efektu obok wartości p jest o tyle istotne, że interpretacja p-value pozwala „jedynie” na weryfikację postawionej hipotezy. Pojęcie „istotności statystycznej”, związane z p-value, nie jest bowiem tożsame z „istotnością praktyczną”, czyli tym na ile dany wynik jest istotny, ważny z teoretycznego punktu widzenia. Możliwe jest zatem uzyskanie np. wyniku „istotnego statystyczne”, który ma niewielkie znaczenie praktyczne lub efektu o ważnym znaczeniu z punktu widzenia teoretycznego, ale wartości p wyższej od ustalonego umownie progu 0,05. Jak jednak możemy ocenić czy znaczenie praktyczne danego efektu jest niewielkie, umiarkowane lub duże? Między innymi na podstawie oceny wartości effect size.
Okazuje się zatem, że p-value i effect size możemy traktować jako dwa odrębne wskaźniki, które pozwalają na ocenę dwóch różnych aspektów uzyskanego rezultatu. Jak wynika z kontekstu, wartości siły efektu oraz p-value nie są ze sobą bezpośrednio powiązane. Wyjaśnijmy dlaczego tak jest. To istotne, bo rozumienie tych zależności jest kluczem do poprawnej interpretacji wyników i wyciągnięcia właściwych wniosków.
Od czego zależy wartość siły efektu i wartości p?
Wyobraźmy sobie, że przeprowadzamy dwa osobne, choć podobne do siebie badania. W obu, pod względem nasilenia takiej samej zmiennej zależnej, porównujemy między sobą dwie takie same grupy, stosując test t Studenta dla prób niezależnych. Przyjmijmy, że w obu badaniach uzyskaliśmy analogiczne wyniki, w sensie – te same średnie, a co za tym idzie tą samą różnicę średnich między grupami, a także te same wartości odchylenia standardowego.
Na pierwszy rzut oka możemy uznać, że skoro obliczone statystyki są takie same, to można przyjąć, że uzyskaliśmy takie same wyniki. I w pewnym sensie jest to prawda, skoro uzyskane różnice rzeczywiście są sobie równe. Co więcej, wniosek ten potwierdzi również wartość obliczonej statystyki d Cohena, która jest miarą siły efektu w teście t Studenta dla prób niezależnych – w obu przypadkach będzie ona taka sama.
Załóżmy jednak, że oba te badania różni jeden aspekt – wielkość próby, gdzie jedno badanie zostało wykonane na próbie N = 60, a drugie na próbie N = 120 osób. W żaden sposób nie wpłynie to na uzyskaną wartość d Cohena, ponieważ różnice między grupami pozostają nadal takie same. Okazuje się jednak, że wartości p uzyskane w obu tych badaniach będą różne! W badaniu wykonanym na większej próbie wartość p będzie niższa niż w badaniu wykonanym na mniejszej próbie. Może okazać się nawet, że jeden z tych wyników okaże się istotny statystycznie, a drugi nieistotny statystycznie!
Skąd wynikają te rozbieżności? Okazuje się, że wartość p (przy założeniu stałej wielkości efektu) spada wraz ze wzrostem liczebności próby. Wynika to ze sposobu działania testów statystycznych, których „precyzja” pomiaru (mierzona wielkością błędu standardowego) wzrasta wraz z liczebnością próby (wtedy wspomniany błąd standardowy maleje). Efekt ten możemy odnieść też do pojęcia mocy testu statystycznego, czyli jego „czułości” do wykrycia danego efektu. Ta, analogicznie, wzrasta wraz z liczebnością próby, co w praktyce przekłada się na uzyskiwanie wyników istotnych statystycznie przy co raz mniejszych realnych efektach (mierzonych wartością danego effect size).
Z kolei wartość siły efektu nie zależy w taki sposób od liczebności próby jak wartość p. Co prawda pewna zależność istnieje (pominiemy tu szczegóły), ale jego skala jest dużo mniejsza w porównaniu do relacji między liczebnością próby a p-value. Siła efektu w większym stopniu odzwierciedla zatem rozmiar realnego efektu, który mierzymy.
Dlaczego warto raportować i interpretować wartość siły efektu?
Odmienny charakter relacji pomiędzy liczebnością próby a p-value i effect size ma wyraźne przełożenie na uzyskiwane wyniki wykonywanych testów statystycznych. Z jednej strony, wartość p jest kluczowa przy weryfikacji danej hipotezy statystycznej. Z drugiej, wniosek z takiej analizy warto uzupełnić o interpretację wartości wskaźnika siły efektu. Ma to duże znaczenie praktyczne, o którym warto pamiętać dokonując interpretacji wyników przeprowadzonej analizy. Poniżej przeanalizujemy dwa przykłady, które obrazują na jakiej zasadzie taka interpretacja może przebiegać.
W badaniach wykonywanych na dużych próbach (rzędu setek obserwacji) uzyskuje się często wiele wyników istotnych statystycznie, z których wiele (a czasami większość) charakteryzuje niewielki efekt, wyrażony wartością danego effect size. W takiej sytuacji, interpretując samą wartość p pozbawiamy się szansy na wyciągnięcie pełnowartościowych wniosków, ponieważ jako równie znaczące uznamy wyniki odzwierciedlające różne skale efektu. Przykładowo – bardziej istotne bowiem jest to, że korelacja liniowa między jedną parą zmiennych jest silna i wynosi r = 0,67 a między drugą parą zmiennych jest słaba i wynosi r = 0,17, niż fakt, że obie one są „istotne statystycznie”. Interpretacja takich wyników powinna obejmować więc zarówno wartości p jak i effect size.
Analogicznie przedstawia się sprawa w badaniach wykonywanych na niewielkich próbach (rzędu kilku lub kilkunastu obserwacji). W takich sytuacjach nieistotne statystycznie mogą okazać się wyniki, dla których wartość effect size jest względnie wysoka. Jeśli jednak rozumiemy relacje między wielkością próby, siłą efektu i wartością p, taki fakt możemy odnotować i uwzględnić w interpretacji. Przykładowo, jeśli w naszym badaniu uzyskaliśmy wynik nieistotny statystycznie, choć wartość d Cohena wyniosła 0,87 (co interpretujemy jako dużą różnicę), możemy śmiało taki rezultat opisać, szczególnie jeśli efekt ten ma duże znaczenie dla postawionego problemu badawczego. Takie sytuacje nie są wcale rzadkie, jak by się mogło wydawać – zdarzają się w np. badaniach pilotażowych lub w sytuacjach, gdy uzyskanie większej próby jest trudne np. ze względu na wysoki koszt badań lub trudność z zebraniem odpowiednich obserwacji (sytuacja spotykana w badaniach klinicznych).
Podsumowanie
Podsumowując, p-value jest miarą prawdopodobieństwa statystycznego, nie wskazuje natomiast na prawdopodobieństwo w sensie praktycznym. Jej wartość zależy od kilku wypadkowych związanych z „mechaniką” danego testu statystycznego, z czego największe praktyczne znaczenie ma wielkość próby. W konsekwencji to, na ile adekwatna jest interpretacja tej wartości w odniesieniu do danego zjawiska zależy w dużej mierze od tego, na ile przeprowadzane badanie zostało poprawnie zaprojektowanie, np. od tego czy wielkość zebranej próby została oparta na wcześniejszych obliczeniach uwzględniających moc wykorzystywanego testu.
Siła efektu z kolei jest w mniejszym stopniu zależna od tego rodzaju wypadkowych, w związku z tym w bardziej bezpośredni sposób odzwierciedla skalę uzyskanego efektu. Dlatego też raportowanie wartości effect size dla poszczególnych testów jest tak istotne. Niemniej ważne jest jednak rozumienie zależności między liczebnością próby, mocą testu, wartością p i wartością siły efektu oraz wykorzystanie tej wiedzy do umiejętnej interpretacji uzyskanego wyniku, która uwzględnia wszystkie te składowe równocześnie.
Jako ciekawostkę warto dodać, że raportować możemy nie tylko pojedynczą wartość danego wskaźnika siły efektu, ale też odpowiadający mu przedział ufności. W ten sposób estymację punktową uzupełniamy o estymację przedziałową, dzięki czemu uzyskujemy kolejne dane, które możemy wykorzystać w interpretacji. Przykładowo, jeśli w dwóch badaniach otrzymujemy jednakową wartość d Cohena = 0,67 to uzyskanie informacji, że przedział ufności 95% w pierwszym przypadku wynosi [0,17; 1,14] a w drugim [0,62; 0,75] pozwala nam na wyciągnięcie dodatkowych wniosków – w skrócie, na przykład większy zakres wskazuje na mniejszą precyzję oszacowania.
Jakie są popularne wskaźniki siły efektu i jak je obliczyć?
W poniższej tabeli prezentujemy popularne wskaźniki siły efektu dla różnych testów statystycznych wraz z przedziałami pozwalającymi dokonać interpretacji uzyskanego wyniku. Ponadto, w dodatkowych materiałach PDF, które przygotowaliśmy, przedstawiamy również wzory pozwalające je obliczyć (pełen artykuł w formacie PDF do pobrania jest tutaj, a plik z samą tabelą tutaj) – większość z nich pochodzi z podręcznika Ellisa (2010). Warto pamiętać, że zazwyczaj nie dokonujemy tych obliczeń „ręcznie”, ponieważ większość z nich jest obliczana w popularnych pakietach statystycznych.
Warto podkreślić, że poszczególne wartości progowe służące do interpretacji różnych wskaźników siły efektu nie są obiektywne, a wynikają z konsensusu wypracowanego przez teoretyków i statystyków. Zdarza się, że niektóre wartości posiadają więcej niż jeden próg klasyfikacji, co wynika z różnych propozycji autorów.
Uwaga! Poniższa tabela nie zawiera wzorów na obliczenie poszczególnych wskaźników. Te można znaleźć w pełnym artykule PDF tutaj lub pliku z samą tabelą tutaj.
Test | Wskaźnik | Interpretacja |
Test t dla prób niezależnych | d Cohena | 0,2 – efekt słaby
0,5 – efekt umiarkowany 0,8 – efekt silny |
g Hedges’a | ||
∆ Glassa | ||
Test t dla prób zależnych | d Cohena | 0,2 – efekt słaby
0,5 – efekt umiarkowany 0,8 – efekt silny |
Test U Manna Whitenya | rg | 0,1 – efekt słaby
0,3 – efekt umiarkowany 0,5 – efekt silny |
η2 | 0,01 – efekt słaby
0,06 – efekt umiarkowany 0,14 – efekt silny |
|
Test Wilcoxona | rc | 0,1 – efekt słaby
0,3 – efekt umiarkowany 0,5 – efekt silny |
Korelacje | r | 0,1 – efekt słaby
0,3 – efekt umiarkowany 0,5 – efekt silny |
rs lub ρ | ||
τ | ||
ANOVA, ANCOVA | ηp2 | 0,01 – efekt słaby
0,06 – efekt umiarkowany 0,14 – efekt silny |
η2 | ||
ωp2 | ||
ω2 | ||
f Cohena | 0,10 – efekt słaby
0,25 – efekt umiarkowany 0,40 – efekt silny |
|
Test Kruskala Wallisa | η2 | 0,01 – efekt słaby
0,06 – efekt umiarkowany 0,14 – efekt silny |
χ2 | φ | 0,1 – efekt słaby
0,3 – efekt umiarkowany 0,5 – efekt silny |
V Cramera | ||
Analiza regresji liniowej | R2 | 0,02 – efekt słaby
0,13 – efekt umiarkowany 0,26 – efekt silny |
Skorygowane R2 | ||
f 2 | 0,02 – efekt słaby
0,15 – efekt umiarkowany 0,35 – efekt silny |
|
Analiza regresji logistycznej | OR (iloraz szans) | 1,5 – efekt słaby
2,5 – efekt umiarkowany 4,0 – efekt silny |
Literatura:
Ellis, P. D. (2010). The essential guide to effect sizes: Statistical power, meta-analysis, and the interpretation of research results. Cambridge university press.
Fritz, C. O., Morris, P. E., & Richler, J. J. (2012). Effect size estimates: current use, calculations, and interpretation. Journal of experimental psychology: General, 141(1), 2-18.
Maher, J. M., Markey, J. C., & Ebert-May, D. (2013). The other half of the story: effect size analysis in quantitative research. CBE—Life Sciences Education, 12(3), 345-351.
www.spss-tutorials.com/effect-size/ (dostęp: 02.06.2023r.)