Istotne statystycznie. Czyli jakie?

Istotność statystyczna statystyki testowej. Czyli co?

         Istotność statystyczna wyniku testu, p-value, p-wartość, wartość p, prawdopodobieństwo statystyki testowej i im podobne nazwy napotka na swojej drodze zarówno młody student pierwszego czy drugiego roku, jak też leciwy profesor, który od dziesięcioleci zgłębia wiedzę zawartą w monografiach czy artykułach naukowych. Pojęcie istotności statystycznej i testowania hipotez jest tak popularne, że bez wahania mogę uznać, że jeszcze (dla niektórych niestety, a dla niektórych na szczęście) rządzi światem badań naukowych niosąc dowody empiryczne. Analizy statystyczne bez wyliczenia i raportowania istotności są jak wyścig kolarski bez kolarzy lub chleb ze smalcem bez chleba. Zrozumienie tego pojęcia jest dla Was kluczowe.

ISTOTNOŚĆ STATYSTYCZNA. STARTUJEMY!

            Niniejszym wpisem rozpoczynamy serię postów dotyczących istotności statystycznej i wyników istotnych statystycznie. Dlaczego serię? Czy jeden nie wystarczy? Chyba nie, ponieważ okazuje się, że bardzo duża liczba osób nie rozumie samego pojęcia, koncepcji, która za nim stoi, a także nie potrafi poprawnie jej zinterpretować. Konsekwencje takiego stanu rzeczy są naprawdę bardzo poważne. Brak zrozumienia wyników i wniosków płynących z publikacji naukowych innych autorów to jedynie wierzchołek lodowej góry problemów. Często badacze nie potrafią zrozumieć nawet swoich własnych wyników przez co wyciągają na ich podstawie nieprawidłowe wnioski. Problemów wynikających z braku zrozumienia czym jest istotność statystyczna jest cała masa i niemal każdego dnia dotykają one wszystkich analityków Pogotowia Statystycznego. Badacze narzekają na wyniki nieistotne statystycznie, gdy spodziewają się wyników istotnych. Narzekają też na wyniki istotne statystycznie, gdy się ich nie spodziewali. Czasami bezpodstawnie uważają rezultaty swoich badań za beznadziejne i nieważne dla dorobku naukowego, a czasami, również bezpodstawnie uważają je za „odkrycie roku”  zasługujące na publikację w każdym czasopiśmie naukowym… a już na pewno w tych najwyżej punktowanych. W ekstremalnych przypadkach niekompetentni recenzenci i redakcje odmawiają publikacji wyników nieistotnych statystycznie lub nieprzyznawane są Wam granty ponieważ badania pilotażowe nie ujawniają istotnych wyników na magicznym poziomie p < 0,05. No jasne. Po co finansować badania, z których wynika, że pewne zmienne nie są ze sobą powiązane? Przecież ważne są tylko doniesienia wskazujące na to, że coś najprawdopodobniej występuje. Jeśli nie występuje to należy milczeć. Jeśli ktoś nie wyczuł ironii to spróbuję wyjaśnić na przykładzie. Podaję go zawsze, gdy nasz klient pyta "i co ja mam teraz zrobić" po otrzymaniu wyników nieistotnych statystycznie.

NIEISTOTNE STATYSTYCZNIE, ALE ISTOTNE DLA ŚWIATA NAUKI

              Wyobraź sobie, że interesuje Cię to czy jest teraz przed południem czyli, czy nie minęła jeszcze godzina 12:00. Masz do załatwienia pewną sprawę i po godzinie 12:00 już jej niestety nie załatwisz. Sprawa jest dla Ciebie bardzo ważna więc to czy jest przed południem czy po południu jest dla Ciebie również niezwykle ważne. Niestety nie masz zegarka, ale spotykasz na swojej drodze przechodnia i pytasz „witam, czy nie minęła jeszcze 12:00?”. Osoba patrzy na zegarek, ale nie odpowiada. Trudno. Dziwaków na naszej planecie nie brak więc pytamy o to samo kolejną osobę. Znów patrzy na zegarek i nie odpowiada. Kolejna to samo. Jeszcze jedna także nic nie mówi, a my nadal nie wiemy czy minęła już dwunasta czy nie. Wiesz czemu te osoby nic nie mówiły? Ponieważ dwunasta jeszcze nie minęła więc nie odrzucamy hipotezy zerowej, a pytałeś zwolenników podejścia – istotne statystycznie to dobre i godne opublikowania, a nieistotne statystycznie to złe i takie o którym nie wspominamy.

          Choć przykład może wydawać Ci się dziwny to wierzę, że dobrze przekazuje ideę, której niektórzy młodzi naukowcy nie rozumieją. Wyniki nieistotne statystycznie są tak samo ważne i godne opublikowania jak wyniki istotne statystycznie. Wasze badanie nie traci na wartości ponieważ nie udało Wam się zebrać dowodów pozwalających na odrzucenie hipotezy zerowej. Tak samo, jak wasze badanie nie zyskuje na wartości gdy udało Wam się odrzucić hipotezę zerową. Oczywiście fajnie jest zakładać, że coś istnieje, gdy to coś faktycznie występuje w naturze. Cóż to jednak za ujma na honorze, gdy zakładamy, że coś jest, a tego wcale nie ma? Żadna! Odkrycie to odkrycie… jak otwarcie drzwi i sprawdzenie czy ktoś jest w środku. Odpowiedź TAK i NIE jest tak samo wartościowa.

           O błędach w interpretacji, wręcz wojnie między zwolennikami a przeciwnikami wartości P, a nawet zakazie publikowania artykułów, które wykorzystują klasyczne podejście do testowania hipotez będę mówił w innych wpisach. Opowiem też trochę o historii wartości P i wiele, wiele więcej. Teraz przejdźmy dalej.

ISTOTNOŚĆ STATYSTYCZNA W ANALIZIE DANYCH. Z CZYM TO SIĘ JE?

                Pojęcie istotności statystycznej najlepiej smakuje z testowaniem hipotez i z tym należy ją kojarzyć. W okolicach lat 20 ubiegłego wieku jeden z herosów statystyki Sir Ronald Fisher rozpowszechnił wartość P w stosowaniu testów istotności. Samo pojęcie wartości P było jednak używane znacznie wcześniej, jeszcze przez Karla Pearsona przy okazji jego prac nad testem chi kwadrat. Zgodnie z tym co wymyślił sobie Fisher, wartość P miała mówić o sile dowodów jakie zgromadziliśmy przeciwko hipotezie zerowej. Nie wiem czy wiesz, ale to także zasługa Fishera, że w większości prac naukowych wyniki istotności porównywane są do poziomu 0,05 a nie np. 0,15 czy 0,017. W ogóle podejście Fishera do pojęcia „istotność statystyczna” było dosyć specyficzne i subiektywne. Nie będziemy go tutaj dokładnie omawiać, ale trudno nie wymienić tego nazwiska gdy poruszany jest temat istotności statystycznej i hipotez. W kolejnych latach Neyman i Pearson zaproponowali coś co nazywamy testowaniem hipotez. Zakładali oni, że trzeba zawsze do hipotezy zerowej postawić hipotezę alternatywną. Zastąpili oni subiektywne testowanie istotności statystycznej poprzez obiektywne podejmowanie decyzji. Decyzji odnośnie tego czy przyjmujemy hipotezę zerową uznając alternatywną za nieprawdziwą czy odrzucimy hipotezę zerową na rzecz hipotezy alternatywnej. To między innymi im zawdzięczamy takie pojęcia jak błąd I i błąd II rodzaju. Dość jednak tej historii. Różnicę w podejściu Fishera oraz Neymana i Pearsona na pewno będę omawiał w innych wpisach na blogu.


           W tym miejscu pamiętaj, że jako badacz bardzo często zakładasz, że w populacji zachodzą jakieś różnice między pewnymi grupami w zakresie jakiejś zmiennej zależnej. Tych różnic może jednak nie być i taką sytuację, takie założenie nazywamy właśnie hipotezą zerową. Hipoteza zerowa, jest zawsze punktem wyjścia, od którego zaczynamy szeroko pojętą analizę statystyczną. Tak, jak rozprawę sądową złodzieja lub zabójcy rozpoczynamy od domniemania jego niewinności, tak też od domniemania braku różnic między grupami rozpoczynamy zabawę z danymi. W kolejnych krokach rozprawy szukamy i przedstawiamy dowody obciążające oskarżonego próbując wsadzić go za kratki. Tak samo w analizie statystycznej szukamy dowodów na to, że nasza hipoteza zerowa jest nieprawdziwa i dobrym pomysłem jest przyjęcie hipotezy alternatywnej.


 

CZYM JEST WYNIK ISTOTNY STATYSTYCZNIE (WARTOŚĆ P )?

 sok-jabłkowy        Żeby łatwiej zrozumieć pojęcie „wynik istotny statystycznie” wyobraźmy sobie działanie pewnej substancji, która na 100% nie działa. Niech będzie to wpływ picia soku jabłkowego na poziom samooceny. Oczywiście jako naukowiec z krwi i kości ani ja, ani nikt inny nie może powiedzieć, że picie soku jabłkowego na pewno nie wpływa samoocenę, ale na potrzeby tego wpisu uznajmy, że tak jest. Picie soku jabłkowego na pewno nie wpływa na samoocenę. W całej populacji ludzie,  którzy piją sok jabłkowy dzień w dzień na pewno nie różnią się pod względem samooceny od osób, które w ogóle nie piją soku jabłkowego. Sok jabłkowy po prostu nie oddziałuje na poziom samooceny. Hipoteza zerowa na pewno jest prawdziwa. Wiemy to jako stwórcy świata i ponadnaturalne istoty.

                Teraz wracamy do realnego świata. Jesteśmy osobami, które nie wiedzą jak to faktycznie jest w całej populacji (wszystkich ludzi na ziemi). Chcemy się tego dowiedzieć, ale na pewno wszystkich mieszkańców naszej planety nie przebadamy więc musimy zadowolić się próbką 100 osób. Przeprowadzamy badanie. Prosimy 50 osób o codzienne wypijanie 2 litrów soku jabłkowego przez okres jednego roku. Drugą grupę 50 osób prosimy o to żeby przez rok zapomnieli o soku jabłkowym. Mają nawet na niego nie patrzeć na sklepowych półkach. O piciu już nie wspominając. Zakładamy, że wyjściowo, przed rozpoczęciem badania obie grupy nie różniły się pod względem samooceny. Pamiętaj cały czas, że na 100% picie soku jabłkowego nie wpływa na zróżnicowanie ludzi pod względem poziomu samooceny. Mimo, że tego wpływu nie ma to na pewno dostrzeżemy jakieś różnice pod względem samooceny między osobami, które piły sok jabłkowy a tymi, które go nie piły w przeprowadzonym przez nas badaniu. Wyobraź sobie, że zgodnie z naszymi przewidywaniami badani z grupy osób pijących sok jabłkowy charakteryzują się wyższym poziomem samooceny (M = 38; SD = 4) niż badani, którzy nie pili soku jabłkowego (M = 32; SD = 3,8). Różnica między tymi dwiema grupami jest jednak nieistotna statystycznie na poziomie p = 0,840… czyli powiedzmy, że „bardzo nieistotna” (choć tak nie można pisać! To błąd! Zrobiłem tak tylko w celach dydaktycznych). Wartość P mówiącą nam o prawdopodobieństwie możemy zamienić na procenty. Będzie to 84%. Wartość ta mówi nam o tym jak bardzo zebrane przez nas dane wspierają hipotezę zerową. Jak bardzo są jej „zwolennikami”, którzy ją popierają i są gotowi pójść za nią w ogień. Za bardzo „popłynąłem”? :) Przejdź niżej.

ISTOTNOŚĆ STATYSTYCZNA WYNIKU TESTU.

POPRAWNA INTERPRETACJA.

                

Poprawna interpretacja wyniku istotności statystycznej P z punktu widzenia teoretycznego mówi o tym jakie jest prawdopodobieństwo uzyskania takiej różnicy jaką obserwujemy w naszym badaniu lub nawet większej jeśli hipoteza zerowa faktycznie jest prawdziwa. 

           Wiemy, że różnica między jedną a drugą grupą w zakresie samooceny wynosi 38 minus 32 = 6. Osoby pijące sok jabłkowy mają samoocenę wyższą o 6 punktów od osób, które nie piły soku jabłkowego. Prawdopodobieństwo otrzymania tak dużej różnicy między ludźmi pijącymi sok jabłkowy a tymi, którzy go nie piją lub nawet większej, jeśli hipoteza zerowa faktycznie jest prawdziwa, wynosi aż 84%. To bardzo duża szansa na to, że w sytuacji, w której na pewno sok jabłkowy nie wpływa na samoocenę  my dostrzeżemy jego efekt taki jak obserwujemy  w przeprowadzonym badaniu lub nawet większy. Efekt ten będzie pewnie wynikiem jakiegoś błędu.

          Inne znane mi podejście do łatwego wyjaśnienia i zrozumienia czym jest istotność statystyczna dotyczy uzyskania wyników przez przypadek. Jeśli faktycznie hipoteza zerowa jest prawdziwa a my przeprowadzalibyśmy to samo badanie wiele razy, losując z populacji wciąż dwie grupy po 50 osób to z samego przypadku aż w 840 badaniach na 1000 (84%) zaobserwowalibyśmy podobne lub nawet większe różnice między dwiema grupami. „Ślepy los” tak by nam poukładał dane, że w ogromnej liczbie badań dostrzeglibyśmy rzekomy wpływ picia soku jabłkowego na samoocenę, a byłoby to tak naprawdę dzieło przypadku.

                W celu utrwalenia wyobraźmy sobie jeszcze badanie, w którym chcemy sprawdzić czy istnieje związek liniowy (korelacja) między nasileniem akceptacji choroby a czasem jej trwania. Wykonaliśmy analizę korelacji ze współczynnikiem r Pearsona, a w jej wyniku okazało się, że obie zmienne współwystępują ze sobą istotnie na statystycznie, r(68) = 0,45; p = 0,020. Związek jest dodatni i umiarkowanie silny, a co za tym idzie, im dłużej trwa choroba, na którą cierpią badani, tym większa jest jej akceptacja. Na co wskazuje istotność statystyczna równa p = 0,020? Wskazuje ona na to, że jeśli faktycznie w całej populacji (np. u wszystkich ludzi w Polsce) związek  między akceptacją choroby a czasem jej trwania nie występuje (czyli hipoteza zerowa jest prawdziwa) to mamy 2% prawdopodobieństwa na zaobserwowanie takiego współczynnika jak wyliczyliśmy w naszym badaniu lub nawet większego. To mało, prawda? Skoro jest aż tak małe prawdopodobieństwo na zaobserwowanie wyników identycznych lub nawet silniejszej korelacji jeśli hipoteza zerowa jest prawdziwa to …

…TO ZAPEWNE NIE JEST ONA PRAWDZIWA. Odrzucamy hipotezę zerową i przyjmujemy hipotezę alternatywną. Przy nieskończonej liczbie podobnych badań tylko w 2 badaniach na 100 dostrzeżemy taki związek między zmiennymi, który może być uzyskany przez przypadek. Zatem przypadkiem on zapewne nie jest.

Jak widzisz, istotność statystyczna P odpowiada tylko na pytanie o to na ile prawdopodobne jest otrzymanie takich danych jakie obserwujemy wtedy, gdy hipoteza zerowa jest prawdziwa.  Prowadzi to do błędu, który w raportach innych autorów dostrzega się najczęściej.

WARTOŚĆ P-VALUE TO NIE PRAWDOPODOBIEŃSTWO POPEŁNIENIA BŁĘDU PIERWSZEGO RODZAJU

                Błędów w interpretacji wartości P jest bardzo dużo. Istną plagą jest jednak interpretowanie pojęcia „istotność statystyczna” rozumianego jako p-value w kategoriach prawdopodobieństwa, że popełnia się błąd odrzucając hipotezę zerową i przyjmuje tym samym hipotezę alternatywną (błąd I rodzaju). Jest to nieprawidłowe przynajmniej z dwóch powodów.

  1. Wartość istotności statystycznej wyniku testu wyliczana jest na gruncie założenia, że w populacji na pewno dany efekt nie występuje (domniemanie niewinności w przykładzie „sądowym”) a ewentualnie dostrzegany efekt w naszych wynikach na pewno jest dziełem przypadku. Istotność statystyczna (wartość P) nie powie Ci zatem jakie jest prawdopodobieństwo, że hipoteza zerowa nie jest prawdziwa ponieważ z teoretycznego punktu widzenia ona jest prawdziwa na 100%. NA PEWNO.

             Pamiętaj, że o prawdopodobieństwie możemy mówić w stosunku do czegoś co wykazuje się pewną losowością. To bardzo ważne i na pewno pomoże Ci zrozumieć kolejny wpis mówiący o tym jak poprawnie interpretować przedziały ufności. Nie możemy mówić o prawdopodobieństwie w stosunku do hipotezy zerowej ponieważ nie tyczy się jej żadna losowość. Ona po prostu jest prawdziwa. Nic z tym nie zrobisz. Po prostu na pewno tak jest… choć tylko w teorii :) Ewentualna losowość dotyczy całego procesu przeprowadzania badania w kolejnych krokach i tam dopiero pojawić się może temat prawdopodobieństwa. Może on dotyczyć zebranych przez nas danych a nie hipotezy zerowej.

  1. Po drugie, choć niskie wartości istotności statystycznej (tak jak przykładowe p = 0,020) mówią o tym, że takie wyniki jak obserwujesz w swoim badaniu są mało prawdopodobne w momencie gdy hipoteza zerowa jest prawdziwa to nie mówią nam one o tym, które zdarzenie ma właśnie miejsce:

        * hipoteza zerowa jest prawdziwa, ale Twoi badani są wyjątkowi i dzięki nim uzyskujesz „dziwne” wyniki

        * hipoteza zerowa jednak nie jest prawdziwa


        Wróćmy teraz do przykładu z korelacją między nasileniem akceptacji choroby a tym od jak dawna badani na nią cierpią. Uzyskano wynik istotny statystycznie na poziomie p = 0,020. Co oznacza, że:

POPRAWNA INTERPRETACJA WYNIKU ISTOTNEGO STATYSTYCZNIE

dobrze

a) Zakładając, że brak jest związku między analizowanymi zmiennymi uzyskasz takie wyniki lub wskazujące na jeszcze silniejszy związek w 2% wszystkich badań w rezultacie losowego błędu doboru próby.

b) Istnieje 2%-owe prawdopodobieństwo na uzyskanie takich wyników jakie obserwujemy lub nawet wyników wskazujących na silniejszy związek przy założeniu, że hipoteza zerowa jest prawdziwa

WYNIK ISTOTNY STATYSTYCZNIE – NIEPOPRAWNA INTERPRETACJA

źle

 a) Jeśli odrzucimy hipotezę zerową uznając ją za nieprawdziwą mamy tylko 2% szans na to, że popełnimy błąd

b) Uznając, że analizowane zmienne są ze sobą skorelowane istnieje 2%-owe prawdopodobieństwo, że popełnimy błąd I rodzaju

        Na teraz to tyle z mojej strony. „Istotność statystyczna”, a dokładniej rzecz biorąc „prawdopodobieńśtwo statystyki testowej” to pojęcie stosunkowo trudne do wyjaśnienia i zrozumienia w ułamku sekundy przez osoby niezwiązane na co dzień ze statystyką. Powyższy wpis polecam przeczytać kilkanaście razy. Prawdopodobnie dopiero po zapoznaniu się z całą serią postów o istotności statystycznej „załapiesz” o co chodzi. Nie martw się bo o istotności statystycznej będziemy pisać jeszcze wiele razy. Wokół wartości P zrobił się w ubiegłym roku taki rumor, że bardzo ważne jest zrozumienie zarówno jej samej jak i koncepcji i ideologii, która za nią stoi. Bez tego nie będziesz w stanie zająć stanowiska w batalii między zwolennikami a przeciwnikami p-value. Nawet jeśli nie chcesz zajmować żadnego stanowiska to na pewno ten wpis jak i wszystkie kolejne pozwoli Ci być lepszym studentem, lepszym badaczem, naukowcem, który rozumie co czyta i rozumie co liczy wyciągając trafne wnioski. Wykonana analiza statystyczna niemal zawsze opisywana jest w kategoriach wyników istotnych lub nieistotnych. Dlatego tak ważne jest zrozumienie czym tak naprawdę jest istotność statystyczna.

Podobne wpisy