Analizy statystyczne bez tajemnic czyli “dziwne” wyniki analizy korelacji w podziale na podzbiory – cz. 1

W jednym z wpisów w słowniczku wyjaśniamy czym dokładnie są analizy korelacji. Myślę, że nawet bez zaglądania do naszego słowniczka statystycznego większość z Was wie na czym one polegają, jak się je liczy w pakiecie SPSS oraz jak interpretuje się ich rezultaty. Analiza korelacji jest jedną z najpopularniejszych analiz statystycznych. Nie bez przyczyny. Wylicza się ją bardzo łatwo a jej wyniki są bardzo przystępne w odbiorze. Nie trudno zrozumieć rezultaty z niej płynące i jednocześnie łatwo je odnieść do teorii, na której opierają się nasze badania. Prawdopodobnie w większości badań z zakresu nauk społecznych wyliczano przynajmniej raz choćby jeden z najbardziej popularnych współczynników korelacji, z których korzysta 99% badaczy – r Pearsona, rho Spearmana lub tau-b Kendalla. Nawet jeśli nie zostało to opisane w artykule naukowym czy też pracy dyplomowej to zapewne jakiś badacz choćby z czystej ciekawości sprawdził czy mierzone zmienne korelują ze sobą. Nawet gdy nie zakładały tego jego hipotezy.

Czasami pomimo tego, że analizy statystyczne w postaci analizy korelacji są stosunkowo mało skomplikowane to potrafią przysporzyć badaczom nie lada problemów interpretacyjnych. Przyczyn może być wiele, ale w tym wpisie zajmiemy się tylko sytuacją, w której raz wykonujemy analizy korelacji u ogółu badanych osób, a innym razem te same zmienne korelujemy ze sobą w podziale na dwie grupy (na przykład oddzielnie w grupie kobiet i mężczyzn).

Analiza korelacji. Krótkie przypomnienie

Jak zapewne większość z Was wie, analizy korelacji wykonuje się w celu zbadania związku liniowego między dwiema zmiennymi. Zmienne te muszą być mierzone na skali porządkowej lub ilościowej. Jeśli do czynienia mamy z dwiema zmiennymi ilościowymi o odpowiednich rozkładach to wyliczamy współczynnik korelacji r Pearsona. W przeciwnym wypadku (np. bardzo silnie skośne rozkłady, obecność wielu obserwacji odstających lub zmienne o charakterze porządkowym) wyliczamy najczęściej współczynnik rho Spearmana lub tau-b Kendalla. Dziś ograniczymy się tylko do zmiennych ilościowych, które spełniają wszelkie założenia wymagane do policzenia współczynnika r Pearsona. Inne współczynniki nas nie interesują.

Powyższy rysunek prezentuje 3 różne wykresy rozrzutu będące ilustracją współwystępowania dwóch zmiennych ilościowych czyli korelacji między nimi. Rysunek A to ilustracja korelacji dodatniej. Niskie wyniki jednej zmiennej “idą w parze” z niskimi wynikami drugiej zmienne. Im wyższe wyniki uzyskuje się dla zmiennej nr 1 tym wyższe też wyniki obserwuje się w przypadku zmiennej nr 2. To jest właśnie korelacja dodatnia czyli pozytywny związek między zmiennymi. Gdy jedna zmienna rośnie to druga też rośnie lub gdy jedna maleje to druga też maleje. Wykres rozrzutu B ilustruje związek negatywny między dwiema zmiennymi. Im większe wyniki obserwuje się dla zmiennej nr 1 tym mniejsza dla zmiennej nr 2. Tym samym można też powiedzieć, że im niższe wyniki uzyskują badani w zakresie zmiennej nr 1 tym wyższe uzyskują wyniki w zakresie mierzonej zmiennej nr 2. Jest to korelacja negatywna, która polega na tym, że wartości zmieniają się przeciwstawnie do siebie. Jedna zmienna rośnie, a druga maleje lub gdy jedna maleje to druga rośnie. Ostatni wykres rozrzutu oznaczony literą C to ilustracja braku korelacji między zmiennymi. Widzimy na nim nieregularną chmurę punktów. Związek liniowy między zmiennymi nie występuje. Nic prostszego, prawda? Korelacja może występować albo nie. Jeśli występuje to może być ona dodatnia lub ujemna. To wszystko.

Analizy korelacji w podziale na grupy, czyli doprecyzowanie wyników analiz statystycznych

Bardzo często po wykonaniu analizy korelacji w całej grupie chcemy sprawdzić też czy obserwowany związek jest taki sam gdy przetestujemy go w podgrupach. Zmienną demograficzną, która różnicuje niemal wszystko co obserwujemy w naturze jest płeć. Dlatego też w większości przypadków zalecamy przeprowadzenie pewnych analiz oddzielnie w grupie kobiet i oddzielnie w grupie mężczyzn.

Analiza korelacji istotna statystycznie – analiza korelacji nieistotna statystycznie. O co tutaj chodzi?

Wyobraź sobie, że korelujesz ze sobą ocenę relacji z rodziną badanych osób i ich ogólną jakość życia. Zakładasz, że im lepsze są relacje z rodziną tym wyższa jest ogólna jakość życia badanych osób. Spodziewasz się pozytywnej korelacji między zmiennymi. Tym samym im gorsze będą relacje z rodziną tym zapewne jakość życia też będzie niższa. Analiza statystyczna przeprowadzona. Okazuje się, że zmienne korelują ze sobą i faktycznie związek, który obserwujemy jest dodatni. Oto wykres rozrzutu, który go ilustruje.

Między dwiema analizowanymi zmiennymi zachodzi istotny statystycznie związek o stosunkowo dużej sile. Pozytywny charakter tej relacji oznacza, że wraz ze wzrostem jednej zmiennej obserwuje się na wzrost wyników dla drugiej zmiennej.

Jako, że jesteś bardzo dociekliwym badaczem, dzielisz bazę danych na podzbiory względem zmiennej “płeć”. Tym samym wszystkie dalsze analizy statystyczne wykonujesz oddzielnie w grupie kobiet i oddzielnie w grupie mężczyzn. Ponownie liczysz współczynnik korelacji r Pearsona i oto wyniki, które uzyskujesz.

Cóż się okazuje? Uzyskane rezultaty pokazują, że związek między jakością relacji z rodziną a jakością życia nie występuje ani u kobiet ani u mężczyzn. Większość młodych badaczy, których doświadczenie w zakresie analizy statystycznej to ok 30 lub maks. 60 godzin kursu ze statystyki pyta “jak to możliwe”. Przecież poprzednia analiza (dla wszystkich badanych łącznie) mówi o tym, że związek występuje. Skoro występuje u wszystkich badanych łącznie to powinien występować także oddzielnie w grupie kobiet i oddzielnie w grupie mężczyzn, prawda? Ewentualnie w jednej grupie będzie on słabszy, a w drugiej będzie silniejszy. No dobra! Ewentualnie w jednej grupie ten związek będzie występował, a w drugiej nie. W jaki sposób korelacja, która występuje w całej badanej grupie nagle przestaje być istotna statystycznie gdy tą samą analizę statystyczną przeprowadzimy oddzielnie w grupie kobiet i mężczyzn? Przecież te obie grupy “budują” naszą całą bazę danych. Z takimi pytaniami spotykamy się bardzo często. Dlatego powstał ten wpis. Spójrz na poniższy wykres.

Powyższy rysunek to ten sam wykres co poprzedni, ale poprosiliśmy SPSSa żeby w inny sposób oznaczył punkty w grupie kobiet, a inaczej punkty w grupie mężczyzn. Zauważ, że oddzielnie w jednym jak i drugim przypadku mamy do czynienia z nieregularną chmurą punktów. Tak, te dwie chmury w połączeniu wskazują na dodatni związek między analizowanymi zmiennymi (analiza korelacji dla wszystkich łącznie bez podziału na płeć). Gdy jednak analizujemy współwystępowanie obu zmiennych oddzielnie w grupie kobiet i oddzielnie w grupie mężczyzn to widać, że punkty w “niebieskiej grupie” jak i punkty w “czerwonej grupie” są ułożone tak, że nie widać żadnego, dobrze znanego nam wzorca wskazującego na pozytywny lub negatywny związek między zmiennymi. Odpowiedź na wcześniejsze pytanie “jak to możliwe” to “właśnie tak jak pokazuje to powyższy rysunek”. Jeśli w swoim badaniu uzyskasz takie właśnie wyniki to nie myśl, że został przez Ciebie popełniony błąd. To normalna, choć stosunkowo rzadko występująca sytuacja.

Analizy statystyczne bez tajemnic, czyli dlaczego tak się dzieje i jak to zinterpretować?

Powody opisanego stanu rzeczy mogą być przynajmniej dwa. Występować mogą one jednocześnie jak i osobno.

Powód 1: Spadek mocy testu po podziale bazy danych na dwie mniejsze grupy.

Tak właśnie. Moc testu statystycznego czyli (w wielkim uproszczeniu) skłonność testu do wskazania wyniku istotnego statystycznie jest w dużej części uzależniona od liczby badanych osób. Korelacja wynosząca r = 0,24 może być nieistotna statystycznie w grupie 40 badanych osób, a taki sam wynik współczynnika r Pearsona będzie istotny statystycznie gdy przebadany 120 osób. Zauważ, że na początku (u ogółu badanych osób) analizy wykonywaliśmy na 62 uczestnikach badania. Dzieląc bazę danych na dwie mniejsze grupy (32 kobiety i 30 mężczyzn) spadła moc testu i tym samym bardziej prawdopodobne jest zaobserwowanie wyniku nieistotnego statystycznie w grupie kobiet i grupie mężczyzn gdy analizujemy je oddzielnie. Analizy korelacji, podobnie jak wszystkie inne, są w większości bardziej skłonne do pokazywania wyników istotnych statystycznie gdy przebadaliśmy bardzo dużo osób.

Powód 2: Różnice między grupami w zakresie mierzonych zmiennych.

Drugą przyczyną lub dokładniej, sytuacją sprzyjającą opisywanemu zjawisku, są różnice pod względem średnich wyników obu zmiennych ilościowych między dwiema grupami, które “rozbiły” naszą bazę danych. Po prostu kobiety różnią się od mężczyzn zarówno w zakresie oceny swoich relacji z rodziną jak i ogólnej jakości życia. Linie narysowane dla ułatwienia ilustrują to bardzo dobrze. Zauważ, że średni wynik mężczyzn w przypadku oceny relacji z rodziną jest niemal dwa razy większy od średniego wyniku obserwowanego w grupie kobiet. Podobne zróżnicowanie dostrzec można także w ogólnej ocenie jakości życia. Wykonany test t Studenta dla prób niezależnych potwierdza, że różnice te są istotne statystycznie na poziomie p < 0,001.

UWAGA UWAGA: różnice w średnich między grupami, które dzielą naszą bazę na podzbiory, to po prostu coś co sprzyja opisywanemu zjawisku. Możliwe, że średnie będą się różniły, a i tak korelacje będą istotne w obu podgrupach.

Pamiętaj, że Twoim celem jako badacza jest wyjaśnienie, czym spowodowana jest zmienność np. w zakresie ogólnej jakości życia. Wiesz już, że jakość życia współwystępuje z jakością relacji z rodziną. Okazuje się też jednak, że ta jakość życia zależy od płci i to tak silnie, że związek tej zmiennej (ogólnej jakości życia) z jakością relacji z rodziną przestaje być związkiem istotnym. Można przekonać się o tym wykonując np. analizę regresji liniowej.

Analizy korelacji w podziale na dwie grupy, cz. I – podsumowanie

Niejedno z Was zada sobie w tym miejscu pytanie “jak zinterpretować ten wynik”? Wiemy już co wyszło z analiz. Wiemy też dlaczego mogliśmy uzyskać takie wyniki, i że to nic dziwnego. Jaka jest jednak ostateczna odpowiedź i co napisać w dyskusji wyników? Korelacja między jakością relacji z rodziną a ogólną jakością życia występuje czy nie? Odpowiedź brzmi: tak, występuje, ale gdy nie bierzemy pod uwagę płci badanych osób. Faktycznie gdy nie posiadamy informacji o płci to możemy uznać, że zachodzi związek między jakością życia a jakością relacji z rodziną. Żyjemy jednak na planecie Ziemia i każda badana osoba ma przypisaną pewną płeć, którą znamy. W dyskusji wyników powinniśmy tym samym napisać dosłownie, że kontrolując zmienność badanych w zakresie płci związek między jakością życia a jakością relacji z rodzicami staje się nieistotny statystycznie. Dodatkowo należy wspomnieć o tym, że kobiety znacznie różniły się od mężczyzn zarówno w zakresie ogólnej oceny jakości swojego życia jak i oceny swoich relacji z rodziną.

Tutaj znajdziesz drugą część artykułu – CZĘŚĆ 2

Istotność statystyczna – poprawna interpretacja p-value

Istotność statystyczna wyniku testu, p-value, p-wartość, wartość p, prawdopodobieństwo statystyki testowej i im podobne nazwy napotka na swojej drodze zarówno młody student pierwszego czy drugiego roku, jak też leciwy profesor, który od dziesięcioleci zgłębia wiedzę zawartą w monografiach czy artykułach naukowych. Pojęcie istotności statystycznej i testowania hipotez jest tak popularne, że bez wahania mogę uznać, że jeszcze (dla niektórych niestety, a dla niektórych na szczęście) rządzi światem badań naukowych niosąc dowody empiryczne. Analizy statystyczne bez wyliczenia i raportowania istotności są jak wyścig kolarski bez kolarzy lub chleb ze smalcem bez chleba. Zrozumienie tego pojęcia jest dla Was kluczowe.

Istotność statystyczna. Startujemy!

Niniejszym wpisem rozpoczynamy serię postów dotyczących istotności statystycznej i wyników istotnych statystycznie. Dlaczego serię? Czy jeden nie wystarczy? Chyba nie, ponieważ okazuje się, że bardzo duża liczba osób nie rozumie samego pojęcia, koncepcji, która za nim stoi, a także nie potrafi poprawnie jej zinterpretować. Konsekwencje takiego stanu rzeczy są naprawdę bardzo poważne. Mało kto zwraca już uwagę, że poziom istotności oznacza się grecką literą alfa a wartość P to prawdopodobieństwo statystyki testu a nie prawdopodobieństwo popełnienia błędu I rodzaju. Brak zrozumienia wyników i wniosków płynących z publikacji naukowych innych autorów to jedynie wierzchołek lodowej góry problemów. Często badacze nie potrafią zrozumieć nawet swoich własnych wyników przez co wyciągają na ich podstawie nieprawidłowe wnioski. Problemów wynikających z braku zrozumienia czym jest istotność statystyczna (tutaj mam na myśli wartość P) jest cała masa. Badacze narzekają na wyniki nieistotne statystycznie, gdy spodziewają się wyników istotnych. Narzekają też na wyniki istotne statystycznie, gdy się ich nie spodziewali. Czasami bezpodstawnie uważają rezultaty swoich badań za beznadziejne i nieważne dla dorobku naukowego, a czasami, również bezpodstawnie uważają je za “odkrycie roku” zasługujące na publikację w każdym czasopiśmie naukowym… a już na pewno w tych najwyżej punktowanych. W ekstremalnych przypadkach niekompetentni recenzenci i redakcje odmawiają publikacji wyników nieistotnych statystycznie lub nieprzyznawane są Wam granty ponieważ badania pilotażowe nie ujawniają istotnych wyników na magicznym poziomie p < 0,05. No jasne. Po co finansować badania, z których wynika, że pewne zmienne nie są ze sobą powiązane? Przecież ważne są tylko doniesienia wskazujące na to, że coś najprawdopodobniej występuje. Jeśli nie występuje to należy milczeć. Jeśli ktoś nie wyczuł ironii to spróbuję wyjaśnić na przykładzie. Podaję go zawsze, gdy nasz klient pyta “i co ja mam teraz zrobić” po otrzymaniu wyników nieistotnych statystycznie.

Nieistotne statystycznie, ale istotne dla świata nauki

Wyobraź sobie, że interesuje Cię to czy jest teraz przed południem czyli, czy nie minęła jeszcze godzina 12:00. Masz do załatwienia pewną sprawę i po godzinie 12:00 już jej niestety nie załatwisz. Sprawa jest dla Ciebie bardzo ważna więc to czy jest przed południem czy po południu jest dla Ciebie również niezwykle ważne. Niestety nie masz zegarka, ale spotykasz na swojej drodze przechodnia i pytasz “witam, czy nie minęła jeszcze 12:00?”. Osoba patrzy na zegarek, ale nie odpowiada. Trudno. Dziwaków na naszej planecie nie brak więc pytamy o to samo kolejną osobę. Znów patrzy na zegarek i nie odpowiada. Kolejna to samo. Jeszcze jedna także nic nie mówi, a my nadal nie wiemy czy minęła już dwunasta czy nie. Wiesz czemu te osoby nic nie mówiły? Ponieważ dwunasta jeszcze nie minęła więc nie odrzucamy hipotezy zerowej, a pytałeś zwolenników podejścia – istotne statystycznie to dobre i godne opublikowania, a nieistotne statystycznie to złe i takie o którym nie wspominamy.

Choć przykład może wydawać Ci się dziwny to wierzę, że dobrze przekazuje ideę, której niektórzy młodzi naukowcy nie rozumieją. Wyniki nieistotne statystycznie są tak samo ważne i godne opublikowania jak wyniki istotne statystycznie. Wasze badanie nie traci na wartości ponieważ nie udało Wam się zebrać dowodów pozwalających na odrzucenie hipotezy zerowej. Tak samo, jak wasze badanie nie zyskuje na wartości gdy udało Wam się odrzucić hipotezę zerową. Oczywiście fajnie jest zakładać, że coś istnieje, gdy to coś faktycznie występuje w naturze. Cóż to jednak za ujma na honorze, gdy zakładamy, że coś jest, a tego wcale nie ma? Żadna! Odkrycie to odkrycie… jak otwarcie drzwi i sprawdzenie czy ktoś jest w środku. Odpowiedź TAK i NIE jest tak samo wartościowa.

O błędach w interpretacji, wręcz wojnie między zwolennikami a przeciwnikami wartości P, a nawet zakazie publikowania artykułów, które wykorzystują klasyczne podejście do testowania hipotez będę mówił w innych wpisach. Opowiem też trochę o historii wartości P i wiele, wiele więcej. Teraz przejdźmy dalej.

Istotność statystyczna w analizie danych. Z czym to się je?

Pojęcie istotności statystycznej najlepiej smakuje z testowaniem hipotez i z tym należy ją kojarzyć. W okolicach lat 20 ubiegłego wieku jeden z herosów statystyki Sir Ronald Fisher rozpowszechnił wartość P w stosowaniu testów istotności. Samo pojęcie wartości P było jednak używane znacznie wcześniej, jeszcze przez Karla Pearsona przy okazji jego prac nad testem chi kwadrat. Zgodnie z tym co wymyślił sobie Fisher, wartość P miała mówić o sile dowodów jakie zgromadziliśmy przeciwko hipotezie zerowej. Nie wiem czy wiesz, ale to także zasługa Fishera, że w większości prac naukowych wyniki istotności porównywane są do poziomu 0,05 a nie np. 0,15 czy 0,017. W ogóle podejście Fishera do pojęcia “istotność statystyczna” było dosyć specyficzne i subiektywne. Nie będziemy go tutaj dokładnie omawiać, ale trudno nie wymienić tego nazwiska gdy poruszany jest temat istotności statystycznej i hipotez. W kolejnych latach Neyman i Pearson zaproponowali coś co nazywamy testowaniem hipotez. Zakładali oni, że trzeba zawsze do hipotezy zerowej postawić hipotezę alternatywną. Zastąpili oni subiektywne testowanie istotności statystycznej poprzez obiektywne podejmowanie decyzji. Decyzji odnośnie tego czy przyjmujemy hipotezę zerową uznając alternatywną za nieprawdziwą czy odrzucimy hipotezę zerową na rzecz hipotezy alternatywnej. To między innymi im zawdzięczamy takie pojęcia jak błąd I i błąd II rodzaju. Dość jednak tej historii. Różnicę w podejściu Fishera oraz Neymana i Pearsona na pewno będę omawiał w innych wpisach na blogu.

W tym miejscu pamiętaj, że jako badacz bardzo często zakładasz, że w populacji zachodzą jakieś różnice między pewnymi grupami w zakresie jakiejś zmiennej zależnej. Tych różnic może jednak nie być i taką sytuację, takie założenie nazywamy właśnie hipotezą zerową. Hipoteza zerowa, jest zawsze punktem wyjścia, od którego zaczynamy szeroko pojętą analizę statystyczną. Tak, jak rozprawę sądową złodzieja lub zabójcy rozpoczynamy od domniemania jego niewinności, tak też od domniemania braku różnic między grupami rozpoczynamy zabawę z danymi. W kolejnych krokach rozprawy szukamy i przedstawiamy dowody obciążające oskarżonego próbując wsadzić go za kratki. Tak samo w analizie statystycznej szukamy dowodów na to, że nasza hipoteza zerowa jest nieprawdziwa i dobrym pomysłem jest przyjęcie hipotezy alternatywnej.

Czym jest wynik istotny statystycznie (wartość p)?

Żeby łatwiej zrozumieć pojęcie “wynik istotny statystycznie” wyobraźmy sobie działanie pewnej substancji, która na 100% nie działa. Niech będzie to wpływ picia soku jabłkowego na poziom samooceny. Oczywiście jako naukowiec z krwi i kości ani ja, ani nikt inny nie może powiedzieć, że picie soku jabłkowego na pewno nie wpływa samoocenę, ale na potrzeby tego wpisu uznajmy, że tak jest. Picie soku jabłkowego na pewno nie wpływa na samoocenę. W całej populacji ludzie, którzy piją sok jabłkowy dzień w dzień na pewno nie różnią się pod względem samooceny od osób, które w ogóle nie piją soku jabłkowego. Sok jabłkowy po prostu nie oddziałuje na poziom samooceny. Hipoteza zerowa na pewno jest prawdziwa. Wiemy to jako stwórcy świata i ponadnaturalne istoty.

Teraz wracamy do realnego świata. Jesteśmy osobami, które nie wiedzą jak to faktycznie jest w całej populacji (wszystkich ludzi na ziemi). Chcemy się tego dowiedzieć, ale na pewno wszystkich mieszkańców naszej planety nie przebadamy więc musimy zadowolić się próbką 100 osób. Przeprowadzamy badanie. Prosimy 50 osób o codzienne wypijanie 2 litrów soku jabłkowego przez okres jednego roku. Drugą grupę 50 osób prosimy o to żeby przez rok zapomnieli o soku jabłkowym. Mają nawet na niego nie patrzeć na sklepowych półkach. O piciu już nie wspominając. Zakładamy, że wyjściowo, przed rozpoczęciem badania obie grupy nie różniły się pod względem samooceny. Pamiętaj cały czas, że na 100% picie soku jabłkowego nie wpływa na zróżnicowanie ludzi pod względem poziomu samooceny. Mimo, że tego wpływu nie ma to na pewno dostrzeżemy jakieś różnice pod względem samooceny między osobami, które piły sok jabłkowy a tymi, które go nie piły w przeprowadzonym przez nas badaniu. Wyobraź sobie, że zgodnie z naszymi przewidywaniami badani z grupy osób pijących sok jabłkowy charakteryzują się wyższym poziomem samooceny (M = 38; SD = 4) niż badani, którzy nie pili soku jabłkowego (M = 32; SD = 3,8). Różnica między tymi dwiema grupami jest jednak nieistotna statystycznie na poziomie p = 0,840… czyli powiedzmy, że “bardzo nieistotna” (choć tak nie można pisać! To błąd! Zrobiłem tak tylko w celach dydaktycznych). Wartość P mówiącą nam o prawdopodobieństwie możemy zamienić na procenty. Będzie to 84%. Wartość ta mówi nam o tym jak bardzo zebrane przez nas dane wspierają hipotezę zerową. Jak bardzo są jej “zwolennikami”, którzy ją popierają i są gotowi pójść za nią w ogień. Za bardzo “popłynąłem”? 🙂 Przejdź niżej.

Istotność statystyczna wyniku testu – poprawna interpretacja

Poprawna interpretacja wyniku istotności statystycznej P z punktu widzenia teoretycznego mówi o tym jakie jest prawdopodobieństwo uzyskania takiej różnicy jaką obserwujemy w naszym badaniu lub nawet większej jeśli hipoteza zerowa faktycznie jest prawdziwa.

Wiemy, że różnica między jedną a drugą grupą w zakresie samooceny wynosi 38 minus 32 = 6. Osoby pijące sok jabłkowy mają samoocenę wyższą o 6 punktów od osób, które nie piły soku jabłkowego. Prawdopodobieństwo otrzymania tak dużej różnicy między ludźmi pijącymi sok jabłkowy a tymi, którzy go nie piją lub nawet większej, jeśli hipoteza zerowa faktycznie jest prawdziwa, wynosi aż 84%. To bardzo duża szansa na to, że w sytuacji, w której na pewno sok jabłkowy nie wpływa na samoocenę my dostrzeżemy jego efekt taki jak obserwujemy w przeprowadzonym badaniu lub nawet większy. Efekt ten będzie pewnie wynikiem jakiegoś błędu.

Inne znane mi podejście do łatwego wyjaśnienia i zrozumienia czym jest istotność statystyczna dotyczy uzyskania wyników przez przypadek. Jeśli faktycznie hipoteza zerowa jest prawdziwa a my przeprowadzalibyśmy to samo badanie wiele razy, losując z populacji wciąż dwie grupy po 50 osób to z samego przypadku aż w 840 badaniach na 1000 (84%) zaobserwowalibyśmy podobne lub nawet większe różnice między dwiema grupami. “Ślepy los” tak by nam poukładał dane, że w ogromnej liczbie badań dostrzeglibyśmy rzekomy wpływ picia soku jabłkowego na samoocenę, a byłoby to tak naprawdę dzieło przypadku.

W celu utrwalenia wyobraźmy sobie jeszcze badanie, w którym chcemy sprawdzić czy istnieje związek liniowy (korelacja) między nasileniem akceptacji choroby a czasem jej trwania. Wykonaliśmy analizę korelacji ze współczynnikiem r Pearsona, a w jej wyniku okazało się, że obie zmienne współwystępują ze sobą istotnie na statystycznie, r(68) = 0,45; p = 0,020. Związek jest dodatni i umiarkowanie silny, a co za tym idzie, im dłużej trwa choroba, na którą cierpią badani, tym większa jest jej akceptacja. Na co wskazuje istotność statystyczna równa p = 0,020? Wskazuje ona na to, że jeśli faktycznie w całej populacji (np. u wszystkich ludzi w Polsce) związek między akceptacją choroby a czasem jej trwania nie występuje (czyli hipoteza zerowa jest prawdziwa) to mamy 2% prawdopodobieństwa na zaobserwowanie takiego współczynnika jak wyliczyliśmy w naszym badaniu lub nawet większego. To mało, prawda? Skoro jest aż tak małe prawdopodobieństwo na zaobserwowanie wyników identycznych lub nawet silniejszej korelacji jeśli hipoteza zerowa jest prawdziwa to …

…TO ZAPEWNE NIE JEST ONA PRAWDZIWA. Odrzucamy hipotezę zerową i przyjmujemy hipotezę alternatywną. Przy nieskończonej liczbie podobnych badań tylko w 2 badaniach na 100 dostrzeżemy taki związek między zmiennymi, który może być uzyskany przez przypadek. Zatem przypadkiem on zapewne nie jest.

Jak widzisz, istotność statystyczna P odpowiada tylko na pytanie o to na ile prawdopodobne jest otrzymanie takich danych jakie obserwujemy wtedy, gdy hipoteza zerowa jest prawdziwa. Prowadzi to do błędu, który w raportach innych autorów dostrzega się najczęściej.

Wartość p-value to nie prawdopodobieństwo popełnienia błędu pierwszego rodzaju

Błędów w interpretacji wartości P jest bardzo dużo. Istną plagą jest jednak interpretowanie pojęcia “istotność statystyczna” rozumianego jako p-value w kategoriach prawdopodobieństwa, że popełnia się błąd odrzucając hipotezę zerową i przyjmuje tym samym hipotezę alternatywną (błąd I rodzaju). Jest to nieprawidłowe przynajmniej z dwóch powodów.

Wartość istotności statystycznej wyniku testu wyliczana jest na gruncie założenia, że w populacji na pewno dany efekt nie występuje (domniemanie niewinności w przykładzie “sądowym”) a ewentualnie dostrzegany efekt w naszych wynikach na pewno jest dziełem przypadku. Istotność statystyczna (wartość P) nie powie Ci zatem jakie jest prawdopodobieństwo, że hipoteza zerowa nie jest prawdziwa ponieważ z teoretycznego punktu widzenia ona jest prawdziwa na 100%. NA PEWNO.

Pamiętaj, że o prawdopodobieństwie możemy mówić w stosunku do czegoś co wykazuje się pewną losowością. To bardzo ważne i na pewno pomoże Ci zrozumieć kolejny wpis mówiący o tym jak poprawnie interpretować przedziały ufności. Nie możemy mówić o prawdopodobieństwie w stosunku do hipotezy zerowej ponieważ nie tyczy się jej żadna losowość. Ona po prostu jest prawdziwa. Nic z tym nie zrobisz. Po prostu na pewno tak jest… choć tylko w teorii 🙂 Ewentualna losowość dotyczy całego procesu przeprowadzania badania w kolejnych krokach i tam dopiero pojawić się może temat prawdopodobieństwa. Może on dotyczyć zebranych przez nas danych a nie hipotezy zerowej.

Po drugie, choć niskie wartości istotności statystycznej (tak jak przykładowe p = 0,020) mówią o tym, że takie wyniki jak obserwujesz w swoim badaniu są mało prawdopodobne w momencie gdy hipoteza zerowa jest prawdziwa to nie mówią nam one o tym, które zdarzenie ma właśnie miejsce:

* hipoteza zerowa jest prawdziwa, ale Twoi badani są wyjątkowi i dzięki nim uzyskujesz “dziwne” wyniki

* hipoteza zerowa jednak nie jest prawdziwa

Wróćmy teraz do przykładu z korelacją między nasileniem akceptacji choroby a tym od jak dawna badani na nią cierpią. Uzyskano wynik istotny statystycznie na poziomie p = 0,020. Co oznacza, że:

POPRAWNA INTERPRETACJA WYNIKU ISTOTNEGO STATYSTYCZNIE

a) Zakładając, że brak jest związku między analizowanymi zmiennymi uzyskasz takie wyniki lub wskazujące na jeszcze silniejszy związek w 2% wszystkich badań w rezultacie losowego błędu doboru próby.

b) Istnieje 2%-owe prawdopodobieństwo na uzyskanie takich wyników jakie obserwujemy lub nawet wyników wskazujących na silniejszy związek przy założeniu, że hipoteza zerowa jest prawdziwa

WYNIK ISTOTNY STATYSTYCZNIE – NIEPOPRAWNA INTERPRETACJA

a) Jeśli odrzucimy hipotezę zerową uznając ją za nieprawdziwą mamy tylko 2% szans na to, że popełnimy błąd

b) Uznając, że analizowane zmienne są ze sobą skorelowane istnieje 2%-owe prawdopodobieństwo, że popełnimy błąd I rodzaju

Na teraz to tyle z mojej strony. “Istotność statystyczna”, a dokładniej rzecz biorąc “prawdopodobieńśtwo statystyki testowej” to pojęcie stosunkowo trudne do wyjaśnienia i zrozumienia w ułamku sekundy przez osoby niezwiązane na co dzień ze statystyką. Powyższy wpis polecam przeczytać kilkanaście razy. Prawdopodobnie dopiero po zapoznaniu się z całą serią postów o istotności statystycznej “załapiesz” o co chodzi. Nie martw się bo o istotności statystycznej będziemy pisać jeszcze wiele razy. Wokół wartości P zrobił się w ubiegłym roku taki rumor, że bardzo ważne jest zrozumienie zarówno jej samej jak i koncepcji i ideologii, która za nią stoi. Bez tego nie będziesz w stanie zająć stanowiska w batalii między zwolennikami a przeciwnikami p-value. Nawet jeśli nie chcesz zajmować żadnego stanowiska to na pewno ten wpis jak i wszystkie kolejne pozwoli Ci być lepszym studentem, lepszym badaczem, naukowcem, który rozumie co czyta i rozumie co liczy wyciągając trafne wnioski. Wykonana analiza statystyczna niemal zawsze opisywana jest w kategoriach wyników istotnych lub nieistotnych. Dlatego tak ważne jest zrozumienie czym tak naprawdę jest istotność statystyczna.

Archiwum dla miesiąca: lipiec 2016

Analizy statystyczne bez tajemnic czyli “dziwne” wyniki analizy korelacji w podziale na podzbiory – cz. 1

Analiza korelacji. Krótkie przypomnienie

Analizy korelacji w podziale na grupy, czyli doprecyzowanie wyników analiz statystycznych

Analiza korelacji istotna statystycznie – analiza korelacji nieistotna statystycznie. O co tutaj chodzi?

Analizy statystyczne bez tajemnic, czyli dlaczego tak się dzieje i jak to zinterpretować?

Powód 1: Spadek mocy testu po podziale bazy danych na dwie mniejsze grupy.

Powód 2: Różnice między grupami w zakresie mierzonych zmiennych.

Analizy korelacji w podziale na dwie grupy, cz. I – podsumowanie

Tutaj znajdziesz drugą część artykułu – CZĘŚĆ 2

Istotność statystyczna – poprawna interpretacja p-value

Istotność statystyczna. Startujemy!

Nieistotne statystycznie, ale istotne dla świata nauki

Istotność statystyczna w analizie danych. Z czym to się je?

Czym jest wynik istotny statystycznie (wartość p)?

Istotność statystyczna wyniku testu – poprawna interpretacja

Wartość p-value to nie prawdopodobieństwo popełnienia błędu pierwszego rodzaju

POPRAWNA INTERPRETACJA WYNIKU ISTOTNEGO STATYSTYCZNIE

WYNIK ISTOTNY STATYSTYCZNIE – NIEPOPRAWNA INTERPRETACJA

Archives

Meta

Pamiętaj! Konsultacje u nas zawsze za darmo!

Szybki kontakt/Social media:

Dane firmowe: