Wyniki bliskie istotności statystycznej. Kość niezgody w raportowaniu wyników analiz statystycznych.

Ojjjj długo biłem się z myślami czy popełnić niniejszy wpis. 

Staramy się zazwyczaj trzymać z dala od tematów, które jednocześnie wzbudzają kontrowersje i na dodatek nie cechuje ich zgodność w literaturze. Wyniki istotne na poziomie tak zwanej tendencji statystycznej są Wam jednak bardzo bliskie. Wam, czyli w szczególności studentom ostatnich lat studiów magisterskich. Pojęcie to na jednych promotorów działa jak „płachta na byka”, a inni sami zalecają jego stosowanie. Wiem, że lubicie kiedy wszystko jest jasne i klarowne, ale tym razem przedstawimy Wam zarówno „ZA” jak i „PRZECIW” z drobnym komentarzem, a wyboru musicie dokonać Wy. Samodzielnie i z pełną odpowiedzialnością. Z czasem przekonacie się, że analiza statystyczna to nie „czysta matematyka” w której zawsze 2+2=4. Nie jest tylko czarno-biała. Zero-jedynkowa. Dlatego od lat funkcjonuje takie pojęcie jak „the art of statistics” o czym pisze się na blogach (http://www.oriresults.com/articles/blog-posts/the-art-of-statistics/) lub pojęcie to umieszcza się w tytułach książek (https://www.amazon.com/Art-Statistical-Science-Probability-Statistics/dp/0471931101).

Na pewno wiele osób po przeczytaniu wpisu się ze mną nie zgodzi (czego bardzo nie lubię :). Jeśli masz jakieś „ale” podziel się nimi. Napisz do nas na FB lub krótkiego maila. Z chęcią porozmawiam o poruszanych w tym wpisie kwestiach i może po rozmowie, przekonany Twoimi argumentami skoryguję wpis.

Istotne na poziomie tendencji statystycznej, czyli jakie?

Czym jest wynik istotny statystycznie lub nieistotny statystycznie już zapewne wiecie. Decyduje o tym wartość p, którą względnie dokładnie omówiłem w tym poście. Jeśli p value jest mniejsze od 0,05 to raportujemy wynik jako istotny statystycznie. Piszemy wtedy, że istotne statystycznie są różnice między średnimi lub istotny statystycznie jest jakiś związek między zmiennymi. Zależy czego poszukujemy i co testujemy. Jeśli wartość p zatytułowana w SPSSie „istotność” jest z kolei większa od 0,05 to uznajemy, że nie ma tego czego szukamy. Różnic czy też związków. Dokładniej rzecz biorąc – to czego szukamy występuje w naszej bazie danych, ale prawdopodobnie jest jedynie dziełem przypadku. Bardzo często jednak wyniki nieistotne statystycznie, ale z przedziału 0,05 < p < 0,1 opisywane są w badaniach jako istotne na poziomie tendencji statystycznej. Jeśli zatem uzyskaliśmy różnicę między dwiema średnimi istotną na poziomie p = 0,058 to nie stwierdzamy, że różnica ta w populacji zapewne nie występuje, jest nieistotna statystycznie, tylko że jest bliska klasycznej wartości p < 0,05 lub inaczej, że jest istotna na poziomie tendencji statystycznej. Dotyczy to wyników istotności, które są większe od 0,05 ale mniejsze od 0,1.

Tendencja statystyczna niejedno ma imię.

Jak określić wynik nieistotny statystycznie, bo z istotnością powyżej 0,05, ale jednak jej bliski, bo z istotnością poniżej 0,1? Na to pytanie w doskonały sposób odpowiada ten wpis na blogu, który stał się inspiracją do skonstruowania przeze mnie wpisu na ten temat:

https://mchankins.wordpress.com/2013/04/21/still-not-significant-2/

Jego autor zebrał ponad 500 określeń z przeróżnych artykułów naukowych. Jest w czym wybierać! Prawda? :) Wiele z nich jest tak naciąganych, że aż mi przykro, bo widać jak bardzo badacze starali się wyginać język i zwoje mózgowe, aby stworzyć coś z niczego. Trochę to śmieszne i tragiczne, zahaczające o ostrą hipokryzję, ale jakie prawdziwe! Niektórym wcale się nie dziwię, bo z doświadczenia wiem jak niechętnie publikowane są artykuły naukowe pełne określeń „wynik jest nieistotny statystycznie”. A to tak wielki błąd!

Temat jest tak popularny, że nawet powstają artykuły o tym, które stwierdzenia są poprawne, a które nie. W tym z 2015 roku na przykład autorzy zwracają uwagę, że używanie słowa „trend” opisując wynik właśnie istotny na poziomie trendu statystycznego jest niewłaściwe. Zatem unikamy pisania „istotne na poziomie trendu statystycznego”.

Misuse of „trend” to describe „almost significant” differences in anaesthesia research.

Jak już wcześniej wspomniałem, określenie to ma wielu zwolenników i przeciwników. Oto „ZA” i „PRZECIW” jakie udało mi się znaleźć w sieci lub przypomnieć ze swoich wykładów z czasów studiów.

ZA:

1. Tak mnie uczono na studiach (SWPS). Miałem naprawdę dobrego wykładowcę i wspominał on na jednych zajęciach, że jeśli mamy wynik istotności poniżej 0,1 to możemy uznać go za istotny na poziomie tendencji statystycznej. Mając dostęp do ogromu materiałów dydaktycznych z różnych uczelni wiem, że mój wykładowca nie jest jedyną osobą na naszej planecie, która tego uczy.

2. Jak już wiecie takie określenie lub inne, gdy wyniki istotności są większe od 0,05 ale mniejsze od 0,1 stosuje bardzo wielu badaczy. Ich prace są publikowane w czasopismach lepszych i gorszych, ale jednak przez ręce jakichś recenzentów to przechodzi, prawda? To może nienajlepszy argument i osobiście bardzo go nie lubię, ale jeśli inni tak robią to chyba jest dobrze jeśli my też tak zrobimy. Szczególnie gdy to „inni” oznacza dziesiątki tysięcy naukowców. Mamy do dyspozycji przynajmniej kilka tysięcy artykułów z różnych dziecin, na które można się powołać opisując wyniki bliskie istotności statystycznej. Polecam zapoznać się z tym artykułem jeśli chcesz wiedzieć więcej: Pritschet, L., Powell, D., Horne, Z. (2016). Marginally significant effects as evidence for hypotheses: Changing attitudes over four decades. Psychological Science

3. Od lat powoli odchodzi się od dychotomizacji wyników na istotne vs nieistotne. Już nie raportujemy wartości p jako p < 0,05 lub p > 0,05 pisząc, że coś jest nieistotne statystycznie lub istotne statystycznie i kropka. W oficjalnym podręczniku APA (6 edycja) jest napisane, że tam gdzie tylko się da raportujemy dokładną wartość p value do 3 miejsc po przecinku wraz z miarą siły efektu oraz przedziałem ufności. Jak pisze Thiese i współpracownicy:

Thiese MS, Ronna B, Ott U. P value interpretations and considerations. J Thorac Dis 2016;8(9):E928- E931. doi: 10.21037/jtd.2016.08.16

4. Raportowanie wyników, które uzyskały istotność jedynie na poziomie p < 0,1 ma także wprost swoje poparcie w literaturze w książce  Research methods and statistics in psychology autorstwa Hugh Coolican’a (szósta edycja z 2014 roku). Przytaczaliśmy już tą pozycję opisując (nie)śmieszne błędy wykładowców i osoby prowadzące ćwiczenia ze statystyki

Jak widzisz jednak sam autor pisze, że mając wynik istotny z przedziału 0,05 < p < 0,1 nie możesz „chwalić się” uzyskaniem efektu. Niestety różnic czy korelacji nie ma. Nie możemy z zadowalającym prawdopodobieństwem napisać, że nie są one dziełem przypadku. Jest zagrażająco duża szansa, że dziełem przypadku właśnie są. Można jednak napisać, że rezultat jest naprawdę bliski standardowego poziomu istotności i poddać go rozważaniom w rozdziale z dyskusją wyników i podsumowaniem.

Projekty badawcze, szczególnie w pracach magisterskich, charakteryzują się niską mocą wynikającą najczęściej z przebadania niedostatecznie dużej grupy osób. W języku angielskim nazywa się takie badania „underpowered”. O mocy testu będziemy pisać w niedalekiej przyszłości.  Teraz postaram się przytoczyć tylko jeden przykład. Wyobraź sobie, że musisz znaleźć ziarenko piasku na podłodze na obszarze jednego metra kwadratowego. To ziarenko na pewno tam jest ale jest naprawdę bardzo małe. Bierzesz szkło powiększające, ale niczego nie znajdujesz. Przypominam, że to ziarenko na pewno tam jest. Prawdopodobnie powiększenie było niedostatecznie duże. Twój test był niskiej mocy. Popełniłeś tzw. błąd II rodzaju czyli przyjąłeś nieprawdziwą hipotezę zerową (H0: Na podłodze nie ma ziarenka). Gdybyś jednak wziął szkło o większym powiększeniu (czyt. przebadałbyś więcej osób i miał większą moc testu) to zapewne byś je znalazł i podjął poprawną decyzję co do hipotezy (przyjął alternatywną mówiącą o tym, że ziarenko piachu jest na podłodze). Oczywiście moc testu zależy nie tylko od liczby badanych osób. Mimo wszystko tak, zależy także od niej.

Jeśli kiedyś będziesz liczyć sobie jakiś prosty test t Studenta czy jakąkolwiek korelację i uzyskasz wynik istotności np. na poziomie p = 0,063 to zrób taki „trick”. W bazie danych skopiuj sobie wszystkie badane osoby i ich wyniki wklej pod spód. Wszystko w zakładce „dane” w SPSSie. Sztucznie powiększysz swoją bazę danych. Będzie 2x większa niż przed chwilą. Policz test jeszcze raz i zobacz jaki wynik uzyskałeś. Zapewne będzie on istotny statystycznie na poziomie p < 0,05. Zauważ, że nie zmyśliłeś żadnych nowych wyników. Współczynnik korelacji czy porównywane średnie będą takie same. Nadal masz „prawdziwe” i rzeczywiste wyniki. Jest ich tylko 2x więcej. Przed chwilą różnice czy związek nie były istotne a teraz już są? No to zmienne są ze sobą skorelowane czy nie? No właśnie! Sztucznie powiększając bazę danych wziąłeś szkło o większym powiększeniu. Oczywiście w rzeczywistym projekcie badawczym nigdy tak nie rób! To oszustwo. Chciałem teraz tylko pokazać, że nie masz co płakać jeśli uzyskasz wynik istotności na poziomie p = 0,051. Nie pisz, że średnie się nie różnią, lub nie ma korelacji i nie „zwijaj interesu”. Nie jest wcale tak źle. Prawdopodobnie gdybyś przebadał trochę więcej osób to różnice byłyby istotne statystycznie.

UWAGA! Jeśli masz zadowalającą liczbę badanych osób* to nie myśl nawet o istotności na poziomie tendencji statystycznej. To będzie wyglądało tak jakbyś szukał na podłodze ziarenka piasku z mikroskopem elektronowym. Mając w ręku takie narzędzie na pewno znajdziesz jakiś „paproch” i będzie on w tym powiększeniu tak duży, że zinterpretujesz go niewłaściwie jako ziarenko piasku.

*zadowalająca liczba badanych osób? Czyli jaka? Czyli ile? Na to pytanie odpowiem Wam w przyszłości. Teraz mogę tylko wspomnieć o darmowym programie G*Power, który pozwala wyliczyć minimalną liczebność próby. Nagram niejeden tutorial z jego obsługi, ale wszystko w swoim czasie.

PRZECIW:

1. Tak jak wielu prowadzących uczy, że istnieje coś takiego jak wyniki istotne na poziomie tendencji statystycznej tak również wielu stwierdza, albo że nie ma czegoś takiego, albo wręcz, że jest to istne zło wcielone w świecie rzetelnie robionej nauki. Nie potwierdzam, ale i nie zaprzeczam :)

2. Podobnie wiele książek ze statystyki nie wspomina o czymś takim jak wyniki bliskie istotności statystycznej. Czy to jednak na pewno jest ich mocna strona? Uważam, że nie. Naprawdę statystyka nie jest czarno-biała. Faktem jest jednak, że ?ze świecą szukać? książek opisujących istnienie czegoś takiego jak „istotne na poziomie tendencji statystycznej”. Można mieć tym samym wątpliwości w związku ze stosowaniem takiego stwierdzenia.

3. W wyżej wymienionym już artykule (Marginally significant effects as evidence for hypotheses: Changing attitudes over four decades. Psychological Science.) Pritschet i współpracownicy piszą:

Potentially more troubling is that reporting of marginally-significant results mixes two types of scientific reasoning: Neyman-Pearson decision theory, which relies on hard cutoffs, and Fisher’s hypothesis testing approach, in which a p value can be considered a measure of evidence.

„The concept of marginal significance is dubious under either framework” – ostrzegają autorzy.

Tutaj jednak wyjaśnienia wymagałyby różnice w podejściu Neymana i Pearsona oraz Fishera do testowania hipotez a to nie czas i miejsce. Dla chcących pogłębić wiedzę polecam poszukać w necie.

4. W tym samym artykule autorzy piszą:

Practice of reporting marginally-significant results is problematic for two main reasons. First, the field of psychological science has no agreed-upon standards for how and when results should be reported as marginally significant. The second edition of the American Psychological Association style manual, published in 1974, advised, „Do not infer trends from data that fail by a small margin to reach the usual levels of significance.” This language was soon cut, however, and information about marginal significance has been absent from the manual for over 30 years.

Czyli jak widać, ponoć nawet w standardach APA (choć było to „dawno i nie prawda”) napisano, że nie należy dopatrywać się jakichkolwiek ?trendów statystycznych? gdy wyniki istotności faktycznie przekraczają umowny poziom 0,05.

5. W tym wpisie na świetnym blogu autorstwa osób zaangażowanym w tworzenie oprogramowania do analiz statystycznych o nazwie MiniTab autor nie zostawia suchej nitki na badaczach manipulujących słowem tylko po to, aby stworzyć wrażenie, że jednak „coś mi wyszło”. Odnosi się on do wpisu na blogu, który przytaczałem na samym początku (ten, w którym jest ponad 500 określeń na wyniki bliskie istotności statystycznej).

As a student of language, I confess I find the list fascinating…but also upsetting. It’s not right: These contributors are educated people who certainly understand A) what a p-value higher than 0.05 signifies, and B) that manipulating words to soften that result is deliberately deceptive. Or, to put it in words that are less soft, it’s a damned lie.

Autor zwraca uwagę na pewną ważną kwestię. Czy jeśli badacz uzyskuje wynik istotny na poziomie np. p = 0,049 to czy pisze on, że:

– osiągnąłem różnice bliskie nieistotnych statystycznie?

– osiągnąłem różnice prawie nieistotne statystycznie?

– uzyskałem rezultat graniczący z nieistotnym?

Nie. Dlaczego nie? No skoro wysilamy się językowo w jedną stronę to powinniśmy chyba obiektywnie zachowywać się podobnie w przeciwnej sytuacji? Chociaż… tak sobie teraz myślę, że przecież większość realizowanych badań ma na celu właśnie odrzucenie hipotezy zerowej i przyjęcie alternatywnej. Dam sobie uciąć rękę, że w jakichś badaniach, które mają na celu nieodrzucanie hipotezy zerowej znajdą się badacze, którzy właśnie przy powyższym wyniku p value pisaliby, że jest on prawie nieistotny więc praaaaawie można przyjąć hipotezę zerową :)

 

Autor wpisu na blogu MiniTab’a sugeruje żeby nie stosować żadnej słowotwórczej ściemy.

But what if your p-value is really, really close to 0.05?

Like, what if you had a p-value of 0.06? 

That’s not significant.

Oh. Okay, what about 0.055?

Not significant.

How about 0.051?

It’s still not statistically significant, and data analysts should not try to pretend otherwise. A p-value is not a negotiation: if p > 0.05, the results are not significant. Period.

So, what should I say when I get a p-value that’s higher than 0.05?  

How about saying this? „The results were not statistically significant.” If that’s what the data tell you, there is nothing wrong with saying so.

I ma chłop rację! Przyznaję! Jednak uważam też, że w całej zbudowanej przez nas narracji powinniśmy jednak p value interpretować jako spektrum różnych wartości z przedziału od 0 do 1 a nie tylko mniejsze/większe od 0,05. Dajmy za przykład rasę człowieka. Dwie popularne to rasa biała i rasa czarna. Albo jest taka, albo jest taka. Koniec i kropka. Albo p jest większe od 0,05 albo nie jest. Koniec i kropka. Dobrze. Wiemy jednak, że Afroamerykanie mogą różnić się odcieniem swojej ?czarnej? skóry (w cudzysłowie bo ona najczęściej jest brązowa a nie czarna :). Są czarnoskórzy którzy mają kakaowy odcień skóry (i to z dużą domieszką mleka), są trochę ciemniejsi (bardzo mocno brązowi), a są też tacy naprawdę bardzo ciemni, aż mocno ciemno-granatowi.

Cóż radzimy? Przede wszystkim raportuj wyniki zgodnie ze standardem APA, a ten zaleca zapisywanie nie tylko statystyki testu (np. tF, lub U) i istotności, ale również miarę siły efektu i przedział ufności. Zatem poprawnie zapisany wynik testu t Studenta będzie wygladał NIE TAK:

t(47) = 4,04; p < 0,001

TYLKO TAK

t(47) = 4,04; p < 0,001; ds = 1,16; 95% CIróżnicy [0,41;1,24]

jak zrobiła to Shneider z naszymi wykładowcami z SWPSu w artykule: Weighty data: importance information influences estimated weight of digital information storage devices.

Nie ma potrzeby pisać, że wynik jest bliski istotności statystycznej bo to przecież widać. Dobrze zaraportowane wyniki badań informują o liczebności próby, o wyniku wartości p, o sile efektu oraz przedziałach ufności. Zbędna jest zatem interpretacja i informowanie o czymś oczywistym. Ewentualnie dobrym miejscem na wspomnienie o wynikach bliskich istotności jest dyskusja wyników. Tam można wspomnieć o efektach, które mają prawo wystąpić w kolejnych badaniach, gdybyśmy np. dokonali serii replikacji zmieniając przecież badaną próbę. Wracając do przykładu z kolorem skóry. W rozdziale z wynikami, który musi zawierać rzetelny i precyzyjny opis rezultatów ma być „krótka piłka” – wynik/człowiek jest albo biały albo czarny. W dyskusji wyników z kolei można już sobie podebatować jak bardzo ktoś jest biały lub jak bardzo ktoś jest czarny.

My osobiście piszemy jednak o istotności na poziomie tendencji statystycznej nawet w rozdziale z wynikami, ale tylko gdy badanie zostało przeprowadzone na nielicznej próbie (np. gdy w porównywanych grupach jest mniej niż ok 25 obserwacji). Nigdy nie robimy jednak tego, gdy przebadaliśmy należytą liczbę osób. Gdy w Twoim badaniu wzięło udział 180 osób a Ty liczysz zwykłą korelację między dwiema zmiennymi to nie pisz o tendencji statystycznej. To małe „oszustwo” i już zbyt hardcore’owe naciąganie rzeczywistości do swoich potrzeb (uzyskania wyniku istotnego statystycznie).

Nie opowiadamy się po żadnej ze stron. Wspieramy obie. W naszej codziennej praktyce, jeśli badanych jest naprawdę mało to stosujemy pojęcie istotności na poziomie tendencji statystycznej. Z kolei, gdy badanych jest sporo to tego nie robimy, ale wpsominamy o tym na video tutorialu, który nagrywamy dla naszych klientów. Nasze zalecenie dla Ciebie zależy od tego kim jesteś. Czy studentem piszącym magisterkę, w której powinieneś „pochwalić się” dostrzeżeniem wyniku bliskiego istotności statystycznej, czy może profesorem z ogromnym stażem, który nie musi już niczego udowadniać a jedynie napisać dobry artykuł bez używania sformułowań, które w jego przypadku ewentualnie mogą narazić go na śmieszność.

Co zatem zalecamy? Młodym adeptom psychologii czy po prostu młodym naukowcom, którzy często robią „słabe” badania (mała próba i/lub kiepski dobór badanych) proponuję jednak wspominać o wynikach istotnych na poziomie tendencji statystycznej. Może nie w rozdziale z wynikami a w ich dyskusji i podsumowaniu. Wszystkim bardziej doświadczonym badaczom proponuję po prostu robić dobre badania i nie stosować jakiejś słowotwórczej ekwilibrystyki. Zanim zaczniecie robić badanie skorzystajcie z G*Power’a i policzcie minimalną liczebność próby. Znam Was jednak wielu i wiem jak bardzo cierpicie, gdy jakieś kiepskie czasopismo (które uznawane jest za świetne) nie chce opublikować Waszych badań ponieważ potwierdziły się 2 hipotezy z 5. Róbmy jednak dobrą naukę. Przede wszystkim tam gdzie się tylko da raportujcie miarę siły efektu oraz przedział ufności. A jak chcesz żeby było lepiej niż dobrze to obliczaj jeszcze moc testu i ją również raportuj.

 

MASZ PROBLEM ZE STATYSTYKĄ? – skontaktuj się z nami!

Konsultacje w naszej firmie są zawsze darmowe. Zadaj nam jakiekolwiek pytanie a odpowiedź uzyskasz najczęściej już po kilku godzinach. 

- KLIKNIJ TUTAJ A STATYSTYKA PRZESTANIE BYĆ DLA CIEBIE PROBLEMEM -

ANALIZA STATYSTYCZNA DO PRACY MAGISTERSKIEJ, STATYSTYKA DO DOKTORATU, OPRACOWANIE STATYSTYCZNE

Zajmiemy się dla Ciebie wszystkim czym trzeba. Zobacz co piszą o nas Ci, którzy skorzystali z naszej pomocy https://www.facebook.com/pogotowie.spss/reviews/

Dołącz do kilku tysięcy zadowolonych klientów. 

mail: info@pogotowiestatystyczne.pl 

tel: 501 599 278

 KRÓTKIE TERMINY / KONKURENCYJNE CENY / NAJWYŻSZA JAKOŚĆ