Statystyka jest prosta, choć nie jest łatwa. Jedną z podstawowych trudności w tym zakresie jest powszechny problem z rozumieniem wnioskowania częstościowego, opierającego się na falsyfikowaniu hipotez statystycznych poprzez wykorzystywanie wartości p testu statystycznego. O niektórych problemach związanych z wartością p pisaliśmy w jednym z poprzednich artykułów. Zachęcam też do przeczytania artykułu dotyczącego istotności na poziomie tendencji statystycznej.
Regularnie spotykamy się ze skutkami tego niezrozumienia, widząc rozczarowanie klientów z powodu uzyskania “nieistotnych wyników”, z którego wyciągają wnioski, że “nic w badaniu nie wyszło”. Otrzymujemy też od klientów prośby, o wykonanie, na życzenie promotora, dodatkowych analiz, byleby tylko otrzymać wyniki istotne statystycznie. Ot taki urok opracowań statystycznych do prac magisterskich i doktoratów 🙂
Debata na temat wad testowania poziomu istotności statystycznej sięga początków samej statystyki. Niestety, mimo ciągłych rekomendacji zawartych w standardach APA (obecnie wersji szóstej), poziom chaosu nadal jest wysoki. W tym wpisie, przywołam rekomendacje dotyczące raportowania wyników statystycznych, opublikowane w artykule w 1999 roku (sic!). Zauważymy jednak, że ich znaczenie dziś, nadal jest tak samo duże. Rekomendacje te są wynikiem dwuletniej debaty w ramach powołanego przez Radę ds. Naukowych (jednego z organów Amerykańskiego Towarzystwa Psychologicznego) komitetu nazywanego Grupą Zadaniową ds. Wnioskowania Statystycznego. W jej skład wchodziła grupa specjalistów z różnych dziedzin związanych z badaniami psychologicznymi a ich celem było wyjaśnienie kontrowersyjnych kwestii związanych z testowaniem poziomu istotności w badaniach psychologicznych i stworzenie rekomendacji do wdrożenia w kolejnej edycji (wtedy piątej) standardów APA (pamiętaj, że obecnie obowiązuje wersja 6). Artykuł na bazie którego powstał niniejszy wpis nie dotyczy jednak tylko p value. Raportowanie wyników analiz statystycznych jest trochę bardziej rozbudowane 🙂
Oto niektóre z rekomendacji:
1. Jasno określ, jakiego rodzaju badanie przeprowadzasz (case study, eksperyment, quasi-eksperyment, badanie kwestionariuszowe itp). Każde z nich, ma swoje wady i zalety, standardy i ograniczenia.
2. Jasno zdefiniuj populację, którą badasz, szczególnie, jeżeli w badaniu jest grupa porównawcza/kontrolna. Określ dobór próby (losowy/nielosowy oraz jaki konkretnie rodzaj) i opisz, jakie kryteria włączenia/wykluczenia zostały zastosowane. Opisz ile osób i z jakiego powodu zostało ew. odrzuconych.
3. Jeśli przeprowadziłeś eksperyment, pamiętaj, o efekcie oczekiwań eksperymentantora (efekcie Rosenthala) i o zastosowaniu podwójnej ślepej próby. Przy przydzielaniu badanych do grup stosuj raczej komputerowe generatory liczb pseudolosowych niż własny instynkt – ludzie nie potrafią generować przypadkowych wzorców. Jeżeli dobór do grupy jest nierandomizowany, bądź nie kontrolujesz zmiennych pośredniczących, zamiast “grupy kontrolnej” określ ją raczej jako “grupę porównawczą”. Pamiętaj, aby zawsze dokładnie opisać charakter i procedurę przydziału badanych do grupy.
4. Zwracaj szczególną uwagę na nazwę raportowanych zmiennych. Nazywaj je w odniesieniu do tego jak zmienna jest mierzona. Przykładowo, zamiast “inteligencja” lepiej napisz “wynik testu IQ”, a zamiast “wykorzystywanie seksualne w dzieciństwie” lepiej użyj określenia “retrospekcyjna ocena stopnia wykorzystywania seksualnego w dzieciństwie”. Nieprecyzyjne nazwy zmiennych wprowadzają czytelników w błąd i mogą być źródłem niewłaściwej interpretacji wyników.
5. Sprawdzaj czy wyszczególnione przez Ciebie wymiary narzędzi badawczych rzeczywiście mierzą to co mierzą i czy robią to trafnie – sprawdzaj trafność i rzetelność wyników uzyskany w Twoim badaniu. Pamiętaj, że statystyki z badań walidacyjnych narzędzi, których używasz dotyczą próby normalizacyjnej, a w Twoim badaniu może być zupełnie inaczej.
6. W opisie wyników opisz wszelkie komplikacje związane ze zbieraniem i analizowaniem danych. Określ braki danych oraz jak wykrywano i radzono sobie z wartościami odstającymi. Sprawdzaj zawsze rozkłady wyników w zakresie poszczególnych zmiennych, sprawdzając nie tylko statystyki numeryczne, ale też graficzne, poprzez histogramy, czy macierze wykresów. Pamiętaj o rozsądnym kodowaniu braków danych – np. używanie popularnej wartości “99” nie jest dobrym pomysłem, jeśli możliwe są takie wartości zmiennych (np. w przypadku wieku)
7. Korzystaj z testów statystycznych, które w najlepszy sposób pomogą Ci przetestować postawione hipotezy – Twoim zadaniem nie jest zaimponowanie innym badaczom i ewentualnym czytelnikom. Korzystaj z programów komputerowych, ale upewnij się, że rozumiesz jak liczone są określone statystyki i w razie czego, kontroluj otrzymane wyniki.
8. Przedstawiaj statystyki testowe w tabelach, ale pamiętaj, że one często nie zastąpią formy graficznej – dobry wykres pozwala szybko zapoznać się z wynikami i zrozumieć zależności między zmiennymi. Staraj się jednak, aby forma graficzna niosła dodatkowe informacje względem statystyk w tabeli (np. efekty proste i efekty interakcji w wieloczynnikowej ANOVA’ie).
9. Raportuj zawsze dokładną wartość statystyki p, przedziały ufności i siły efektu. Zaznaczaj również przedziały ufności na wykresach przedstawiających średnie.
10. Bądź ostrożny w interpretowaniu wyników analizy pod kątem przyczynowości. Pamiętaj, że badania korelacyjne i porównawcze nie pozwalają na jej stwierdzanie.
11. Podobnie, pamiętaj, że wynik pojedynczego badania nie pozwala na wyciąganie jednoznacznych wniosków co do natury badanych zjawisk. Wynik badania zawsze powinien być zestawiany z wynikami innych, analogicznych badań, łącznie z porównywaniem ich sił efektów.
12. Pamiętaj, aby rozróżniać istotność statystyczną od istotności teoretycznej. Fakt, że uzyskałeś wyniki nieistotne statystyczne, nie znaczy, że badane związki między zmiennymi nie występują i nie są istotne. Z kolei uzyskanie wyników istotnych statystycznie nie sprawia automatycznie, że dokonałeś idkrycia istotnego dla świata nauki. Otrzymany istotny statsytycznie efekt może być mało ważny lub bardzo słaby.
13. Interpretacja i dyskusja wyników powinna być krótka, zwięzła i wiarygodna. Nie bój się uogólniać otrzymanych wyników na populację, ale rób to tylko wtedy, gdy masz ku temu przesłanki i oczywiście jasno je wtedy przedstaw. Porównaj wyniki otrzymanych badań do innych. Wskaż konkretne ograniczenia swoich badań i rekomendacje dla innych badaczy (“Potrzebne są dalsze badania w tym zakresie” się nie liczy).
Literatura:
Wilkinson, L., & Task Force on Statistical Inference, American Psychological Association, Science Directorate. (1999). Statistical methods in psychology journals: Guidelines and explanations. American Psychologist, 54(8), 594-604.