OBLICZENIA STATYSTYCZNE PO PODZIALE NA DWIE GRUPY – co z tą medianą…?

Stosunkowo często Wasze pytania badawcze lub hipotezy zbudowane są tak, że w pierwszym kroku, przed przystąpieniem do właściwych analiz statystycznych, należy dokonać podziału na kilka względnie równolicznych grup. Często jest to podział tylko na dwie grupy. Na przykład osób wypalonych i niewypalonych zawodowo. Następnie sprawdzamy czy w jednej i drugiej grupie zachodzi istotna korelacja między zarobkami a nasileniem depresji. To tylko jeden z dziesiątek tysięcy przykładów jakie mógłbym przytoczyć, a są one w rzeczywistości tym, z czym spotykam się na co dzień w swojej pracy, pomagając Wam w wykonaniu analizy statystycznej do pracy magisterskiej lub doktoratu.

Podziału na dwie równoliczne grupy dokonuje się najczęściej w oparciu o wartość mediany. Nierzadko jednak spotykamy się z pewnymi kontrowersjami w tym zakresie.

Optymistycznie zakładam, że wiesz czym jest mediana. W jednym z poniższych akapitów przytoczę co prawda kilka definicji, ale jeśli chcesz odświeżyć sobie informacje o tej mierze tendencji centralnej  to zapraszam do przeczytania fajnego wpisu na zaprzyjaźnionym z nami blogu – www.STATYSTYCZNY.pl – wpis o medianie

 OK, skoro wiesz czym jest mediana to możemy porozmawiać o podziale badanych na dwie równoliczne grupy i wyżej wspomnianych kontrowersjach. Wyobraź sobie, że przebadaliśmy 10 osób a mierzoną zmienną jest wynik na skali ugodowości z narzędzia NEO-FFI. Powiedzmy, że wyniki mogą wahać się w granicach od 20 do 60 punktów. Im wyższy wynik, tym większe nasilenie ugodowości. Poniżej prezentuję uszeregowany już zbiór wyników każdego uczestnika badania.

Jak wiesz, jeśli mamy parzystą liczbę badanych osób to medianą jest średnia z wyników dwóch osób będących po środku rozkładu (to te z czerwonymi głowami :)). Średnia z dwóch liczb 50 to … 50.  Mediana wynosi zatem Me = 50.

Teraz najważniejsze. Chcemy podzielić badanych na dwie względnie równoliczne grupy. Osoby nisko ugodowe i osoby wysoko ugodowe. Kryterium podziału w takich przypadkach najczęściej jest właśnie mediana.Widać jednak, że przez nadreprezentację osób o wyniku równym 50 niemożliwym będzie dokonanie podziału na idealnie równoliczne grupy po 5 osób w każdej. Co zrobić z tymi czterema osobami, które uzyskały wynik równy medianie czyli 50?

JEDEN PODZIAŁ, DWA SPOSOBY

Badanych, którzy utrudniają nam zadanie, czyli podział na dwie równoliczne grupy, możemy włączyć albo do jednej grupy, albo do drugiej. Najczęściej w literaturze oraz prezentacjach z Waszych zajęć spotykałem się z instrukcjami wykładowców, które nakazywały włączać osoby uzyskujące wynik równy medianie do pierwszej grupy. Drugą grupę miały stanowić osoby uzyskujące wyniki wyższe od mediany. Grupa osób nisko ugodowych składałaby się z osób, które uzyskały wynik na tej skali nie większy niż 50 (czyli mniejszy lub równy medianie). Grupa osób wysoko ugodowych składałaby się z uczestników badania, którzy uzyskali wynik większy niż 50.

Takie rozwiązanie raczej nie daje zadowalającego rezultatu, prawda? Równe 8 osób w jednej grupie i 2 w drugiej to całkiem spora dysproporcja. Dlatego też można zastosować inną metodę podziału. Rzadziej spotykaną, a przez niektórych nawet uważaną za niepoprawną  (bez podstaw i argumentów popartych literaturą, więc nie ma co się przejmować :))

Osoby o wyniku równym medianie możemy włączyć do drugiej grupy – osób wysoko ugodowych.

Jak widzisz kryterium podziału to nadal mediana (Me = 50), ale podjęliśmy decyzję, aby w pierwszej grupie znalazły się osoby o wyniku mniejszym niż mediana, a w grupie drugiej, osoby o wyniku nie mniejszym niż mediana (czyli równym medianie lub większym). Takie rozwiązanie nie daje co prawda idealnie równolicznych, pięcioosobowych grup (pisałem już, że teraz się nie da), ale dysproporcja 4 vs 6 nie jest już tak duża.

Opracowanie statystyczne wyników badań jest często działaniem bardzo subiektywnym. Dlatego utarło się takie stwierdzenie jak „the art of statistics”. To od badacza zależy jaką podejmie decyzje. Wszystko jest w porządku dopóki analiza statystyczna wykonana jest w sposób przemyślany, a kolejne kroki uargumentowane.

NAUCZYCIEL STATYSTYKI – dobrze jak jest dobry

Niestety cały ten wpis oraz sam pomysł na nowy tutorial, który znajdziesz na samym dole wziął się stąd, że ktoś kiedyś nie miał dobrego wykładowcy ze statystyki :( Sytuację omawiam na filmie. Tutaj tylko wspomnę, że chodzi właśnie o możliwość dwojakiego podejścia do podziału badanych na dwie grupy w oparciu o medianę. Przedstawiłem przed chwilą dwa sposoby i widzisz, że jeden z nich jest lepszy. UWAGA: czasami ten pierwszy jest lepszy (daje bardziej równoliczne grupy), a czasami ten drugi. Pamiętaj o tym i miej „otwartą głowę”. Bardziej otwartą niż nieszczęsna Pani prowadząca ćwiczenia, której studentka została źle oceniona choć miała świetnie wykonaną pracę domową. Biedna dziewczyna po zajęciach nawet próbowała wyjaśnić, że taki sposób jest poprawny i znalazła taką informację w książce … i tutaj tytuł oraz autor. Odpowiedź prowadzącej była piorunująca. Tak, to niestety cytat.

„Na slajdach z zajęć jest taki sposób a nie inny i taki ma być w pracy domowej. Inna odpowiedź jest niezgodna z moim kluczem”. 

…. tyle w temacie. Nie pozostaje nic więcej niż szlochać.

Dobry wykładowca, tak jak dobry promotor jest otwarty na inwencję twórczą, pomysły i kreatywne sposoby rozwiązania problemu. Oczywiście jeśli masz wykonać test t Studenta w celu porównania dwóch grup, a ty na seminarium wejdziesz do sali z żywą owcą to trochę przegiąłeś i nie o takim poziomie kreatywności tutaj piszę. Inna sprawa jeśli masz na to poparcie w literaturze. Wtedy nawet taki pomysł powinien zostać poddany rozwadze.

Nawiązując do owcy. Właśnie jak te owieczki, nie podążajcie zawsze za tym co mówi wykładowca, promotor, rodzice. Bądźcie otwarci, głodni wiedzy i ciekawscy. Choć wyżej wymienione osoby mają często znacznie większą wiedzę i doświadczenie to nie są nieomylni i nie wiedzą wszystkiego. Sam zajmując się analizą statystyczną i metodologią badań od ponad 12 lat z każdym dniem mam wrażenie, że wiem coraz mniej. Wnikliwy odbiorca może doświadczyć sprzeczności zaglądając do książki Grażyny Wieczorkowskiej (wydanie z roku 2005, str. 52), książki Roberta Mackiewicza i Piotra Francuza pt. „Liczby nie wiedzą skąd pochodzą” (str. 147) oraz do doskonale znanego Wam „Statystycznego Drogowskazu” Sylwii Bedyńskiej (wydanie I z roku 2007, str. 74 i 75). W każdej z tych książek znajdziecie „inny pomysł” na podział względem mediany i jej definicję.

PODZIAŁ TYLKO NA DWIE GRUPY? JAK SZALEĆ TO SZALEĆ!

Najczęściej podział na dwie grupy to w grupie osób zawodowo zajmujących się analizą statystyczną w badaniach naukowych to czyste zło zła. Polecam przeczytać między innymi wpis na blogu Freda Clavera – Highway to the Danger Zone: Why median-splitting your continuous data can ruin your results.

Często dokonujemy podziału na 3 lub 4 grupy. Szczególnie kiedy chcemy w bardzo mało zaawansowany sposób poszukać związków krzywoliniowych między zmiennymi. O tym jednak będę opowiadał w przyszłości. Teraz zapraszam do obejrzenia naszego nowego materiału, na którym pokazuję w jaki sposób dokonać podziału na 2,3 lub 4 względnie równoliczne grupy.