Author Archives: lukasz


Liczymy dla WOŚP!

Miło nam poinformować, że w tym roku jeszcze bardziej aktywnie niż w latach ubiegłych możemy wesprzeć Wielką Orkiestrę Świątecznej Pomocy!

Na aukcję postanowiliśmy oddać to co mamy najcenniejszego – naszą wiedzę i doświadczenie. Jeśli masz problem ze statystyką albo przypuszczasz, że może w niedalekiej przyszłości przydać Ci się wsparcie w tym zakresie to koniecznie weź udział w tej akcji

Za wylicytowaną kwotę otrzymacie od nas taką pomoc ze statystyki jakiej potrzebujecie. Bez względu czy będą to korepetycje przed kolokwium lub egzaminem czy może pomoc w obliczeniach do pracy magisterskiej lub doktoratu. Będziemy do Twoich usług kiedy tylko zachcesz! Zrobimy wszystko co związane ze statystyką w SPSS.

Oczywiście aukcja odbywa się w serwisie Allegro i standardowo cała wylicytowana kwota trafi bezpośrednio na konto WOŚP. Tak możemy pomóc i Wy tym samym również. Pamiętajcie jednak, że tak jak co dzień staramy się świadczyć jak najtańsze usługi, tak tym razem chodzi o zebranie jak największej kwoty. Ma być nieprzyzwoicie drogo! W zamian gwarantujemy naprawdę wartością paczkę wiedzy i pełne wsparcie w tej nierównej walce ze statystyką, metodologią badań i SPSSem 🙂

Konferencja Medical Science Pulse 2018

Analiza statystyczna wyników ankiety, metodologia, budowa narzędzi badawczych i realizacja badań naukowych czyli V Międzynardowa Konferencja Medical Science Pulse

Witajcie! Poniższym wpisem chcieliśmy  przypomnieć o zbliżającej się V edycji Międzynarodowej Konferencji Medical Science Pulse, która odbędzie się jak zawsze w Państwowej Medycznej Wyższej Szkole Zawodowej w Opolu. W ubiegłym roku mieliśmy przyjemność brać w niej zarówno bierny jak i czynny udział. O samym wydarzeniu możecie poczytać na jego oficjalnej stronie: http://e-event24.pl/5th_MSP_Conference/

Jak zwykle na konferencji pojawi się wielu doskonałych prelegentów z wystąpieniami, które w naszym odczuciu dotyczą najważniejszych kwestii dla tych młodszych jak i tych bardziej doświadczonych naukowców. Jedne z ciekawszych to między innymi:

  •  Zastosowanie platformy Web of Science, Journal and Highly Cited Data oraz innych narzędzi do prowadzenia skutecznych badań i kreowania kariery naukowej – Dr Klementyna Karlińska-Batres (Thomson Reuters, Germany)
  • Wskazówki dla młodych badaczy od amerykańskiej stypendystki Fulbrighta w Polsce – Kathryn Cater (University of Alabama, USA)
  • Projekt naukowy i publikacja naukowa  z zakresu nauk biomedycznych- krok po kroku.– Dr hab. Bożena Mroczek (PUM), prof. nadzw., Prof. dr hab. Anna Grzywacz (PUM)
  • Analiza statystyczna do pracy magisterskiej, doktorskiej, publikacji naukowej. – Dr Dominik Marciniak (UM we Wrocławiu), Dr Arkadiusz Liber (PW), Dr Kuba Ptaszkowski (UM we Wrocławiu).

Ostatni z wyżej wymienionych punktów jest warsztatem, który odbył się również rok temu. Przed nim z kolei miało miejsce nasze wystąpienie dotyczące analizy statystycznej w pracach magisterskich w naukach medycznych oraz z pogranicza psychologii i medycyny.

Studenci i pracownicy naukowi będący na konferencji otrzymali od nas poradniki dotyczące wyboru właściwego testu statystycznego oraz mogli skorzystać z darmowych konsultacji, które na co dzień oferujemy wszystkim zainteresowanym, ale jedynie w formie rozmowy telefonicznej lub korespondencji mailowej.

Pamiętaj, że obecność na konferencjach naukowych jako słuchacz ma dla Ciebie ogromną wartość dydaktyczną. Najczęściej wiedza na nich jest skondensowana w tak dużym stopniu, że pobyt na dwudniowym wydarzeniu równa się tygodniom spędzonym w sali wykładowej.

Niestety z uwagi na niezliczoną wręcz liczbę prac magisterskich, doktoratów i artykułów naukowych, do których musimy zrobić analizy statystyczne, nasza obecność na konferencji w tym roku nie będzie możliwa.

Podział obserwacji na dwie grupy – co z tą medianą?

Stosunkowo często Wasze pytania badawcze lub hipotezy zbudowane są tak, że w pierwszym kroku, przed przystąpieniem do właściwych analiz statystycznych, należy dokonać podziału na kilka względnie równolicznych grup. Często jest to podział tylko na dwie grupy. Na przykład osób wypalonych i niewypalonych zawodowo. Następnie sprawdzamy czy w jednej i drugiej grupie zachodzi istotna korelacja między zarobkami a nasileniem depresji. To tylko jeden z dziesiątek tysięcy przykładów jakie mógłbym przytoczyć, a są one w rzeczywistości tym, z czym spotykam się na co dzień w swojej pracy, pomagając Wam w wykonaniu analizy statystycznej do pracy magisterskiej lub doktoratu.

Podziału na dwie równoliczne grupy dokonuje się najczęściej w oparciu o wartość mediany. Nierzadko jednak spotykamy się z pewnymi kontrowersjami w tym zakresie.

Optymistycznie zakładam, że wiesz czym jest mediana. W jednym z poniższych akapitów przytoczę co prawda kilka definicji, ale jeśli chcesz odświeżyć sobie informacje o tej mierze tendencji centralnej  to zapraszam do przeczytania fajnego wpisu na zaprzyjaźnionym z nami blogu – www.STATYSTYCZNY.pl – wpis o medianie

OK, skoro wiesz czym jest mediana to możemy porozmawiać o podziale badanych na dwie równoliczne grupy i wyżej wspomnianych kontrowersjach. Wyobraź sobie, że przebadaliśmy 10 osób a mierzoną zmienną jest wynik na skali ugodowości z narzędzia NEO-FFI. Powiedzmy, że wyniki mogą wahać się w granicach od 20 do 60 punktów. Im wyższy wynik, tym większe nasilenie ugodowości. Poniżej prezentuję uszeregowany już zbiór wyników każdego uczestnika badania.

Jak wiesz, jeśli mamy parzystą liczbę badanych osób to medianą jest średnia z wyników dwóch osób będących po środku rozkładu (to te z czerwonymi głowami :)). Średnia z dwóch liczb 50 to … 50.  Mediana wynosi zatem Me = 50.

Teraz najważniejsze. Chcemy podzielić badanych na dwie względnie równoliczne grupy. Osoby nisko ugodowe i osoby wysoko ugodowe. Kryterium podziału w takich przypadkach najczęściej jest właśnie mediana.Widać jednak, że przez nadreprezentację osób o wyniku równym 50 niemożliwym będzie dokonanie podziału na idealnie równoliczne grupy po 5 osób w każdej. Co zrobić z tymi czterema osobami, które uzyskały wynik równy medianie czyli 50?

JEDEN PODZIAŁ, DWA SPOSOBY

Badanych, którzy utrudniają nam zadanie, czyli podział na dwie równoliczne grupy, możemy włączyć albo do jednej grupy, albo do drugiej. Najczęściej w literaturze oraz prezentacjach z Waszych zajęć spotykałem się z instrukcjami wykładowców, które nakazywały włączać osoby uzyskujące wynik równy medianie do pierwszej grupy. Drugą grupę miały stanowić osoby uzyskujące wyniki wyższe od mediany. Grupa osób nisko ugodowych składałaby się z osób, które uzyskały wynik na tej skali nie większy niż 50 (czyli mniejszy lub równy medianie). Grupa osób wysoko ugodowych składałaby się z uczestników badania, którzy uzyskali wynik większy niż 50.

Takie rozwiązanie raczej nie daje zadowalającego rezultatu, prawda? Równe 8 osób w jednej grupie i 2 w drugiej to całkiem spora dysproporcja. Dlatego też można zastosować inną metodę podziału. Rzadziej spotykaną, a przez niektórych nawet uważaną za niepoprawną  (bez podstaw i argumentów popartych literaturą, więc nie ma co się przejmować :))

Osoby o wyniku równym medianie możemy włączyć do drugiej grupy – osób wysoko ugodowych.

Jak widzisz kryterium podziału to nadal mediana (Me = 50), ale podjęliśmy decyzję, aby w pierwszej grupie znalazły się osoby o wyniku mniejszym niż mediana, a w grupie drugiej, osoby o wyniku nie mniejszym niż mediana (czyli równym medianie lub większym). Takie rozwiązanie nie daje co prawda idealnie równolicznych, pięcioosobowych grup (pisałem już, że teraz się nie da), ale dysproporcja 4 vs 6 nie jest już tak duża.

Opracowanie statystyczne wyników badań jest często działaniem bardzo subiektywnym. Dlatego utarło się takie stwierdzenie jak “the art of statistics”. To od badacza zależy jaką podejmie decyzje. Wszystko jest w porządku dopóki analiza statystyczna wykonana jest w sposób przemyślany, a kolejne kroki uargumentowane.

NAUCZYCIEL STATYSTYKI – dobrze jak jest dobry

Niestety cały ten wpis oraz sam pomysł na nowy tutorial, który znajdziesz na samym dole wziął się stąd, że ktoś kiedyś nie miał dobrego wykładowcy ze statystyki 🙁 Sytuację omawiam na filmie. Tutaj tylko wspomnę, że chodzi właśnie o możliwość dwojakiego podejścia do podziału badanych na dwie grupy w oparciu o medianę. Przedstawiłem przed chwilą dwa sposoby i widzisz, że jeden z nich jest lepszy. UWAGA: czasami ten pierwszy jest lepszy (daje bardziej równoliczne grupy), a czasami ten drugi. Pamiętaj o tym i miej “otwartą głowę”. Bardziej otwartą niż nieszczęsna Pani prowadząca ćwiczenia, której studentka została źle oceniona choć miała świetnie wykonaną pracę domową. Biedna dziewczyna po zajęciach nawet próbowała wyjaśnić, że taki sposób jest poprawny i znalazła taką informację w książce … i tutaj tytuł oraz autor. Odpowiedź prowadzącej była piorunująca. Tak, to niestety cytat.

“Na slajdach z zajęć jest taki sposób a nie inny i taki ma być w pracy domowej. Inna odpowiedź jest niezgodna z moim kluczem”. 

…. tyle w temacie. Nie pozostaje nic więcej niż szlochać.

Dobry wykładowca, tak jak dobry promotor jest otwarty na inwencję twórczą, pomysły i kreatywne sposoby rozwiązania problemu. Oczywiście jeśli masz wykonać test t Studenta w celu porównania dwóch grup, a ty na seminarium wejdziesz do sali z żywą owcą to trochę przegiąłeś i nie o takim poziomie kreatywności tutaj piszę. Inna sprawa jeśli masz na to poparcie w literaturze. Wtedy nawet taki pomysł powinien zostać poddany rozwadze.

Nawiązując do owcy. Właśnie jak te owieczki, nie podążajcie zawsze za tym co mówi wykładowca, promotor, rodzice. Bądźcie otwarci, głodni wiedzy i ciekawscy. Choć wyżej wymienione osoby mają często znacznie większą wiedzę i doświadczenie to nie są nieomylni i nie wiedzą wszystkiego. Sam zajmując się analizą statystyczną i metodologią badań od   ponad 12 lat z każdym dniem mam wrażenie, że wiem coraz mniej. Wnikliwy odbiorca może doświadczyć sprzeczności zaglądając do książki Grażyny Wieczorkowskiej (wydanie z roku 2005, str. 52), książki Roberta Mackiewicza i Piotra Francuza pt. “Liczby nie wiedzą skąd pochodzą” (str. 147) oraz do doskonale znanego Wam “Statystycznego Drogowskazu” Sylwii Bedyńskiej (wydanie I z roku 2007, str. 74 i 75). W każdej z tych książek znajdziecie “inny pomysł” na podział względem mediany i jej definicję.

PODZIAŁ TYLKO NA DWIE GRUPY? JAK SZALEĆ TO SZALEĆ!

Najczęściej podział na dwie grupy to w grupie osób zawodowo zajmujących się analizą statystyczną w badaniach naukowych to czyste zło zła. Polecam przeczytać między innymi wpis na blogu Freda Clavera – Highway to the Danger Zone: Why median-splitting your continuous data can ruin your results.

Często dokonujemy podziału na 3 lub 4 grupy. Szczególnie kiedy chcemy w bardzo mało zaawansowany sposób poszukać związków krzywoliniowych między zmiennymi. O tym jednak będę opowiadał w przyszłości. Teraz zapraszam do obejrzenia naszego nowego materiału, na którym pokazuję w jaki sposób dokonać podziału na 2,3 lub 4 względnie równoliczne grupy.

 

Pomoc przed kolokwium i egzaminem ze statystyki – SWPS i nie tylko :)

Jest już połowa czerwca, więc lada chwila będziecie pisać kolokwium lub egzamin ze statystyki. Mimo, że pliki, o których będę tutaj pisał zamieszczaliśmy na naszym fanpejdżu na FB już w styczniu, to wielu z Was nie obserwuje nas tam i tym samym nie macie pojęcia jak wiele materiałów dydaktycznych ze staty przelatuje Wam koło nosa. Żeby łatwiej było je odszukać wrzucam część z nich właśnie tutaj. Dotyczą one kolokwium i części egzaminu ze statystyki zaawansowanej z Uniwersytetu SWPS. Oczywiście materiał ten nie pokrywa nawet 1/6 tego co wypadałoby umieć przed samym egzaminem lub kolokwium ze statystyki, ale jak to mówią – lepszy rydz, niż nic 😀

STATYSTYKA ZAAWANSOWANA NA SWPS – 2 zadania, które pojawią się na 100%

Na SWPSie i innych uczelniach, które dobrze uczą statystyki przy użyciu pakietu IBM SPSS (PS Imago), zazwyczaj w drugim semestrze przygód z tym znienawidzonym przez Was przedmiotem na kolokwium macie przede wszystkim zadania z dwuczynnikowej analizy wariancji oraz analizy regresji.  Poniżej zamieszczam po dwa pliki do każdej z tych analiz. Są to przykładowe zadania z kolokwium wraz z rozwiązaniem oraz baza danych do niego.

1. ANALIZA WARIANCJI W SCHEMACIE 2×2

Zadanie z dwuczynnikowej analizy wariancji może być ułożone na szereg różnych sposobów. Może być w schemacie dla prób niezależnych, zależnych lub w schemacie mieszanym. Może to być układ czynnikowy 2×2, 3×4, 2×3 lub inne. Zazwyczaj jednak prowadzący nie znęcają się nad Wami za bardzo i otrzymujecie najprostsze zadanie czyli dwuczynnikową analizę wariancji dla prób niezależnych w schemacie 2×2. Poniżej znajdują się dwa guziko-odnośniki 🙂

ZADANIA + ROZWIĄZANIEBAZA DANYCH

UWAGA: W jednym zadaniu oznaczenia literowe jak MSDF i inne, które powinny być zapisane kursywą błędnie zapisaliśmy regularną czcionką, bez pochylenia. Pamiętajcie o tym, że wg standardu APA wszystkie litery oznaczające wyliczone statystyki/estymatory zapisujemy kursywą. Nie dotyczy to jednak greckich liter! Te piszemy regularną czcionką. 

 

2. ANALIZA REGRESJI Z WIELOMA PREDYKTORAMI

Kolejnym zadaniem, które na pewno pojawi się na kolokwium jest zadanie dotyczące analizy regresji. Najczęściej z wieloma predyktorami, ponieważ dzięki temu można sprawdzić Waszą wiedzę na temat różnych metod wprowadzania zmiennych do modelu. Poniżej znów zadania z rozwiązaniem w PDFie oraz baza danych z SPSSa. Mam jednocześnie nadzieję, że nasz film instruktażowy dotyczący prostej analizy regresji z jednym predyktorem znasz niemal na pamięć. Prawda? 🙂

ZADANIA + ROZWIĄZANIE

BAZA DANYCH

Pamiętaj o tym, o czym piszę w obu plikach na temat subiektywnego podejścia do analizy statystycznej i jej nauczania. Praktycznie każdy prowadzący w Polsce uczy trochę inaczej. Sposób wykonywania obliczeń, testowana założeń czy raportowania wyników może być różnorodny. Rozwiązania zadań z tego wpisu zostały ocenione na maksymalną liczbę punktów.

PRZEDEGZAMINACYJNE KOMPENDIUM WIEDZY

Na koniec zostawiam materiał niezwiązany bezpośrednio z kolokwium, a z egzaminem. Mimo wszystko informacje w nim zawarte powinny się Wam przydać. Jak nie teraz, to później. Kompendium zawiera w sobie wyjaśnienia dotyczące zagadnień, które pojawiają się zawsze na egzaminie ze statystyki na SWPSie. Jest to:
  1. “Tabelka ANOVA” czyli umiejętność wypełniania prawie pustej tabeli z jednoczynnikowej analizy wariancji (TUTAJ FILM INSTRUKTAŻOWY DOTYCZĄCY TEGO TEMATU – minimaliści powinni oglądać od ok 9min. 20 sek. :))
  2. Odczytywanie wykresów z dwuczynnikowej analizy wariancji
  3. Wiedza na temat tego o czym mówią zapis schematu eksperymentalnego jak np. 2×2, 4×8, 3x2x5 etc.
  4. “Ręczne” projektowanie kontrastów.

KOMPENDIUM – egzamin – SWPS

Powyższe materiały służą Wam najbardziej efektywnie jako integralna część prowadzonych przez nas zajęć. Jest to tylko dodatek i część tego, co otrzymują nasi studenci podczas większości webinariów. Chcesz nauczyć się statystyki za darmo lub za “pół-darmo”? Subskrybuj nasz kanał na YT ponieważ w nadchodzącym roku pojawi się wiele tutoriali. Śledź nas też na facebooku, gdzie wrzucamy informacje o zbliżających się webinariach, nowych pojęciach dodawanych do słowniczka i wiele wiele więcej!

JAK TO MÓWIĄ – bez interakcji nie ma atrakcji!

… żartowałem. Nikt tak nie mówi 🙂

Jeśli jednak uważasz, że robimy dobrą robotę i fajnie byłoby, gdybyśmy produkowali jeszcze więcej materiałów dydaktycznych dla Was to prosimy o lajka na naszej stronie na FB oraz zostawienie TUTAJ swojej opinii: https://www.facebook.com/pogotowiestatystyczne/reviews/  Wystarczy krótkie “polecam”, albo “oby tak dalej!” 🙂

Gdy dasz lajka, zostawisz krótką opinię i zechcesz otrzymać całe, poprawnie rozwiązane kolokwium ze statystyki zaawansowanej to napisz do nas maila a wyślemy Ci je w kilka chwil. Wtedy zaliczenie koła będzie już tylko formalnością 🙂

 

info@pogotowiestatystyczne.pl

PS. Całe kompendium i część pytań z kolokwium jest naszego autorstwa, ale nie wszystkie. Część pytań i baz danych pochodzi z materiałów, które nam wysyłacie (np. przykładowych kolokwiów, które rozwiązujecie na zajęciach).

Wykres skrzynkowy (boxplot) – moc informacji na jednym rysunku

Wykres skrzynkowy, pudełkowy, ramka – wąsy lub z angielskiego box plot.

Wiele nazw a wykres ten sam. My będziemy nazywali go wykresem skrzynkowym. Nie wiem czy nazwa ta jest najbardziej popularna czy nie. Na pewno jesteśmy do niej najbardziej przywiązani i to właśnie jej używamy w naszej codziennej pracy. W dzisiejszym poście chcemy omówić każdy element wykresu skrzynkowego, a jak się za chwilę okaże, jest on dosyć rozbudowany. Niesie on ze sobą wiele informacji, więc dobrze jest zrozumieć co przedstawiają.

Po co rysujemy wykres i dlaczego akurat skrzynkowe? Niczego nowego przed Tobą nie odkryjemy ponieważ często inne rodzaje wykresów rysuje się w tym samym celu. Wykresy skrzynkowe rysujemy zazwyczaj z dwóch powodów.

  • Eksploracja danych
    Z uwagi na wartość informacyjną wykresów skrzynkowych są one często wykorzystywane w pierwszym lub drugim kroku stosunkowo pobieżnej eksploracji danych, z którymi przyjdzie zmierzyć się analitykowi. Bez potrzeby przeglądania, czasami gigantycznych tabel z podstawowymi statystykami opisowymi, klikania tu, klikania tam, wystarczy szybki rzut oka na wykres by zobaczyć “co w trawie piszczy”. Prawdopodobnie najważniejszy jest jednak fakt, że wykresy skrzynkowe wskazują na to czy w bazie danych występują obserwacje odstające czy nie. Wynik nietypowy, odstający od reszty, outlier czy nawet dewiant to nazwa obserwacji (najczęściej wyniku badanej osoby lub innego podmiotu badań), której rezultat może negatywnie wpłynąć na wyniki przeprowadzanych testów statystycznych. Dobrze jest mieć narzędzie, które jest detektorem takich przypadków (choć wykres skrzynkowy nie jest jedyny)
  • Zilustrowanie różnic między grupami lub między kolejnymi pomiarami
    Szczególnie w przypadku analiz statystycznych w naukach medycznych zdarza nam się ilustrować różnice między porównywanymi grupami lub kolejnymi pomiarami wykonanymi w różnych odstępach czasu, przy użyciu wykresu skrzynkowego. W medycynie, biotechnologii i im podobnych bardzo często wykonuje się po prostu testy nieparametryczne w celu potwierdzenia postawionych hipotez. Gdy wykonujemy testy nieparametryczne, które nie porównują przecież średnich arytmetycznych tylko inne miary, dobrze jest wykonać właśnie wykresy skrzynkowe zamiast standardowych wykresów słupkowych lub innych prezentujących średnie i przedziały ufności, odchylenia lub błędy standardowe. Wykresy skrzynkowe prezentują mediany i odchylenia od nich, a to bardzo dobry sposób ilustracji wyników uzyskanych w toku przeprowadzonych testów nieparametrycznych.

Zanim zaczniemy omawiać wykres skrzynkowy.

Przed omówieniem kolejnych elementów wykresu skrzynkowego najpierw dokonam małego wyjaśnienia dotyczącego zmiennej, którą będziemy dziś poddawać analizie. Mianowicie, będą to tak zwane paczkolata. Szczególnie w naukach medycznych, gdy pomagamy wykonać analizy statystyczne wraz z opisem do jakiejś publikacji naukowej napotykamy na taką właśnie zmienną. Oczywiście jeszcze zależy czego dotyczy samo badanie bo pomiar paczkolat to nie jest jakaś szczególna domena badań w medycynie jako ogółu. Chcąc sprawdzić czy palenie papierosów współwystępuje lub wpływa na jakieś inne zmienne najczęściej nie mierzy się ani samej liczby wypalanych papierosów w ciągu dnia, ani też samego stażu jako osoby palącej. Wylicza się tak zwaną liczbę paczkolat ze wzoru:

LICZBA WYPALANYCH PACZEK PAPIEROSÓW W CIĄGU DNIA x LICZBA LAT PALENIA

Paczkolata to po prostu iloczyn przeciętnej liczby papierosów wypalanych w ciągu 24 godzin wyrażonej w liczbie paczek pomnożona przez staż palacza w latach. Ta tabela powinna wszystko wyjaśnić i rozwiać ewentualne wątpliwości.

Osoba nr. Papierosy na dzień mierzone liczbą paczek Liczba lat palenia papierosów Paczkolata
1 1 40 40
2 1,5 10 15
3 0,5 2 1
4 0,2 6 1,2
5 1 7 7

Zmienna “paczkolata” mówi po prostu o nasileniu i stażu palenia jednocześnie.

 

WYKRES SKRZYNKOWY – spora paczka informacji statystycznych na jednym rysunku

Jak już wspominałem, wykres skrzynkowy niesie ze sobą sporo różnych informacji na temat rozkładu mierzonej zmiennej. Jest ich tak dużo, że omówię je teraz w podpunktach. Zanim przejdziemy jednak do analizowania wykresu skrzynkowego dla mierzonych przez nas paczkolat to przyjrzymy się po prostu jakiemuś hipotetycznemu rysunkowi.

Oto wykres skrzynkowy z opisanymi pięcioma najważniejszymi dla niego elementami. Jak widzisz, niektóre elementy mają te same oznaczenia literowe. Wynika to z tego, że wykres skrzynkowy jest wykresem symetrycznym z punktu widzenia jego poszczególnych elementów. Oczywiście zdarza się, że górny wąs jest dłuższy, a dolny krótszy. Czasami obserwacje odstające są tylko na górze, a czasami tylko na dole. W takim sensie wykres skrzynkowy może być bardzo asymetryczny.

 

A) Obserwacja ekstremalna (dolna lub górna) to jeden lub kilka wyników uzyskanych przez badane osoby, które spełniają taki warunek:

Górna wartość ekstremalna:

wynik badanego ≥ Q3 + IQR * 3

…czyli? Czyli gwiazdką oznaczony będzie każdy wynik, który jest większy ( > )niż rezultat dodania do wartości trzeciego kwartyla (Q3) wartości uzyskanej poprzez pomnożenie rozstępu kwartylowego (czyli inaczej rozstępu ćwiartkowego) i trójki (IQR * 3).

Dolna wartość ekstremalna:

wynik badanego ≤ Q1 – IQR * 3

Czyli gwiazdkę na dole wykresu zobaczymy, gdy jeden lub kilku badanych osób uzyska wynik interesującej nas zmiennej, który będzie niższy niż rezultat odejmowania iloczynu rozstępu ćwiartkowego i trójki od wartości pierwszego kwartyla.

Innymi słowy, obserwacja ekstremalna to taka, która jest oddalonona od skrzynki o jej 3 “długości” (3 razy wysokość skrzynki). W górę lub w dół

Mało z tego rozumiesz? Nie martw się. Zaraz przejdziemy do praktycznego przykładu dla mierzonych paczkolat i wszystko stanie się jasne!

B) Góry i dolny outlier czyli obserwacja odstająca to niemal to samo co obserwacja ekstremalna, ale spełniająca trochę inne kryterium.

Pamiętaj, że obserwacja ekstremalna też jest obserwacją odstającą. Też jest outlierem i to nawet jeszcze bardziej nietypowym!

Górny outlier:

wynik badanego ≥ Q3 + IQR * 1,5

 

Dolny outlier:

wynik badanego ≤ Q1 – IQR * 1,5

Jak widzisz, kryterium jest niemal takie samo, ale rozstęp ćwiartkowy mnożymy razy 1,5 a nie razy 3.

C) Najwyższy i najniższy wynik, który nie jest outlierem.

Jak sama nazwa wskazuje. Górny tak zwany “wąs” jest na wykresie zawsze na wysokości wartości uzyskanej przez osobę o najwyższym wyniku, ale takiej osoby, która nie jest obserwacją odstającą ani ekstremalną.

Dolny wąs kończy się zawsze na wartości najniższego wyniku, ale nie najniższego w całej bazie danych, tylko najniższego wyniku, który nie jest ani dolnym outlierem ani dolną obserwacją odstającą.

D) “Podłoga” i “sufit” skrzynki, czyli wartości zamykające skrzynkę z dołu i z góry to wyniki pierwszego kwartyla (Q1) i trzeciego kwartyla (Q3).

Pamiętaj, że pierwszy kwartyl to wartość 25% rozkładu wszystkich wyników a trzeci kwartyl to wynik 75% rozkładu wszystkich wyników. Więcej o kwartylach przeczytasz w naszym słowniczku statystycznym wyjaśniającym najważniejsze pojęcia. Tutaj: KWARTYLE

E) Pozioma linia wewnątrz skrzynki prezentuje wartość mediany, czyli drugiego kwartyla.

Mediana to wartość środkowa rozkładu mówiąca o tym, jaki wynik uzyskany w zakresie mierzonej przez nas zmiennej dzieli wszystkich badanych na (niemalże) dwie równe połowy. Więcej o medianie piszemy w słowniczku statystycznym. Tutaj: MEDIANA

 

Trzeci kwartyl minus pierwszy kwartyl czyli rozstęp ćwiartkowy

Jak zauważyliście, wspominałem już wyżej o czymś takim jak rozstęp międzykwartylowy, rozstęp ćwiartkowy lub w skrócie IQR. Jako, że wyrażenie logiczne pomocne w zdiagnozowaniu, czy ktoś jest outlierem, czy obserwacją ekstremalną, zawiera w sobie IQR. Należy w tym miejscu wyjaśnić co to oznacza i jak się to coś liczy. Skrót IQR pochodzi z angielskiego interquartile range. Tłumacząc dosłownie na język polski będzie to rozstęp międzykwartylowy, a tłumacząc trochę mniej dokładnie, ale poprawnie, będzie to rozstęp ćwiartkowy.

Rozstęp ten to po prostu różnica między wartością trzeciego a pierwszego kwartyla. Jeśli np. wartość pierwszego kwartyla wzrostu wszystkich studentów Uniwersytetu Jagiellońskiego wynosi 150 cm a wartość trzeciego kwartyla wynosi 183 cm to rozstęp międzykwartylowy wynosi 33 cm ponieważ 183 – 150 = 33.

 

W naszym pomiarze liczby paczkolat wyliczone kwartyle wyglądają następująco.

Czerwone strzałki prowadzają od wartości 3 kwartyla wyliczonego przy pomocy pakietu SPSS do “sufitu” wykresu skrzynkowego. Zielone strzałki to jego “podłoga”, którą stanowi pierwszy kwartyl. Mediana to środkowa wartość i jednocześnie wartość drugiego kwartyla bo przecież jeden kwartyl to 25% rozkładu wyników a 2 x 25% to 50% 🙂

Zauważ, że wartość mediany nie leży idealnie po środku skrzynki. Wcale nie musi! Położenie mediany w stosunku do pierwszego i trzeciego kwartyla mówi nam między innymi o tym jak bardzo asymetryczny jest nasz rozkład oraz o tym, czy jest to asymetria dodatnia (rozkład prawoskośny), czy ujemna (rozkład lewoskośny). Wyjaśnimy to jednak w innym wpisie na blogu.

Jak łatwo policzyć rozstęp ćwiartkowy paczkolat w naszej grupie badanych palaczy wynosi 13. Dlaczego? Ponieważ 33 (Q3 czyli kwartyl trzeci) minus 20 (Q1 czyli kwartyl pierwszy) = 13.

 

Rysujemy wykres skrzynkowy.

W celu narysowania wykresu skrzynkowego dla jednej analizowanej zmiennej klikamy na wykresy, a następnie na wykresy-tradycyjne i następnie na skrzynkowy. W poniższym oknie dialogowym, które się pojawi musimy wybrać typ wykresu “Prosty” oraz na dole zaznaczyć kropką “Podsumowanie oddzielnych zmiennych by ostatecznie kliknąć Definiuj.

menu-wykres

W kolejnym oknie dialogowym definiujemy dla jakiej zmiennej chcemy narysować wykres skrzynkowy. W naszym przypadku przenosimy tylko paczkolata z lewej strony na prawą do okna o tytule “Skrzynki przedstawiają” i naciskamy na OK

wykres-ostatnie-menu

 

Wiemy już, że mediana czyli drugi kwartyl wynosi 23 paczkolata i na tym poziomie widzimy środkową linię w środku skrzynki.

Pierwszy kwartyl wynosi 20 paczkolat i na tym poziomie znajduje się “podłoga” wykresu skrzynkowego. Z kolei “sufit” znajduje się na wysokości 33 paczkolat ponieważ tyle wynosi wartość trzeciego kwartyla rozkładu analizowanej zmiennej. Cóż jeszcze widzimy prócz samej skrzynki? Są wąsy, są kropki i są gwiazdki.

Żeby dowiedzieć się dlaczego dany respondent jest dolną albo górną kropką lub jedną z górnych gwiazdek, czy też jednym z wąsów, musimy wykonać kilka obliczeń.

Aha! Jeszcze jedno. Przy każdej gwiazdce i kropce widzisz cyfrę lub liczbę. Określa ona numer badanego w bazie danych. Łatwo go dzięki temu namierzyć i odfiltrować.

 

UWAGA! Gwiazdki i kropki są “podejrzanie” ponumerowane jedna po drugiej (po kolei). To nie przypadek. Po prostu przed narysowaniem wykresu posortowałem w bazie danych wyniki paczkolat od największych do najmniejszych. Zrobiłem to dla ułatwienia wykonania kolejnego rysunku. Najczęściej w Waszych badaniach zmienne nie będą posortowane i tym samym numeracja kropek i gwiazdek nie będzie “po kolei”.

 

Gwiazdki, kropki, wąsy, czyli co?

Zacznijmy od górnych obserwacji ekstremalnych czyli palaczy, których liczba paczkolat spełnia warunek, o którym pisałem już wyżej:

wynik palacza ≥ Q3 + 3 * IQR

Znamy już wartości kwartyli oraz rozstępu ćwiartkowego więc podstawiamy dane do wzoru:

Wynik palacza ≥ 33 + 3 * 13 —> Wynik palacza ≥ 33 + 39

… czyli wynik palacza większy od 72 lub równy tej wartości (rezultat dodawania 33 + 39) będzie uznawany za górną obserwację ekstremalną.

Dolną obserwację ekstremalną będą stanowili palacze, którzy spełnią warunek

Wynik palacza ≤ Q1 – 3 * IQR —> Wynik palacza ≤ 20 – 39 —> Wynik palacza ≤ -19

Jest to wynik niemożliwy do uzyskania ponieważ wynik paczkolat nie może być wartością ujemną. Podobnie jak np. wiek, czas reakcji lub waga jakiegoś przedmiotu. Mimo wszystko z teoretycznego punktu widzenia taki warunek musiałby spełnić palacz by zostać uznanym za dolną obserwację ekstremalną. Na pewno żaden osobnik w naszej bazie danych takiego warunku nie spełnia. Między innymi dlatego nie widzimy na dole wykresu jakiejkolwiek gwiazdki.

A teraz “klasyczne” obserwacje odstające, czyli kropki. Kryterium dla nich jest trochę bardziej liberalne zatem łatwiej jest zakwalifikować badaną osobę do grupy dewiantów. Z doświadczenia wiemy, że zbyt łatwo.

Górną kropkę dostrzeżemy jeśli jakiś badany palacz spełni poniższy warunek

Wynik palacza ≥ Q3 + 1,5 * IQR —> Wynik palacza ≥ 33 + 1,5 * 13 —> Wynik palacza ≥ 33 + 19,5

… czyli dany respondent będzie narysowany na wykresie jako górna kropka jeśli jego liczba paczkolat będzie wyższa niż 52,5 (wynik dodawania 33 + 19,5).

Widzimy 2 takie osoby. Pamiętaj jednak, że aby respondent był kropką to jego wynik nie może być wyższy niż 72 ponieważ wtedy stałby się gwiazdką – obserwacją ekstremalną.

Kropkę na dole wykresu zobaczymy jeśli jakiś palacz spełni taki warunek

Wynik palacza ≤ Q1 – 1,5 * IQR —> Wynik palacza ≤ 20 – 19,5

Innymi słowy, dolną obserwacją odstającą będzie palacz, który uzyskał wynik paczkolat mniejszy lub równy 0,5.

A co z wąsami?

No właśnie! Górny wąs jest na wysokości wyniku paczkolat, który jest w niecałej odległości 1,5 rozstępu ćwiartkowego od trzeciego kwartyla. Górny wąs wskazuje po prostu wynik maksymalny, który nie jest obserwacją odstającą.

Tam samo dolny wąs. Jego wartość pokazuje, jaki wynik paczkolat uzyskał palacz, który pali najmniej, ale nie spełnia warunku, który sprawiłby, że zostanie on zaklasyfikowany jako dolna obserwacja odstająca.

Proste, prawda? 🙂

 

Oto dowód na to, co napisałem w powyższych akapitach

wykres skrzynkowy z bazą

Na sam koniec. Ciekawostki na temat wykresu skrzynkowego.

  • Haniebnym byłoby nie wspomnieć kto jest pomysłodawcą tego wspaniałego wynalazku! Jest nim sam John Tukey. Tak, to ten od znanego testu post hoc (między innymi HSD Tukeya). Wymyślił wykres skrzynkowy w okolicach roku 1970, ale dopiero 7 lat później opublikował pierwszy artykuł z nim związany, co przyczyniło się do rozpowszechnienia tej metody graficznej ilustracji rozkładu zmiennej. Panie Janie – dziękujemy!
  • Omówiony wykres to tylko jeden z wielu możliwych wykresów skrzynkowych lub jego pochodnych. Więcej przeczytać można w świetnym (czyt. przystępnym dla nie-matematyków) artykule Hadleya Wickhama i Lisy Stryjewski (Stryjewskiej? 🙂 40 years of boxplots
  • To co my nazywamy “sufitem” czyli górną częścią skrzynki (Q3) oraz “podłogą” czyli dolną częścią skrzynki (Q1) inni nazywają często zawiasami (z ang. hinges)
  • Jeśli zmienna, dla której rysujecie wykres skrzynkowy ma rozkład zgodny z rozkładem normalnym to między górnym a dolnym wąsem powinno znajdować się w przybliżeniu 95% wszystkich obserwacji (źródło)

Analizy statystyczne bez tajemnic czyli “dziwne” wyniki analizy korelacji w podziale na podzbiory – cz. 2

W ostatnim wpisie pokazaliśmy Wam, że czasami analizy statystyczne ujawniają wyniki, które na pierwszy rzut oka wydają nam się błędne. SPSS raczej się nie myli więc ewentualny błąd może leżeć po naszej stronie. Wiesz już jednak, że rezultaty, które mogą wydawać się błędne są w zupełności prawdziwe i uzyskane w toku poprawnie wykonanych testów statystycznych. Trzeba tylko wiedzieć co się dzieje z danymi po dokonaniu pewnych operacji i dlaczego właśnie to może się z nimi dziać. Wtedy okiełznasz dane i nawet najbardziej nielogiczne rezultaty będą pod Twoją pełną kontrolą dzięki czemu poddasz je właściwej interpretacji i wyciągniesz poprawne wnioski. Pamiętaj, że pozbawiony logiki nie jest wynik testu, lecz Twoja jego interpretacja. Niniejszy wpis ma za zadanie ukazanie innej często spotykanej sytuacji w przypadku wykonywania analizy korelacji najpierw ogółem u wszystkich badanych łącznie, a następnie w podziale na dwie lub więcej grup.

Analiza korelacji nieistotna statystycznie – analiza korelacji istotna statystycznie. O co tutaj chodzi?

Ostatni wpis dotyczył sytuacji odwrotnej niż powyższy tytuł tego akapitu. Pokazaliśmy Wam, że czasami najpierw korelacja w całej badanej próbie występuje, a gdy analizy korelacji wykonamy w podziale na jakieś dwie grupy (np. oddzielnie u kobiet i mężczyzn) to związek przestaje być istotny statystycznie. Możliwe też jest zaobserwowanie odwrotnego zjawiska, zgodne z tytułem tego akapitu. Gdy wykonujemy analizę statystyczną dla ogółu badanych osób to współczynnik korelacji jest nieistotny statystycznie. Gdy dokonamy podziału na jakieś dwie grupy (lub więcej grup) to okazuje się, że korelacja między zmiennymi zachodzi … nawet w obu grupach jednocześnie! W takich przypadkach studenci również często pytają: Jak to możliwe? Koreluję ze sobą dwie zmienne. Związku nie ma. Nagle dzielimy bazę na dwie podgrupy, które “ładują” całą naszą bazę danych i okazuje się, że jednak w jednej i drugiej grupie związek jest istotny statystycznie. To dlaczego w obu grupach łącznie nie był? Czary? Wcale nie. Już pokazuję jak to możliwe.

Wyobraźmy sobie, że chcemy sprawdzić czy zachodzi istotny statystycznie związek między zarobkami (miesięczny dochód netto) a optymizmem (skala ogólnego optymizmu życiowego). Obie zmienne są mierzone na skali ilościowej i załóżmy, że mają niemalże idealny rozkład normalny. Oto wyniki przeprowadzonego testu.

wykres rozrzutu ogółem
wynik korelacji

         Współczynnik r Pearsona wynosi tylko 0,2 a istotność statystyczna czyli wartość p wynosi 0,067. Jest to wynik istotności bardzo bliski poziomu 0,05 i może być uznany za rezultat istotny na tak zwanym poziomie tendencji statystycznej, ale uznajmy, że jest on po prostu nieistotny, i że pojęcia “tendencja statystyczna” nie znamy lub jesteśmy przeciwnikami jego stosowania (a jest ich wielu :). Uzyskany rezultat wskazuje zatem na to, że brak jest związku liniowego między zarobkami a nasileniem optymizmu. Brak jest tym samym podstaw do stwierdzenia, że im więcej zarabiamy, tym bardziej optymistycznie jesteśmy nastawieni do świata. Widać to nawet na wykresie rozrzutu. Chmura punktów jest raczej nieregularna i naprawdę trudno dopatrzeć się tutaj jakiegoś liniowego związku. Jako badacze, którzy zakładali, że taki związek będzie dostrzegalny zapewne jesteśmy bardzo smutni i zrezygnowani.

Podział na podzbiory. Czy na pewno zarobki nie korelują z optymizmem?

        Nawet na poziomie studiów licencjackich, a tym bardziej magisterskich i doktoranckich, przeprowadzając badanie i analizując zebrane wyniki myślcie o sobie jako podróżnikach, odkrywcach lub poszukiwaczach. Myślisz, że prawdziwemu odkrywcy wystarczy odpowiedź “tu nic nie ma”? Zapewniam Cię, że nie. Jeśli masz zasoby i umiejętności to szukaj dalej. Wiesz zapewne, że wiele odkryć istotnych dla całej ludzkości było wynikiem przypadku lub pomyłki.

Okazuje się, ze w bazie danych mieliśmy jeszcze kilka innych zmiennych. Jedną z nich, która przykuła naszą uwagę, była informacja o tym, czy badany respondent posiada psa czy też nie. Bez chwili wahania dzielimy bazę danych na dwie grupy i analizę korelacji wykonujemy oddzielnie u osób, które posiadają psa i oddzielnie u tych, które psa nie posiadają. Oto uzyskane wyniki.

wykres rozrzutu w podziale
wynik korelacji w podziale

         Jak widzisz nie tylko w jednej grupie, ale w obu jednocześnie, zachodzi istotny statystycznie związek  między zarobkami a optymizmem. Co więcej, w jednej i drugiej grupie wartość wyliczonych współczynników korelacji r Pearsona wskazują na to, że związki mają umiarkowaną siłę. Współwystępowanie zarobków i optymizmu na charakter pozytywny (dodatni znak współczynnika korelacji), a co za tym idzie, im więcej zarabiamy tym większy jest nasz optymizm … lub im większy jest optymizm tym większe są nasze zarobki

Pamiętaj, że analiza korelacji nie uprawnia do wyciągania wniosków o tym co jest przyczyną a co skutkiem!

 

Jak to możliwe, że w całej grupie korelacja nie jest istotna, a za chwilę, także w całej grupie, ale podzielonej na dwie mniejsze grupki staje się ona istotna i jest w dodatku korelacją o średniej sile? Niestety odpowiedź może nie być dla Ciebie satysfakcjonująca. Po prostu tak jest. Podobnie jak w tym artykule, także tutaj sytuacją sprzyjającą występowaniu takiego zjawiska może być różnica między średnimi w zakresie jednej lub dwóch zmiennych, które ze sobą korelujemy. Teraz obserwujemy akurat zróżnicowanie tylko w zakresie ogólnego optymizmu życiowego (posiadacze psa są mniej optymistyczni niż osoby, które go nie posiadają). Jedna i druga grupa ma jednak bardzo zbliżony średni wyników miesięcznych dochodów. Tak jak podkreślamy to w tym wpisie, także tutaj pamiętaj koniecznie o tym, że różnice w średnich nie są przyczyną tego, że korelacja najpierw była nieistotna, a później stała się istotna w obu grupach oddzielnie. Jest to bardzo często sytuacja sprzyjająca. Jeśli porównasz sobie najpierw posiadaczy psa z osobami, które go nie posiadają pod względem optymizmu i dochodów (np. testem t Studenta dla prób niezależnych) to możesz po prostu przypuszczać, że skoro posiadanie psa różnicuje nasilenie obu tych zmiennych to jest szansa, że także “namiesza” nam ta zmienna w zakresie innych analiz, które przeprowadziliśmy lub mamy zamiar przeprowadzić.

PODKREŚLAM JEDNAK PONOWNIE – różnice w średnich między grupami, które rozbiły nam bazę danych na dwa podzbiory nie są przyczyną tego, że najpierw korelacja była nieistotna, a po podziale stała się istotna statystycznie w obu grupach.

         Kolejny przykład ma na celu pokazanie, że nawet kiedy obie grupy mają niemal identyczne średnie w zakresie obu zmiennych ilościowych, które korelujemy, to i tak możemy zaobserwować “dziwne” zachowanie współczynnika korelacji.

Odwrotne związki w obu grupach. Wstęp do analizy moderacji.

Niniejszy, ostatni przykład ma na celu pokazanie jak inaczej może zachować się współczynnik korelacji gdy dokonamy podziału na podzbiory przed jego policzeniem. Cały czas jednak trzymamy się sytuacji, w której najpierw u ogółu badanych osób związek liniowy nie występuje, a po podziale na dwa podzbiory nagle robi się istotny statystycznie. Nawet w dwóch grupach jednocześnie! Nawet bardzo silny!

Tym razem chcemy skorelować ze sobą samoocenę moralności (czyli to, jak pozytywnie uczestnicy badania oceniają swoją moralność) oraz nasilenie zewnętrznego umiejscowienia poczucia kontroli (czyli skłonność do uznania, że mniej zależy od nas samych niż od zewnętrznych czynników takich jak pogoda lub “ślepy los”).

W wyniku przeprowadzonej analizy korelacji z wykorzystaniem współczynnika r Pearsona okazało się, że obie analizowane zmienne nie są ze sobą skorelowane – r(67) = -0,05; p = 0,690. Oznacza to, że samoocena moralności oraz nasilenie zewnętrznego umiejscowienia poczucia kontroli nie współwystępują ze sobą. Tak wygląda wykres rozrzutu oraz tabela z wynikami, którą otrzymamy w pakiecie SPSS.

wykres dla korelacji
tabela korelacji SPSS

          W naszej bazie danych znajduje się jednak jeszcze wiele różnych zmiennych, a w tym kontynent, z którego pochodzą badani – Europa lub Azja. Jako osoby o niezwykle wysokim poziomie ciekawości poznawczej dzielimy naszą bazę danych na podzbiory i jeszcze raz wykonujemy obliczenia. Dzięki temu dowiemy się czy brak związku liniowego między dwiema analizowanymi zmiennymi dostrzegalny jest oddzielnie w jednej jak i drugiej grupie. Oto wyniki.

tabela korelacji w podziale SPSS
wykres do korelacji w podziale

Cóż się okazuje? Obserwujemy dwie, istotne statystycznie i całkiem silne korelacje, ale o odwrotnych znakach. Ujemny związek w Europie “zerował” się z dodatnim związkiem wśród mieszkańców Azji. Wzajemne “zwalczanie” się korelacji u ogółu badanych osób doprowadziło do tego, że właśnie bez podziału na dwie grupy korelacja nie występowała. Test wskazywał na zdecydowanie nieistotny statystycznie wynik i skłaniał nas do przyjęcia hipotezy zerowej. Okazuje się, że związek między samooceną moralności a nasileniem zewnętrznego umiejscowienia poczucia kontroli występuje, ale na jednym kontynencie w jednym kierunku, a na drugim kontynencie w innym kierunku. Przykład ten pokazuje, że obie grupy nie muszą wcale różnić się w zakresie dwóch mierzonych zmiennych ilościowych by dostrzegać “dziwne” wyniki analizy korelacji. Europejczycy mają bardzo zbliżone wyniki do Azjatów zarówno w przypadku jednej jak i drugiej zmiennej.

To co obserwujemy w tej chwili to klasyczny przykład efektu moderacji. O moderatorach i analizie moderacji będziemy mówili w innych postach i na pewno poświęcimy temu tematowi przynajmniej 2 tutoriale video. Teraz wspomnę tylko, że moderator to jakaś trzecia zmienna, która wpływa najczęściej na siłę lub kierunek związku między pierwszą a drugą zmienną. O efekcie moderacji możemy mówić np. gdy okaże się, że związek zachodzi w jednej grupie, a w drugiej nie zachodzi lub gdy mamy taką sytuację jak powyższa. W grupie Europejczyków korelacja ma znak ujemny natomiast w grupie Azjatów ma ona odwrotny, dodatni znak. Można uznać tym samym, że kontynent, z którego pochodzą badane osoby jest moderatorem relacji między samooceną moralności a wynikiem uzyskanym na skali zewnętrznego umiejscowienia poczucia kontroli. Zmienna będąca moderatorem wyjaśnia w jakich warunkach zaobserwować możemy poszukiwany efekt, a w jakich go nie zaobserwujemy lub będzie on odwrotny.

“Normalne” wyniki analizy korelacji w podziale na dwie grupy – podsumowanie

Zakładam, że do niedawna “dziwne” zachowanie się współczynników korelacji jest już teraz uznawane przez Was za zupełnie normalne. To nic dziwnego, i na pewno nie wynika to z popełnionego przez Was błędu, że korelacje u ogółu badanych osób są nieistotne statystycznie, a w podziale nagle stają się istotne na klasycznym poziomie p < 0,05.  To standardowa sytuacja, która powinna Was cieszyć. Dlaczego? Dlatego, że dostarcza Wam świetnego materiału do napisania ostatniego rozdziału pracy dyplomowej czy też artykułu naukowego – dyskusji wyników i podsumowania. Dyskusja wyników jest dużo ciekawsza i pisze się ją znacznie łatwiej, gdy w wyniku przeprowadzonych analiz statystycznych uzyskujemy tak interesujące rezultaty. Polecam tym samym drążyć dane do granic możliwości. Jeśli macie czas, chęci i umiejętności to starajcie się zawsze wycisnąć z danych tyle ile się da. Powodzenia!

Tutaj znajdziesz pierwszą część artykułu – CZĘŚĆ 1

Analizy statystyczne bez tajemnic czyli “dziwne” wyniki analizy korelacji w podziale na podzbiory – cz. 1

W jednym z wpisów w słowniczku wyjaśniamy czym dokładnie są analizy korelacji. Myślę, że nawet bez zaglądania do naszego słowniczka statystycznego większość z Was wie na czym one polegają, jak się je liczy w pakiecie SPSS oraz jak interpretuje się ich rezultaty. Analiza korelacji jest jedną z najpopularniejszych analiz statystycznych. Nie bez przyczyny. Wylicza się ją bardzo łatwo a jej wyniki są bardzo przystępne w odbiorze. Nie trudno zrozumieć rezultaty z niej płynące i jednocześnie łatwo je odnieść do teorii, na której opierają się nasze badania. Prawdopodobnie w większości badań z zakresu nauk społecznych wyliczano przynajmniej raz choćby jeden z najbardziej popularnych współczynników korelacji, z których korzysta 99% badaczy  – r Pearsona, rho Spearmana lub tau-b Kendalla. Nawet jeśli nie zostało to opisane w artykule naukowym czy też pracy dyplomowej to zapewne jakiś badacz choćby z czystej ciekawości sprawdził czy mierzone zmienne korelują ze sobą. Nawet gdy nie zakładały tego jego hipotezy.

Czasami pomimo tego, że analizy statystyczne w postaci analizy korelacji są stosunkowo mało skomplikowane to potrafią przysporzyć badaczom nie lada problemów interpretacyjnych. Przyczyn może być wiele, ale w tym wpisie zajmiemy się tylko sytuacją, w której raz wykonujemy analizy korelacji u ogółu badanych osób, a innym razem te same zmienne korelujemy ze sobą w podziale na dwie grupy (na przykład oddzielnie w grupie kobiet i mężczyzn).

Analiza korelacji. Krótkie przypomnienie

Jak zapewne większość z Was wie, analizy korelacji wykonuje się w celu zbadania związku liniowego między dwiema zmiennymi. Zmienne te muszą być mierzone na skali porządkowej lub ilościowej. Jeśli do czynienia mamy z dwiema zmiennymi ilościowymi o odpowiednich rozkładach to wyliczamy współczynnik korelacji r Pearsona. W przeciwnym wypadku (np. bardzo silnie skośne rozkłady, obecność wielu obserwacji odstających lub zmienne o charakterze porządkowym) wyliczamy najczęściej współczynnik rho Spearmana lub tau-b Kendalla. Dziś ograniczymy się tylko do zmiennych ilościowych, które spełniają wszelkie założenia wymagane do policzenia współczynnika r Pearsona. Inne współczynniki nas nie interesują.

wykres rozrzutu

           Powyższy rysunek prezentuje 3 różne wykresy rozrzutu będące ilustracją współwystępowania dwóch zmiennych ilościowych czyli korelacji między nimi. Rysunek A to ilustracja korelacji dodatniej. Niskie wyniki jednej zmiennej “idą w parze” z niskimi wynikami drugiej zmienne. Im wyższe wyniki uzyskuje się dla zmiennej nr 1 tym wyższe też wyniki obserwuje się w przypadku zmiennej nr 2. To jest właśnie korelacja dodatnia czyli pozytywny związek między zmiennymi. Gdy jedna zmienna rośnie to druga też rośnie lub gdy jedna maleje to druga też maleje. Wykres rozrzutu B ilustruje związek negatywny między dwiema zmiennymi. Im większe wyniki obserwuje się dla zmiennej nr 1 tym mniejsza dla zmiennej nr 2. Tym samym można też powiedzieć, że im niższe wyniki uzyskują badani w zakresie zmiennej nr 1 tym wyższe uzyskują wyniki w zakresie mierzonej zmiennej nr 2. Jest to korelacja negatywna, która polega na tym, że wartości zmieniają się przeciwstawnie do siebie. Jedna zmienna rośnie, a druga maleje lub gdy jedna maleje to druga rośnie. Ostatni wykres rozrzutu oznaczony literą C to ilustracja braku korelacji między zmiennymi. Widzimy na nim nieregularną chmurę punktów. Związek liniowy między zmiennymi nie występuje. Nic prostszego, prawda?  Korelacja może występować albo nie. Jeśli występuje to może być ona dodatnia lub ujemna. To wszystko.

Analizy korelacji w podziale na grupy, czyli doprecyzowanie wyników analiz statystycznych

Bardzo często po wykonaniu analizy korelacji w całej grupie chcemy sprawdzić też czy obserwowany związek jest taki sam gdy przetestujemy go w podgrupach. Zmienną demograficzną, która różnicuje niemal wszystko co obserwujemy w naturze jest płeć. Dlatego też w większości przypadków zalecamy przeprowadzenie pewnych analiz oddzielnie w grupie kobiet i oddzielnie w grupie mężczyzn.

Analiza korelacji istotna statystycznie – analiza korelacji nieistotna statystycznie. O co tutaj chodzi?

Wyobraź sobie, że korelujesz ze sobą ocenę relacji z rodziną badanych osób i ich ogólną jakość życia. Zakładasz, że im lepsze są relacje z rodziną tym wyższa jest ogólna jakość życia badanych osób. Spodziewasz się pozytywnej korelacji między zmiennymi. Tym samym im gorsze będą relacje z rodziną tym zapewne jakość życia też będzie niższa. Analiza statystyczna przeprowadzona. Okazuje się, że zmienne korelują ze sobą i faktycznie związek, który obserwujemy jest dodatni. Oto wykres rozrzutu, który go ilustruje.

analizy korelacji - ilustracja

          Między dwiema analizowanymi zmiennymi zachodzi istotny statystycznie związek o stosunkowo dużej sile. Pozytywny charakter tej relacji oznacza, że wraz ze wzrostem jednej zmiennej obserwuje się na wzrost wyników dla drugiej zmiennej.

           Wyobraź sobie, że korelujesz ze sobą ocenę relacji z rodziną badanych osób i ich ogólną jakość życia. Zakładasz, że im lepsze są relacje z rodziną tym wyższa jest ogólna jakość życia badanych osób. Spodziewasz się pozytywnej korelacji między zmiennymi. Tym samym im gorsze będą relacje z rodziną tym zapewne jakość życia też będzie niższa. Analiza statystyczna przeprowadzona. Okazuje się, że zmienne korelują ze sobą i faktycznie związek, który obserwujemy jest dodatni. Oto wykres rozrzutu, który go ilustruje. Poniżej znajduje się też tabela z pakietu SPSS, która prezentuje uzyskane wyniki.

korelacja tabela

             Jako, że jesteś bardzo dociekliwym badaczem, dzielisz bazę danych na podzbiory względem zmiennej “płeć”. Tym samym wszystkie dalsze analizy statystyczne wykonujesz oddzielnie w grupie kobiet i oddzielnie w grupie mężczyzn.  Ponownie liczysz współczynnik korelacji r Pearsona i oto wyniki, które uzyskujesz.

r Pearsona w podziale

              Cóż się okazuje? Uzyskane rezultaty pokazują, że związek między jakością relacji z rodziną a jakością życia nie występuje ani u kobiet ani u mężczyzn. Większość młodych badaczy, których doświadczenie w zakresie analizy statystycznej to ok 30 lub maks. 60 godzin kursu ze statystyki pyta “jak to możliwe”. Przecież poprzednia analiza (dla wszystkich badanych łącznie) mówi o tym, że związek występuje. Skoro występuje u wszystkich badanych łącznie to powinien występować także oddzielnie w grupie kobiet i oddzielnie w grupie mężczyzn, prawda? Ewentualnie w jednej grupie będzie on słabszy, a w drugiej będzie silniejszy. No dobra! Ewentualnie w jednej grupie ten związek będzie występował, a w drugiej nie. W jaki sposób korelacja, która występuje w całej badanej grupie nagle przestaje być istotna statystycznie gdy tą samą analizę statystyczną przeprowadzimy oddzielnie w grupie kobiet i mężczyzn? Przecież te obie grupy “budują” naszą całą bazę danych. Z takimi pytaniami spotykamy się bardzo często. Dlatego powstał ten wpis. Spójrz na poniższy wykres.

korelacja w podziale

                 Powyższy rysunek to ten sam wykres co poprzedni, ale poprosiliśmy SPSSa żeby w inny sposób oznaczył punkty w grupie kobiet, a inaczej punkty w grupie mężczyzn. Zauważ, że oddzielnie w jednym jak i drugim przypadku mamy do czynienia z nieregularną chmurą punktów. Tak, te dwie chmury w połączeniu wskazują na dodatni związek między analizowanymi zmiennymi (analiza korelacji dla wszystkich łącznie bez podziału na płeć). Gdy jednak analizujemy współwystępowanie obu zmiennych oddzielnie w grupie kobiet i oddzielnie w grupie mężczyzn to  widać, że punkty w “niebieskiej grupie” jak i punkty w “czerwonej grupie” są ułożone tak, że nie widać żadnego, dobrze znanego nam wzorca wskazującego na pozytywny lub negatywny związek między zmiennymi. Odpowiedź na wcześniejsze pytanie “jak to możliwe” to “właśnie tak jak pokazuje to powyższy rysunek”. Jeśli w swoim badaniu uzyskasz takie właśnie wyniki to nie myśl, że został przez Ciebie popełniony błąd. To normalna, choć stosunkowo rzadko występująca sytuacja.

Analizy statystyczne bez tajemnic, czyli dlaczego tak się dzieje i jak to zinterpretować?

Powody opisanego stanu rzeczy mogą być przynajmniej dwa. Występować mogą one jednocześnie jak i osobno.

Powód 1: Spadek mocy testu po podziale bazy danych na dwie mniejsze grupy.

Tak właśnie. Moc testu statystycznego czyli (w wielkim uproszczeniu) skłonność testu do wskazania wyniku istotnego statystycznie jest w dużej części uzależniona od liczby badanych osób. Korelacja wynosząca r = 0,24 może być nieistotna statystycznie w grupie 40 badanych osób, a taki sam wynik współczynnika r Pearsona będzie istotny statystycznie gdy przebadany 120 osób. Zauważ, że na początku (u ogółu badanych osób) analizy wykonywaliśmy na 62 uczestnikach badania. Dzieląc bazę danych na dwie mniejsze grupy (32 kobiety i 30 mężczyzn) spadła moc testu i tym samym bardziej prawdopodobne jest zaobserwowanie wyniku nieistotnego statystycznie w grupie kobiet i grupie mężczyzn gdy analizujemy je oddzielnie. Analizy korelacji, podobnie jak wszystkie inne, są w większości bardziej skłonne do pokazywania wyników istotnych statystycznie gdy przebadaliśmy bardzo dużo osób.

Powód 2: Różnice między grupami w zakresie mierzonych zmiennych.

Drugą przyczyną lub dokładniej, sytuacją sprzyjającą opisywanemu zjawisku, są różnice pod względem średnich wyników obu zmiennych ilościowych między dwiema grupami, które “rozbiły” naszą bazę danych. Po prostu kobiety różnią się od mężczyzn zarówno w zakresie oceny swoich relacji z rodziną jak i ogólnej jakości życia. Linie narysowane dla ułatwienia ilustrują to bardzo dobrze. Zauważ, że średni wynik mężczyzn w przypadku oceny relacji z rodziną jest niemal dwa razy większy od średniego wyniku obserwowanego w grupie kobiet. Podobne zróżnicowanie dostrzec można także w ogólnej ocenie jakości życia. Wykonany test t Studenta dla prób niezależnych potwierdza, że różnice te są istotne statystycznie na poziomie p < 0,001.

UWAGA UWAGA: różnice w średnich między grupami, które dzielą naszą bazę na podzbiory, to po prostu coś co sprzyja opisywanemu zjawisku. Możliwe, że średnie będą się różniły, a i tak korelacje będą istotne w obu podgrupach.

średnie w analizie korelacji

Pamiętaj, że Twoim celem jako badacza jest wyjaśnienie, czym spowodowana jest zmienność np. w zakresie ogólnej jakości życia.  Wiesz już, że jakość życia współwystępuje z jakością relacji z rodziną. Okazuje się też jednak, że ta jakość życia zależy od płci i to tak silnie, że związek tej zmiennej (ogólnej jakości życia) z jakością relacji z rodziną przestaje być związkiem istotnym. Można przekonać się o tym wykonując np. analizę regresji liniowej.

Analizy korelacji w podziale na dwie grupy, cz. I – podsumowanie

Niejedno z Was zada sobie w tym miejscu pytanie “jak zinterpretować ten wynik”? Wiemy już co wyszło z analiz. Wiemy też dlaczego mogliśmy uzyskać takie wyniki, i że to nic dziwnego. Jaka jest jednak ostateczna odpowiedź i co napisać w dyskusji wyników? Korelacja między jakością relacji z rodziną a ogólną jakością życia występuje czy nie? Odpowiedź brzmi: tak, występuje, ale gdy nie bierzemy pod uwagę płci badanych osób.  Faktycznie gdy nie posiadamy informacji o płci to możemy uznać, że zachodzi związek między jakością życia a jakością relacji z rodziną. Żyjemy jednak na planecie Ziemia i każda badana osoba ma przypisaną pewną płeć, którą znamy. W dyskusji wyników powinniśmy tym samym napisać dosłownie, że kontrolując zmienność badanych w zakresie płci związek między jakością życia a jakością relacji z rodzicami staje się nieistotny statystycznie. Dodatkowo należy wspomnieć o tym, że kobiety znacznie różniły się od mężczyzn zarówno w zakresie ogólnej oceny jakości swojego życia jak i oceny swoich relacji z rodziną.

Tutaj znajdziesz drugą część artykułu – CZĘŚĆ 2