Wykres skrzynkowy, pudełkowy, ramka – wąsy lub z angielskiego box plot. head

       Wiele nazw a wykres ten sam. My będziemy nazywali go wykresem skrzynkowym. Nie wiem czy nazwa ta jest najbardziej popularna czy nie. Na pewno jesteśmy do niej najbardziej przywiązani i to właśnie jej używamy w naszej codziennej pracy. W dzisiejszym poście chcemy omówić każdy element wykresu skrzynkowego, a jak się za chwilę okaże, jest on dosyć rozbudowany. Niesie on ze sobą wiele informacji, więc dobrze jest zrozumieć co przedstawiają.

            Po co rysujemy wykres i dlaczego akurat skrzynkowe? Niczego nowego przed Tobą nie odkryjemy ponieważ często inne rodzaje wykresów rysuje się w tym samym celu. Wykresy skrzynkowe rysujemy zazwyczaj z dwóch powodów.

  1. Eksploracja danych

                Z uwagi na wartość informacyjną wykresów skrzynkowych są one często wykorzystywane w pierwszym lub drugim kroku stosunkowo pobieżnej eksploracji danych, z którymi przyjdzie zmierzyć się analitykowi. Bez potrzeby przeglądania, czasami gigantycznych tabel z podstawowymi statystykami opisowymi, klikania tu, klikania tam, wystarczy szybki rzut oka na wykres by zobaczyć „co w trawie piszczy”. Prawdopodobnie najważniejszy jest jednak fakt, że wykresy skrzynkowe wskazują na to czy w bazie danych występują obserwacje odstające czy nie. Wynik nietypowy, odstający od reszty, outlier czy nawet dewiant to nazwa obserwacji (najczęściej wyniku badanej osoby lub innego podmiotu badań), której rezultat może negatywnie wpłynąć na wyniki przeprowadzanych testów statystycznych. Dobrze jest mieć narzędzie, które jest detektorem takich przypadków (choć wykres skrzynkowy nie jest jedyny)

  1. Zilustrowanie różnic między grupami lub między kolejnymi pomiarami

    Szczególnie w przypadku analiz statystycznych w naukach medycznych zdarza nam się ilustrować różnice między porównywanymi grupami lub kolejnymi pomiarami wykonanymi w różnych odstępach czasu, przy użyciu wykresu skrzynkowego. W medycynie, biotechnologii i im podobnych bardzo często wykonuje się po prostu testy nieparametryczne w celu potwierdzenia postawionych hipotez. Gdy wykonujemy testy nieparametryczne, które nie porównują przecież średnich arytmetycznych tylko inne miary, dobrze jest wykonać właśnie wykresy skrzynkowe zamiast standardowych wykresów słupkowych lub innych prezentujących średnie i przedziały ufności, odchylenia lub błędy standardowe. Wykresy skrzynkowe prezentują mediany i odchylenia od nich, a to bardzo dobry sposób ilustracji wyników uzyskanych w toku przeprowadzonych testów nieparametrycznych.

Zanim zaczniemy omawiać wykres skrzynkowy.

            Przed omówieniem kolejnych elementów wykresu skrzynkowego najpierw dokonam małego wyjaśnienia dotyczącego zmiennej, którą będziemy dziś poddawać analizie. Mianowicie, będą to tak zwane paczkolata. Szczególnie w naukach medycznych, gdy pomagamy wykonać analizy statystyczne wraz z opisem do jakiejś publikacji naukowej napotykamy na taką właśnie zmienną. Oczywiście jeszcze zależy czego dotyczy samo badanie bo pomiar paczkolat to nie jest jakaś szczególna domena badań w medycynie jako ogółu. Chcąc sprawdzić czy palenie papierosów współwystępuje lub wpływa na jakieś inne zmienne najczęściej nie mierzy się ani samej liczby wypalanych papierosów w ciągu dnia, ani też samego stażu jako osoby palącej. Wylicza się tak zwaną liczbę paczkolat ze wzoru:

LICZBA WYPALANYCH PACZEK PAPIEROSÓW W CIĄGU DNIA x LICZBA LAT PALENIA

Paczkolata to po prostu iloczyn przeciętnej liczby papierosów wypalanych w ciągu 24 godzin wyrażonej w liczbie paczek pomnożona przez staż palacza w latach. Ta tabela powinna wszystko wyjaśnić i rozwiać ewentualne wątpliwości.

Osoba nr.

Papierosy na dzień mierzone liczbą paczek Liczba lat palenia papierosów Paczkolata
1 1 40 40
2 1,5 10 15
3 0,5 2 1
4 0,2 6 1,2
5 1 7

7

Zmienna „paczkolata” mówi po prostu o nasileniu i stażu palenia jednocześnie.


WYKRES SKRZYNKOWY – spora paczka informacji statystycznych na jednym rysunku


          Jak już wspominałem, wykres skrzynkowy niesie ze sobą sporo różnych informacji na temat rozkładu mierzonej zmiennej. Jest ich tak dużo, że omówię je teraz w podpunktach. Zanim przejdziemy jednak do analizowania wykresu skrzynkowego dla mierzonych przez nas paczkolat to przyjrzymy się po prostu jakiemuś hipotetycznemu rysunkowi.

      Oto wykres skrzynkowy z opisanymi pięcioma najważniejszymi dla niego elementami. Jak widzisz, niektóre elementy mają te same oznaczenia literowe. Wynika to z tego, że wykres skrzynkowy jest wykresem symetrycznym z punktu widzenia jego poszczególnych elementów. Oczywiście zdarza się, że górny wąs jest dłuższy, a dolny krótszy. Czasami obserwacje odstające są tylko na górze, a czasami tylko na dole. W takim sensie wykres skrzynkowy może być bardzo asymetryczny.

A) Obserwacja ekstremalna (dolna lub górna) to jeden lub kilka wyników uzyskanych przez badane osoby, które spełniają taki warunek:

Górna wartość ekstremalna:

wynik badanego ≥ Q3 + IQR * 3

…czyli? Czyli gwiazdką oznaczony będzie każdy wynik, który jest większy ( > )niż rezultat dodania do wartości trzeciego kwartyla (Q3) wartości uzyskanej poprzez pomnożenie rozstępu kwartylowego (czyli inaczej rozstępu ćwiartkowego) i trójki (IQR * 3).

Dolna wartość ekstremalna:

wynik badanego ≤ Q1 – IQR * 3

Czyli gwiazdkę na dole wykresu zobaczymy, gdy jeden lub kilku badanych osób uzyska wynik interesującej nas zmiennej, który będzie niższy niż rezultat odejmowania iloczynu rozstępu ćwiartkowego i trójki od wartości pierwszego kwartyla.

Innymi słowy, obserwacja ekstremalna to taka, która jest oddalonona od skrzynki o jej 3 „długości” (3 razy wysokość skrzynki). W górę lub w dół

Mało z tego rozumiesz? Nie martw się. Zaraz przejdziemy do praktycznego przykładu dla mierzonych paczkolat i wszystko stanie się jasne!

B) Góry i dolny outlier czyli obserwacja odstająca to niemal to samo co obserwacja ekstremalna, ale spełniająca trochę inne kryterium.

Pamiętaj, że obserwacja ekstremalna też jest obserwacją odstającą. Też jest outlierem i to nawet jeszcze bardziej nietypowym!

Górny outlier:

wynik badanego ≥ Q3 + IQR * 1,5

Dolny outlier:

wynik badanego ≤ Q1 – IQR * 1,5

Jak widzisz, kryterium jest niemal takie samo, ale rozstęp ćwiartkowy mnożymy razy 1,5 a nie razy 3.

C) Najwyższy i najniższy wynik, który nie jest outlierem.

Jak sama nazwa wskazuje. Górny tak zwany „wąs” jest na wykresie zawsze na wysokości wartości uzyskanej przez osobę o najwyższym wyniku, ale takiej osoby, która nie jest obserwacją odstającą ani ekstremalną.

Dolny wąs kończy się zawsze na wartości najniższego wyniku, ale nie najniższego w całej bazie danych, tylko najniższego wyniku, który nie jest ani dolnym outlierem ani dolną obserwacją odstającą.

D) „Podłoga” i „sufit” skrzynki, czyli wartości zamykające skrzynkę z dołu i z góry to wyniki pierwszego kwartyla (Q1) i trzeciego kwartyla (Q3).

Pamiętaj, że pierwszy kwartyl to wartość 25% rozkładu wszystkich wyników a trzeci kwartyl to wynik 75% rozkładu wszystkich wyników. Więcej o kwartylach przeczytasz w naszym słowniczku statystycznym wyjaśniającym najważniejsze pojęcia. Tutaj: KWARTYLE

E) Pozioma linia wewnątrz skrzynki prezentuje wartość mediany, czyli drugiego kwartyla.

Mediana to wartość środkowa rozkładu mówiąca o tym, jaki wynik uzyskany w zakresie mierzonej przez nas zmiennej dzieli wszystkich badanych na (niemalże) dwie równe połowy. Więcej o medianie piszemy w słowniczku statystycznym. Tutaj: MEDIANA

Trzeci kwartyl minus pierwszy kwartyl czyli rozstęp ćwiartkowy.

Jak zauważyliście, wspominałem już wyżej o czymś takim jak rozstęp międzykwartylowy, rozstęp ćwiartkowy lub w skrócie IQR. Jako, że wyrażenie logiczne pomocne w zdiagnozowaniu, czy ktoś jest outlierem, czy obserwacją ekstremalną, zawiera w sobie IQR. Należy w tym miejscu wyjaśnić co to oznacza i jak się to coś liczy. Skrót IQR pochodzi z angielskiego interquartile range. Tłumacząc dosłownie na język polski będzie to rozstęp międzykwartylowy, a tłumacząc trochę mniej dokładnie, ale poprawnie, będzie to rozstęp ćwiartkowy. 

Rozstęp ten to po prostu różnica między wartością trzeciego a pierwszego kwartyla. Jeśli np. wartość pierwszego kwartyla wzrostu wszystkich studentów Uniwersytetu Jagiellońskiego wynosi 150 cm a wartość trzeciego kwartyla wynosi 183 cm to rozstęp międzykwartylowy wynosi 33 cm ponieważ 183 – 150 = 33.

W naszym pomiarze liczby paczkolat wyliczone kwartyle wyglądają następująco.

Czerwone strzałki prowadzają od wartości 3 kwartyla wyliczonego przy pomocy pakietu SPSS do „sufitu” wykresu skrzynkowego. Zielone strzałki to jego „podłoga”, którą stanowi pierwszy kwartyl. Mediana to środkowa wartość i jednocześnie wartość drugiego kwartyla bo przecież jeden kwartyl to 25% rozkładu wyników a 2 x 25% to 50% :)

Zauważ, że wartość mediany nie leży idealnie po środku skrzynki. Wcale nie musi! Położenie mediany w stosunku do pierwszego i trzeciego kwartyla mówi nam między innymi o tym jak bardzo asymetryczny jest nasz rozkład oraz o tym, czy jest to asymetria dodatnia (rozkład prawoskośny), czy ujemna (rozkład lewoskośny). Wyjaśnimy to jednak w innym wpisie na blogu.

Jak łatwo policzyć rozstęp ćwiartkowy paczkolat w naszej grupie badanych palaczy wynosi 13. Dlaczego? Ponieważ 33 (Q3 czyli kwartyl trzeci) minus 20 (Q1 czyli kwartyl pierwszy) = 13.

Rysujemy wykres skrzynkowy.

W celu narysowania wykresu skrzynkowego dla jednej analizowanej zmiennej klikamy na wykresy, a następnie na wykresy-tradycyjne i następnie na skrzynkowy. W poniższym oknie dialogowym, które się pojawi musimy wybrać typ wykresu „Prosty” oraz na dole zaznaczyć kropką „Podsumowanie oddzielnych zmiennych by ostatecznie kliknąć Definiuj.

menu-wykres

W kolejnym oknie dialogowym definiujemy dla jakiej zmiennej chcemy narysować wykres skrzynkowy. W naszym przypadku przenosimy tylko paczkolata z lewej strony na prawą do okna o tytule „Skrzynki przedstawiają” i naciskamy na OK

wykres-ostatnie-menu

Wiemy już, że mediana czyli drugi kwartyl wynosi 23 paczkolata i na tym poziomie widzimy środkową linię w środku skrzynki.

Pierwszy kwartyl wynosi 20 paczkolat i na tym poziomie znajduje się „podłoga” wykresu skrzynkowego. Z kolei „sufit” znajduje się na wysokości 33 paczkolat ponieważ tyle wynosi wartość trzeciego kwartyla rozkładu analizowanej zmiennej. Cóż jeszcze widzimy prócz samej skrzynki? Są wąsy, są kropki i są gwiazdki.

Żeby dowiedzieć się dlaczego dany respondent jest dolną albo górną kropką lub jedną z górnych gwiazdek, czy też jednym z wąsów, musimy wykonać kilka obliczeń.

Aha! Jeszcze jedno. Przy każdej gwiazdce i kropce widzisz cyfrę lub liczbę. Określa ona numer badanego w bazie danych. Łatwo go dzięki temu namierzyć i odfiltrować.

UWAGA! Gwiazdki i kropki są „podejrzanie” ponumerowane jedna po drugiej (po kolei). To nie przypadek. Po prostu przed narysowaniem wykresu posortowałem w bazie danych wyniki paczkolat od największych do najmniejszych. Zrobiłem to dla ułatwienia wykonania kolejnego rysunku. Najczęściej w Waszych badaniach zmienne nie będą posortowane i tym samym numeracja kropek i gwiazdek nie będzie „po kolei”. 

Gwiazdki, kropki, wąsy, czyli kto?

Zacznijmy od górnych obserwacji ekstremalnych czyli palaczy, których liczba paczkolat spełnia warunek, o którym pisałem już wyżej:

wynik palacza ≥ Q3 + 3 * IQR

Znamy już wartości kwartyli oraz rozstępu ćwiartkowego więc podstawiamy dane do wzoru:

Wynik palacza ≥ 33 + 3 * 13 —> Wynik palacza ≥ 33 + 39

… czyli wynik palacza większy od 72 lub równy tej wartości (rezultat dodawania 33 + 39) będzie uznawany za górną obserwację ekstremalną.

Dolną obserwację ekstremalną będą stanowili palacze, którzy spełnią warunek

Wynik palacza ≤ Q1 – 3 * IQR —> Wynik palacza ≤ 20 – 39 —> Wynik palacza ≤ -19

Jest to wynik niemożliwy do uzyskania ponieważ wynik paczkolat nie może być wartością ujemną. Podobnie jak np. wiek, czas reakcji lub waga jakiegoś przedmiotu. Mimo wszystko z teoretycznego punktu widzenia taki warunek musiałby spełnić palacz by zostać uznanym za dolną obserwację ekstremalną. Na pewno żaden osobnik w naszej bazie danych takiego warunku nie spełnia. Między innymi dlatego nie widzimy na dole wykresu jakiejkolwiek gwiazdki.

A teraz „klasyczne” obserwacje odstające, czyli kropki. Kryterium dla nich jest trochę bardziej liberalne zatem łatwiej jest zakwalifikować badaną osobę do grupy dewiantów. Z doświadczenia wiemy, że zbyt łatwo.

Górną kropkę dostrzeżemy jeśli jakiś badany palacz spełni poniższy warunek

Wynik palacza ≥ Q3 + 1,5 * IQR —> Wynik palacza ≥ 33 + 1,5 * 13 —> Wynik palacza ≥ 33 + 19,5

… czyli dany respondent będzie narysowany na wykresie jako górna kropka jeśli jego liczba paczkolat będzie wyższa niż 52,5 (wynik dodawania 33 + 19,5).

Widzimy 2 takie osoby. Pamiętaj jednak, że aby respondent był kropką to jego wynik nie może być wyższy niż 72 ponieważ wtedy stałby się gwiazdką – obserwacją ekstremalną.

Kropkę na dole wykresu zobaczymy jeśli jakiś palacz spełni taki warunek

Wynik palacza ≤ Q1 – 1,5 * IQR —> Wynik palacza ≤ 20 – 19,5

Innymi słowy, dolną obserwacją odstającą będzie palacz, który uzyskał wynik paczkolat mniejszy lub równy 0,5.

A co z wąsami?


biały-wykres

No właśnie! Górny wąs jest na wysokości wyniku paczkolat, który jest w niecałej odległości 1,5 rozstępu ćwiartkowego od trzeciego kwartyla. Górny wąs wskazuje po prostu wynik maksymalny, który nie jest obserwacją odstającą.

Tam samo dolny wąs. Jego wartość pokazuje, jaki wynik paczkolat uzyskał palacz, który pali najmniej, ale nie spełnia warunku, który sprawiłby, że zostanie on zaklasyfikowany jako dolna obserwacja odstająca.

Proste, prawda? :)

Oto dowód na to, co napisałem w powyższych akapitach

wykres skrzynkowy z bazą

Na sam koniec. Ciekawostki na temat wykresu skrzynkowego.

  • Haniebnym byłoby nie wspomnieć kto jest pomysłodawcą tego wspaniałego wynalazku! Jest nim sam John Tukey. Tak, to ten od znanego testu post hoc (między innymi HSD Tukeya). Wymyślił wykres skrzynkowy w okolicach roku 1970, ale dopiero 7 lat później opublikował pierwszy artykuł z nim związany, co przyczyniło się do rozpowszechnienia tej metody graficznej ilustracji rozkładu zmiennej. Panie Janie – dziękujemy!
  • Omówiony wykres to tylko jeden z wielu możliwych wykresów skrzynkowych lub jego pochodnych. Więcej przeczytać można w świetnym (czyt. przystępnym dla nie-matematyków) artykule Hadleya Wickhama i Lisy Stryjewski (Stryjewskiej? :) 40 years of boxplots
  • To co my nazywamy „sufitem” czyli górną częścią skrzynki (Q3) oraz „podłogą” czyli dolną częścią skrzynki (Q1) inni nazywają często zawiasami (z ang. hinges)
  • Jeśli zmienna, dla której rysujecie wykres skrzynkowy ma rozkład zgodny z rozkładem normalnym to między górnym a dolnym wąsem powinno znajdować się w przybliżeniu 95% wszystkich obserwacji (źródło)