fbpx

Słownik

START | EDUKACJA | SŁOWNIK | Statystyka opisowa

Statystyka opisowa

Statystyka opisowa – jedna z podstawowych dziedzin statystyki, która zajmuje się zbieraniem, organizacją, analizowaniem oraz prezentacją danych statystycznych w celu opisania oraz podsumowania ich charakterystyk. Warto pamiętać, że statystyki opisowe służą przede wszystkim zrozumiałemu i przystępnemu przedstawieniu danych. Statystyki opisowe oblicza się w różnych celach – z jednej strony to element podejścia eksploracyjnego do analizy danych, gdzie „po prostu przyglądamy się strukturze danych” (choć to działanie również może mieć kilka celów), a z drugiej strony jest to niezbędny element niektórych procedur statystycznych, np. analizy hipotez w oparciu o testy statystyczne.

Rozwijając ten temat, poniżej opisujemy konkretne zastosowania statystyki opisowej:

1. Eksploracja i organizacja danych – analiza statystyk opisowych pozwala nam zorientować się w strukturze danych, m. in. wykryć braki informacyjne (braki danych) lub chociażby proste błędy w kodowaniu, które mogą mieć wpływ na wyniki planowanych analiz. Jest to ważny krok, który pozwala nam na dokonać korekty danych jeszcze przed analizą właściwą, bez której ta dałaby zasadniczo błędne wyniki. Przykładowo, możemy wykryć, że część odpowiedzi w danym pytaniu wynosi 11, chociaż wiemy że zakres wyników wynosi realnie 1-5. Sytuacja ta może być wynikiem np. błędu przy wpisywaniu lub kodowaniu danych.

2. Identyfikacja wzorców i tendencji – statystyki opisowe niemal każdorazowo wykorzystujemy do wyszukiwania wzorców w naszych danych. Te możemy wyrazić w postaci liczbowej, takich jak miary tendencji centralnej (np. średnia, mediana) oraz miary rozproszenia danych (np. odchylenie standardowe, kwartyle), a informacje te wykorzystać do pozyskania wielu cennych informacji. Przykładowo, informacja o tym że mediana wynosi 8 w sytuacji zastosowania skali 1-10 może być cenna w procesie tworzenia testu do pomiaru jakiejś cechy, gdyż wskazuje na ew. konieczność zmiany skali na mniej stronniczą. Drugi przykład – analizując średnią i odchylenie standardowe dla wieku badanych, możemy określić na ile struktura wieku w naszej próbie była podobna do tej w badaniach prowadzonych przez innych autorów. To pozwala wyciągnąć cenne wnioski w kontekście tworzenia dyskusji wyników (np. dany efekt może mieć różną siłę w zależności od wieku badanych).

3. Tworzenie tabel dla zmiennych – bardzo często statystyki opisowe raportuje się zbiorczo w postaci tabel, które pozwalają zgrabnie ująć wszystkie najważniejsze informacje dotyczące danej analizy. Sposób raportowania zależy od celu analizy. Z jednej strony, statystyki opisowe raportuje się często jako element eksploracji danych oraz diagnozy normalności rozkładu. Przykład takiej tabeli w standardzie APA7 stworzony przez nas znajdziecie tutaj. Z drugiej strony, raportowanie statystyk opisowych można uznać za część procedury weryfikacji hipotez w oparciu o testy statystyczne. Przykładowo dla testu t Studenta i analizy wariancji istotne jest raportowanie średniej i odchylenia standardowego. Z kolei mediana oraz rozstęp ćwiartkowy (IQR) zarezerwowane są dla testów w nieparametrycznych, jak test U Manna-Whitney’a lub H Kruskala-Wallisa.

4. Wizualizacja danych – jest to alternatywne do tabelarycznego podejście podsumowywania danych. Tabele sprawdzają się w przypadku potrzeby dokładnego zaraportowania wartości różnych statystyk. Bywają jednak nieczytelne w przypadku dużych zbiorów danych. Tutaj przydatne stają się właśnie metody graficzne, które pozwalają przyciągnąć uwagę czytelnika i zaprezentować informacje w prostszy sposób. Innymi słowy, wykresy najlepiej stosować dla naszych najciekawszych odkryć! Metody graficzne są bardzo zróżnicowane, poniżej przedstawiamy kilka z nich:

  • Histogram – niezmiernie pomocny w przypadku oceny kształtu rozkładu, np. wykrywaniu obserwacji odstających oraz weryfikacji założenia o rozkładzie normalnym. Przykładem jego zastosowania jest wsparcie dla analizy testów normalności rozkładu (np. testu Shapiro-Wilka), dla których wiarygodność wyników jest uzależniona od liczebności próby. Ułatwieniem jest to, że programy statystyczne zazwyczaj mają ułatwiającą w ocenie funkcję rysowania krzywej normalnej na histogramie.
  • Wykresy słupkowe – bardzo popularna metoda obrazowania danych obecna w wielu podstawowych pakietach statystycznych. Pozwala zarówno przedstawić wyniki wstępnej eksploracji danych (np. częstość i wartość procentowa dla danych wartości zmiennej) jak i zobrazować wyniki testów statystycznych, głównie w przypadku testów parametrycznych (np. t Studenta). W tej drugiej sytuacji przedstawia się wartości średnie dla poszczególnych grup, zwykle dodając też jakieś słupki błędu (np. przedział ufności).
  • Wykresy kołowe – często niedoceniane twory graficzne, których zasadniczym celem jest proste i szybkie zobrazowanie „udziału” jakiejś podgrupy w całości. Wykres ten nadaje się do obrazowania charakterystyki próby dla zmiennych nominalnych o niewielkiej liczbie kategorii, jak płeć lub miejsce zamieszkania. Nie ma sensu stosować go w pytaniach wielokrotnego wyboru lub pytaniach mających więcej niż 5-7 odpowiedzi, gdyż może to utrudniać jego czytelność.
  • Wykresy skrzynkowe – jest to przykład wykresu pełnego informacji na temat mierzonej zmiennej, można go traktować jako alternatywę dla wykresu słupkowego, gdyż opiera się nie na średniej i odchyleniu, a medianie i kwartylach. Ważnym dla praktyki statystycznej zastosowaniem tego wykresu jest łatwość wykrywania obserwacji odstających, które mogą znacząco wpływać na analizy parametryczne. Często wykorzystuje się go również w przypadku raportowania wyników dla testów nieparametrycznych (np. Manna-Whitneya)

5. Proste porównania grup – czasem celem naszej pracy nie jest weryfikacji hipotezy badawczej, a jedynie prostej oceny, np. efektów pracy dwóch grup pracujących w jednej organizacji lub też uczniów tej samej szkoły. W takiej sytuacji wystarczy prosta analiza statystyk opisowych. Należy jednak pamiętać, że wyniki takiej analizy nie mogą być uogólniane na całą populację, gdyż wtedy wkraczamy w obszar testowania hipotez i oceny prawdopodobieństwa. Wykorzystanie statystyk opisowych w ocenie kwartalnych wyników, może ocalić (lub nie) niejedną posadę.

6. Tworzenie hipotez – przegląd danych z wykorzystaniem statystyk opisowych często pozwala nam na wygenerowanie dodatkowych hipotez do naszych badań. Przykładowo poprzez obserwację iż jakaś zmienna np. długość czasu pracy, wiąże się z efektywnością pracy oraz motywacją do pracy, możemy dojść do prostego wniosku, iż czas pracy może pośredniczyć w związku między motywacją a efektywnością. To może być punktem wyjścia do postawienia hipotezy, która może być potem przetestowana za pomocą testu statystycznego.

 

Podsumowując, statystyka opisowa jest niezwykle ważną gałęzią statystyki, która posiada kilka zastosowań, jak: łatwość organizacji, selekcji i korekty danych, wstępną ocenę jakości danych, podsumowanie i wizualizacja danych, generowanie dodatkowych hipotez lub podejmowanie decyzji biznesowych. To wszystko można osiągnąć przy odpowiednim zgłębieniu poszczególnych zagadnień związanych ze statystyką opisową, która stanowi ważny krok do bardziej zaawansowanych analiz statystycznych.

COFNIJ

wróć do spisu wszystkich pojęć

Podziel się wiedzą

z innymi

Opinie Klientów

Co o nas sądzą?

Współpracowaliśmy

między innymi z:

Nasi partnerzy