Badania ankietowe są często stosowane w badaniach do prac magisterskich. Wykorzystujecie w nich kwestionariusze standaryzowane czyjegoś autorstwa (głównie studenci psychologii) lub kwestionariusze własnego autorstwa (studenci pozostałych kierunków jak pedagogika, pielęgniarstwo, dietetyka czy też socjologia). Często też zdarzają się “badania-hybrydy”, w których korzystacie z jakiegoś swojego, krótkiego narzędzia badawczego oraz 1, 2 lub 3 dobrych, rzetelnych i trafnych wystandaryzowanych kwestionariuszy. W niniejszym wpisie opiszemy kilka podstawowych możliwości analizy danych pochodzących z wykorzystanego narzędzia badawczego (kwestionariusza) własnego autorstwa, które nie zostało zbudowane przez specjalistę z zakresu psychometrii lub doświadczonego badacza tylko zapewne przez Ciebie – studenta ostatniego roku, który nie ma należytego doświadczenia i wiedzy w sferze metodologii badań naukowych oraz tworzenia rzetelnych i trafnych kwestionariuszy.

Bardzo często kwestionariusze ankiety, które przygotowujcie są dosyć rozbudowane i zawierają np. 25-35 pytań. W sytuacji, gdy stawiacie 10-30 hipotez o związku “każdego pytania z każdym” może okazać się, że owszem da się to wszystko sprawdzić, ale za “milion złotych”, w raporcie na 80 stron, którego stworzenie zajmie nam miesiąc pracy – a to nie powinno tak wyglądać. W pracy naukowej (czyli już licencjacie czy pracy magisterskiej) dobra analiza statystyczna nie polega na tym żeby zrobić ile się da a jedynie to co jest niezbędne z punktu widzenia postawionych hipotez lub pytań badawczych. Oczywiście są projekty, w których dokonuje się bardzo głebokiej eksploracji, ale sam znajdź w internecie 10 artykułów naukowych i zobacz ile stron zajmuje sekcja “Results” – najczęściej nie więcej niż 3-9 stron. Żeby natomiast analiza statystyczna była krótka, ale wyczerpująca, dogłębna, ale konkretna dobrze jest pomyśleć przed stworzeniem kwestionariusza, w jaki sposób będą analizowane dane, które dzięki niemu pozyskacie. Jeśli tego nie wiecie to skonsultujcie to koniecznie ze statystykiem, któremu powierzycie wyniki swoich badań. Dobre firmy nie odmówią Wam krótkich i darmowych konsultacji.

Niestety, tak jak w przypadku badań psychologicznych z wykorzystaniem wystandaryzowanych narzędzi badawczych zazwyczaj jasne jest, jakie analizy trzeba przeprowadzić (wiemy to często z samej konstrukcji badania, nawet bez znajomości hipotez), tak w przypadku badań ankietowych z narzędziami własnego autorstwa jest dokładnie odwrotnie. Dane z takiego badania można przeanalizować na różne sposoby. Niestety często rozdziały metodologiczne, które otrzymujemy są napisane błędnie i na ich podstawie nie potrafimy określić, co ma zostać wykonane. Dlatego w tym wpisie omówię trzy podstawowe sposoby analizy danych ankietowych i odpowiadające im hipotetyczne pytania badawcze.

Wcielimy się dziś w pielęgniarkę, która pisze pracę na bardzo ważny temat – wiedzy i opinii pielęgniarek na temat przeszczepiania narządów zmarłych. W celu realizacji celu badania przeprowadziła ona ankietę z wykorzystaniem kwestionariusza własnego autorstwa składającego się z trzech części:

– 5 pytań dotyczących wiedzy na temat przeszczepiania narządów

– 4 pytań dotyczących opinii na powyższy temat

– 4 pytań dotyczących tzw. metryczki (wiek, płeć, miejsce zamieszkania i wykształcenie).

W takim badaniu, mamy możliwość wykonania analizy między innymi na trzy podstawowe sposoby. Co więcej, to postawione pytania badawcze powinny wskazywać na rodzaj analizy, która ma zostać wykonana. Możemy postawić trzy rodzaje pytań badawczych:

1. Pytanie o rozkład odpowiedzi – np. jak przedstawia się opinia lub rozkład odpowiedzi na pytania dotyczące wiedzy 

2. Pytanie o relacje między zmiennymi (to jaki test wykonamy zależy od tego jaki wskaźnik stworzymy. O tym piszemy niżej.)

a) test niezależności chi kwadrat – np. czy istnieje zależność/związek między miejscem zamieszkania czy płcią, a opinią czy wiedzą nt. przeszczepiania narządów

b) analiza korelacji – czy istnieje korelacja między wykształceniem, a poziomem wiedzy na temat transplantacji narządów 

3. Testy istotności różnic – czy istnieje różnica pomiędzy grupami w zakresie poziomu wiedzy na temat przeszczepów od osób zmarłych

Ad 1. Pytanie o rozkład odpowiedzi

Jest to tzw. analiza częstości i polega ona na przedstawieniu rozkładów odpowiedzi na poszczególne pytania z ankiety w tabeli i/lub na wykresie wraz z opisem. Często zdarza się, że analiza statystyczna do magisterki opiera się właśnie o analizę częstości całej ankiety, a czasami jest ona jedynie uzupełnieniem analizy głównej, opartej na testach zależności/korelacji czy istotności różnic.

Przykładowa analiza częstości:

Na pytanie o warunki które muszą być spełnione do pobrania narządów zmarłego, większość badanych (42,9%) prawidłowo wskazała, że w tym celu potrzebna jest “zgoda domniemana”. Pozostałe osoby zaznaczyły jedną z błędnych odpowiedzi, z czego najwięcej (28,6%) odpowiedź, że do tego celu potrzebna jest zgodna rodziny zmarłego (tabela 1).

Tabela 1

Rozkład odpowiedzi na pytanie o warunki które muszą być spełnione do pobrania narządów zmarłego

Aby można było pobrać narządy od zmarłego, konieczna jest

n

%

zgoda osoby zmarłej, wyrażona na piśmie

5

7,1%

zgoda rodziny zmarłego

20

28,6%

“zgoda domniemana”, czyli brak sprzeciwu wyrażonego za życia

30

42,9%

żadna forma zgody nie jest wymagana

15

21,4%

Ogółem

70

100%

Mimo, iż niektóre analizy do prac dyplomowych opierają się tylko o analizę częstości, powiedzmy sobie jasno – nie jest ona “analizą statystyczną” o której była mowa na zajęciach podczas studiów lub na seminarium z promotorem – nie testujemy w niej w sposób matematyczny żadnych związków czy zależności. Nie sprawdzamy czegokolwiek, co pozwalałoby powiedzieć coś znaczącego o jakiejś populacji. Nie dokonujemy tzw. wnioskowania statystycznego czyli strategii analizy danych, która pozwala przełożyć wyniki uzyskane w pewnej małej grupie na całą populację.

Co więcej, analiza taka jest problematyczna w interpretacji. Czy 43% osób, które zaznaczyło poprawną odpowiedź, to dużo czy mało? Czy wiedza pielęgniarek w tym zakresie jest duża lub wystarczająca? Nie wiadomo – nie mamy żadnego punktu odniesienia. Są pytanie trudne i łatwe, takie na które odpowiedź zna 80% populacji, ale też takie, na które odpowiedź zna niewiele pielęgniarek i wynik wskazujący na 20% poprawnych odpowiedzi to już wielkie “WOW”. W takim wypadku, ciężko określić też co jest celem takiego badania.  

Bardzo często celem badań ankietowych jest “określenie poziomu wiedzy X na temat Y” i podobnie skonstruowane są też pytania badawcze. Czy istnieje jednak możliwość udzielenia na nie odpowiedzi, jeśli w ankiecie mamy 10 pytań i na każde z nich odpowiedział poprawnie różny odsetek osób? Tak, to pytanie retoryczne :) Unikajcie zwykłej analizy częstości bo jeśli to jedyny sposób opracowania wyników Waszych badań to jednak jest on niegodny tytułu magistra lub nawet licencjata. I to nie jest nasze zdanie a Waszych promotorów (tych, którzy ogarniają statystykę i metodologię trochę lepiej niż gorzej). Cytując jednego z nich, który od swojej studentki dostał właśnie tylko analizę częstości w formie tabel jak wyżej, wykres kołowy i opis jak wyżej: 

PROCENTY TO NIE STATYSTYKA!!!

Unikajcie tym samym stawiania hipotez o treści:

H1: Wiedza rodziców na temat szczepień jest wystarczająca

H2: Pacjenci odczuwają silny ból

H3: Pielęgniarki są wypalone zawodowo

H4: Wynagrodzenie księgowych w Płocku jest na niskim poziomie

H5: Badani uważają, że czerwone rower są ładne

Analizę częstości możemy “podrasować” i uzupełnić o test zgodności rozkładu chi kwadrat – sprawdza on czy rozkład odpowiedzi na dane pytanie różni się od rozkładu losowego. Innymi słowy i w uproszczeniu – czy jakaś odpowiedź była zaznaczana przez badanych wyraźnie częściej/rzadziej niż pozostałe. Dzięki temu testowi możemy sprawdzić czy np. jedna z odpowiedzi nie pojawiała się istotnie statystycznie częściej od pozostałych. Taka analiza najczęściej nie wnosi zbyt wielu ważnych i rzetelnych informacji a tym samym napisanie dyskusji wyników i wyciągnięcie z nich wniosków graniczy z cudem.

Po lewej widzimy bowiem, że w częstotliwości pojawiania się poszczególnych 4 odpowiedzi występują istotne statystycznie różnice. Poprawna odpowiedź nr 3 była zaznaczana najczęściej, a jedna z błędnych odpowiedzi (nr 1) najrzadziej. Cóż jednak z tego skoro sumując wszystkie błędne odpowiedzi było ich więcej niż poprawnych (30 poprawnych i 40 błędnych). Oczywiście można zrobić dwie kategorie (błędne vs poprawne), ale nadal taka analiza to coś pod czym nie podpisze się żaden dobry badacz.  W dużej mierze dlatego, że ten tzw. dobry badacz nie interesuje się tym jak odpowiadali badani tylko DLACZEGO TAK ODPOWIADALI – od czego zależy to, że jedna pielęgniarka zaznaczy odpowiedź poprawną a inna błędną?

Ad 2. Pytania o relacje między zmiennymi (pojedynczymi pytaniami z

kwestionariusza, które zakodowane są na skali nominalnej/porządkowej)

W tego rodzaju analizie sprawdzamy czy natężenie mierzonego zjawiska (np. poziom wiedzy, ale mierzony pojedynczymi pytaniami z osobna) zależy od jakiegoś czynnika (np. płci, wykształcenia lub stażu pracy). Krótko mówiąc – czy odpowiedzi na jedno pytanie (lub pytania), zależą od odpowiedzi na inne pytanie. Na przykład możemy sprawdzić czy stosunek badanych pielęgniarek do zjawiska przeszczepiania narządów od osób zmarłych jest skorelowane (w uproszczeniu powiedzmy “uzależnione od”) z ich stażem pracy.

W praktyce, w badaniach ankietowych możemy podjąć dwa różne działania badające związki między zmiennymi. Pierwszą z nich (A) jest przeanalizowanie zależność między odpowiedziami na pytania z ankiety (wyrażonymi na skali nominalnej lub porządkowej) w tzw. tabeli krzyżowej wykonując jednocześnie test chi kwadrat. Drugą z nich (B) jest stworzenie ilościowego wskaźnika wiedzy i wykonanie analizy korelacji (najczęściej Pearsona, Spearmana albo Kendalla), ale oczywiście jeśli taki wskaźnik ilościowy będziemy odnosić/korelować z inną zmienną ilościową lub porządkową.

a) test niezależności chi kwadrat

W tym wariancie sprawdzamy czy rozkład odpowiedzi na jakieś pytanie zależy od jakiejś innej zmiennej (innego pytania z kwestionariusza). Tak jak wspomniałem, oba pytania muszą być wyrażone na skali nominalnej (ew. porządkowej).

Analizę zależności wykonujemy w formie tzw. tabel krzyżowych, w których w poszczególnych kolumnach przedstawiamy rozkłady odpowiedzi dla poszczególnych wyodrębnionych grup. Do tego wykonujemy testy niezależności chi kwadrat (to inny test niż test zgodności chi kwadrat opisany powyżej), które pokazują czy istnieje istotna statystycznie (czyli zapewne nieprzypadkowa) zależność/związek pomiędzy rozkładami odpowiedzi na oba pytania. W naszym przykładzie sprawdzać będziemy czy poziom wiedzy zależy od stażu pracy.

Przykład analizy zależności:

Sprawdzono czy nastawienie do zostania dawcą organów po śmierci zależy od miejsca zamieszkania badanych osób. W tym celu przeprowadzono analizę z wykorzystaniem testu chi kwadrat niezależności. Wynik testu chi kwadrat okazał się istotny statystycznie  – chi kwadrat(1) = 5,58; p = 0,018 co oznacza, że istnieje zależność pomiędzy nastawieniem do zostania dawcą organów, a miejscem zamieszkania. Okazuje się, że osoby z miasta częściej wykazywały wolę zostania dawcami organów po śmierci (60,6%) niż osoby zamieszkujące tereny wiejskie (32,4%) (tabela 2).

Tabela 2

Związek między motywacją do zostania dawcą organów po śmierci a wielkością miejsca zamieszkania

Czy chce Pan/ Pani w przypadku wystąpienia własnej śmierci zostać dawcą narządów?

Miasto

Wieś
n % n %

Tak

20 60,6% 12 32,4%

Nie

13 39,4% 25 67,6%

Ogółem

33

100%

37 100%

W praktyce, często badania ankietowe są oparte głównie lub w całości o analizy w tabelach krzyżowych. Jest kilka sposobów wykonania tej analizy:

sprawdzamy czy rozkład odpowiedzi na pytania z ankiety dotyczącej interesującego nas tematu zależy od jednej, wybranej zmiennej socjodemograficznej; w naszym przypadku, moglibyśmy sprawdzić czy rozkład opinii na temat transplantacji narządów zależy od miejsca zamieszkania badanych (miasto vs wieś)
testujemy czy rozkład jednych odpowiedzi zależy od rozkładu odpowiedzi na pytanie związane z przedmiotem badania – w naszym przypadku moglibyśmy sprawdzić np. czy rozkład na pytania dotyczące wiedzy na temat transplantacji zależy od tego czy badany sam chciałbym zostać dawcą
układ mieszany – testujemy różne zależności, np. zależność między pytaniem 2 i 4, oraz 3 i 7, a także 12 a 4, 5 i 6; takie rozwiązanie ma sens przy przemyślanych ankietach, z których chcemy wydobyć interesujące Cię wyniki.

Analizę zależność wykonujemy raczej dla pytań jednokrotnego wyboru. Tylko w ten sposób możemy sprawdzić zależności całych rozkładów odpowiedzi. W przypadku gdy jedno z pytań jest wielokrotnego wyboru, należy wykonać test chi kwadrat dla każdej odpowiedzi z ankiety z osobna, sprawdzając czy fakt zaznaczenia danej opcji zależy od odpowiedzi na inne pytanie. W takim wypadku wyciąganie wniosków może być jednak problematyczne.

Polecamy unikać pytań wielokrotnego wyboru!

Należy również pamiętać, że w przypadku pytań dotyczących wiedzy, jeśli chcemy rzeczywiście sprawdzić rozkład odpowiedzi pomiędzy posiadaną wiedzą, a drugą zmienną, musimy najpierw zrekodować odpowiedzi poprzez scalenie w jedną kategorię wszystkich odpowiedzi poprawnych i niepoprawnych.

Przykładowo, jeśli weźmiemy pytanie drugie z ankiety dotyczące kryteriów istnienia śmierci mózgu:

Śmierć mózgu orzekana jest na podstawie:

  1. rezonansu magnetycznego
  2. badania neurologicznego
  3. dwukrotnego badania neurologicznego i w przypadku wątpliwości badania obrazowego
  4. nie wiem

Nie możemy wykonać testu niezależności dla tych odpowiedzi – tzn. możemy, ale to niewiele powie nam o wiedzy badanych! Przykładowo, może się okazać, że w obu grupach odsetek osób, które udzieliły poprawnej odpowiedzi jest taki sam. Mimo tego wynik testu chi kwadrat jest istotny statystycznie, wskazując na występowanie zależności, podczas gdy rozkłady mogą się różnić jedynie rozkładem udzielenia odpowiedzi niepoprawnych! Dlatego w takim wypadku, należy zsumować wszystkie niepoprawne odpowiedzi w jedną kategorię i porównać rozkłady odpowiedzi poprawnych do niepoprawnych. Pamiętajmy, że w niektórych ankietach może być więcej niż jedna poprawna odpowiedź. Wtedy musimy przemyśleć jak będziemy je uwzględniać, czy np. badany musi udzielić wszystkich odpowiedzi, aby uznać, że posiada wiedzę w jakimś zakresie czy wystarczy, że zaznaczy tylko jedną. Jak będziemy to punktować?

b) analiza korelacji (gdy obie zestawiane ze sobą zmienne są porządkowe/ilościowe)

Sposób rzadko wykorzystywany, ale okazuje się on często najszybszy i najlepszy (oraz najtańszy!). Nie tylko dlatego, że taka analiza zajmuje “mało miejsca”, ale także dlatego że często w ten sposób uzyskujemy najbardziej pełną wiedzę dotyczącą mierzonego zagadnienia. Nie bez powodu statystyka opiera się na analizach ilościowych, w których wskaźniki ilościowe są sumą odpowiedzi z różnych pytań. Choć to inny temat, związany z założeniami psychometrii i teorii testów.

W celu wykonania analizy korelacji dla pytań związanych z wiedzą takich jak te omawiane w niniejszym wpisie powinniśmy utworzyć nowy wskaźnik (o wskaźnikach pisaliśmy tutaj) – sumę poprawnych odpowiedzi na pytania z kwestionariusza. Traktując zatem taką ankietę jako test wiedzy obliczamy dla każdego badanego respondenta wynik w skali od 0 do 5, jako miernik poziomu wiedzy. Po prostu poprawną odpowiedź na każde kolejne pytanie punktujemy jako 1 a każdą niepoprawną jako 0. Mamy 5 pytań więc badane pielęgniarki mogły uzyskać od 0 punktów (wszystkie zaznaczone odp. są błędne) do maksymalnie 5 punktów (zaznaczono wszystkie poprawne odpowiedzi).

Po utworzeniu wskaźnika ilościowego, możemy przeprowadzić analizę korelacji Pearsona dla zmiennych wyrażonych na skali ilościowej (np. wieku i wiedzy) lub Spearmana dla zmiennych na skali porządkowej (np. wykształcenia i wiedzy).

Utworzenie wskaźnika jest oczywiście jedną z możliwości. Możemy bowiem oczywiście korelować pojedyncze pytania z ankiety między sobą. Często niektóre z nich wyrażone są na skali porządkowej i wtedy możemy korelować je np. z poziomem wykształcenia czy wielkością miejsca zamieszkania. Rodzaj analizy uzależniony jest w ogromnym stopniu o tego na jakiej skali pomiarowej są zakodowane odpowiedzi na zadane pytania. Ta wiedza to podstawa podstaw więc koniecznie zobacz ten tutorial – https://youtu.be/Z4x3WTkQK1U

Analiza ilościowa ma ogromną przewagę nad jakościową szczególnie w jednym przypadku – gdy mamy bardzo rozbudowaną ankietę. Mając np. 30 pytań w ankiecie, chcąc sprawdzić zależność odpowiedzi na nie wszystkie od stażu pracy i wykształcenia, musielibyśmy wykonać 60 osobnych analiz. W analizie ilościowej, robimy dwie proste analizy, które zajmują jedną/dwie strony. 

Przykładowa analiza korelacji:

W celu sprawdzenia czy istnieje związek między poziomem wykształcenia a wiedzą pielęgniarek w zakresie transplantacji narządów zmarłych wykonano analizę korelacji r Pearsona. Wykazała ona, że istnieje istotny, dodatni i umiarkowanie silny związek między tymi zmiennymi (r = 0,34; p = 0,037). Oznacza to, ze wraz z poziomem wykształcenia wzrasta wiedza pielęgniarek na badany temat. 

Ad 3. Testy istotności różnic

Podobnie jak w przypadku korelacji, w analizach ankietowych na kiepskich uczelniach albo na kierunkach, na których nie kładzie się należytego nacisku na jakość prowadzonych badań rzadko kiedy wykonujecie testy istotności różnic między grupami takie jak testy t Studenta lub analiza wariancji (ANOVA). Pamiętajcie jednak, że nadal jest to bardzo dobry sposób na udzielenie odpowiedzi na postawione pytania badawcze dotyczących różnic międzygrupowych. Znacznie lepszy niż pokazanie po prostu ile padło odpowiedzi na każde pytanie badawcze i jaki procent z całości te odpowiedzi stanowią.

Tak jak przy okazji analiz korelacji, najpierw musimy stworzyć ilościowy wskaźnik wiedzy. Następnie, potrzebujmy drugiej zmiennej – nominalnej (np. płeć). W ten sposób możemy porównać czy wyróżnione podgrupy (kobiety i mężczyźni) różnią się między sobą w zakresie średniego poziomu wiedzy. W przypadku dwóch grup korzystamy z testu t Studenta dla prób niezależnych, a w przypadku większej liczby grup – z testu ANOVA. Pamiętajcie również, że w przeciwieństwie do analizy korelacji czy badania związków przy użyciu testu chi kwadrat niezależności wykonując test t Studenta lub analizę wariancji możemy mówić nie tylko o współwystępowaniu dwóch zmiennych, ale o tym, która zmienna wpływa na którą. 

 

Przykładowy opis wyniku testu t Studenta dla prób niezależnych:

W celu sprawdzenia czy poziom wiedzy dotyczący procedur medycznych różni się między kobietami a mężczyznami wykonano test t Studenta dla prób niezależnych. Jego wyniki wskazują na brak istotnych statystycznie różnic w tym zakresie t(37) = 4,12; p = 0,387. Oznacza to, że poziom wiedzy badanych kobiet (M = 3,52; SD = 1,72) i mężczyzn (M = 3,86; SD = 1,79)  jest podobny. Brak jest tym samym podstaw do odrzucenia hipotezy zerowej i uznania obserwowanych różnic za nieprzypadkowe.

 

  Autorem wpisu jest Andrzej Jankowski