fbpx

Słownik

START | EDUKACJA | SŁOWNIK | Regresja liniowa

Regresja liniowa

Analiza regresji liniowej jest techniką statystyczną używaną do modelowania i analizy związków między zmienną wyjaśnianą a jedną lub większą liczbą zmiennych wyjaśniających. W literaturze można spotkać się z różnym nazewnictwem elementów tego modelu regresji, które w niniejszym tekście będą traktowane jako synonimy:

Regresja liniowa jest bardziej zaawansowaną metodą analizy związków liniowych, przez niektórych traktowana jest jako rozwinięcie czy też rozszerzenie analizy korelacji Pearsona. Różnica między tymi dwiema polega na tym, że analiza korelacji polega na testowaniu związków między parami zmiennych (nawet w przypadku dużych matryc korelacji), podczas gdy w analizie regresji możemy testować bardziej złożone modele, w których sprawdzamy w jaki sposób wiele zmiennych wyjaśniających przewiduje wartości jednej zmiennej wyjaśnianej.

Przykładowo, wyobraźmy sobie że testujemy związek między ogólnym poziomem depresji (jedna zmienna) a cechami osobowości (pięć zmiennych). Wykonując analizę korelacji Pearsona, uzyskamy wyniki w postaci matrycy korelacji 5×1, gdzie każdy wynik (współczynnik korelacji i wartość p) odnosić się będzie do zależności między poziomem depresji a nasileniem jednej z cech osobowości. Dla kontrastu, w przypadku analizy regresji liniowej, możemy zbudować model, który wyjaśnia ogólne nasilenie depresji na podstawie wszystkich pięciu cech osobowości. W takiej sytuacji określić będziemy mogli, w jaki sposób określony układ („konstelacja”) cech osobowości wyjaśnia nasilenie depresji. Przykładowo (i w uproszczeniu), będziemy mogli stwierdzić, że osoba z wysokim nasileniem depresji to taka, która jednocześnie charakteryzuje się wysokim poziomem neurotyzmu, niskim nasileniem ekstrawersji oraz niskim nasileniem otwartości na doświadczenia.

Wyróżnia się kilka rodzajów regresji liniowej:

  • regresja prosta – jedna zmienna objaśniana i jedna zmienna objaśniająca
  • regresja wieloraka (wielozmiennowa) – jedna zmienna objaśniana i dwie lub więcej zmiennych objaśniających
  • hierarchiczna regresja – metoda ta opiera się na selekcji predyktorów i uporządkowaniu je w specyficzne bloki, które następnie stopniowo włączane są do analizowanego modelu regresji; w badaniach psychologicznych częstym rozwiązaniem jest włączenie w pierwszym bloku zmiennych socjodemograficznych (w celu kontrolowania ich, jako zmiennych ubocznych), a w drugim zmiennych psychologicznych

Regresja prosta (z jednym predyktorem) jest rzadko wykonywana, ponieważ jej interpretacja jest w pewnym sensie identyczna z wynikiem analizy korelacji (wyjątkiem jest sytuacja, w której chcemy uzyskać określone równanie regresji do przewidywania wartości zmiennej wyjaśnianej). Znacznie częściej wykonywana jest regresja wieloraka, której celem jest prześledzenie jednoczesnego efektu wielu predyktorów dla nasilenia zmiennej wyjaśnianej. Regresja liniowa wieloraka, wymaga jednak spełnienia kilku założeń:

  • Pomiar zmiennych – zmienna wyjaśniana (zależna) powinna być zmienną ilościową, natomiast predyktor może być albo zmienną ilościową albo nominalną dychotomiczną, zero-jedynkową, co odnosi się do wystąpienia (1) lub braku występowania (0) danego zjawiska.
  • Liniowy związek – podstawowe założenie dotyczy zależności liniowej relacji między zmienną wyjaśniającą a zmienną wyjaśnianą. W przypadku obserwacji związku nieliniowego, należy zainteresować się regresją krzywoliniową.
  • Homoskedastyczność – dotyczy stałości wariancji błędów wokół linii regresji dla każdego predyktora. Oznacza to, że średnie wyniki niskie, umiarkowane i wysokie mają jednakowe rozproszenie danych wokół siebie. Założenie to możemy przetestować chociażby przy użyciu wykresu rozrzutu.
  • Brak idealnej współliniowości predyktorów – założenie to dotyczy braku idealnej lub bardzo silnej korelacji (równej lub bliskiej +1, lub -1) między zmiennymi objaśniającymi. Wysoka korelacja predyktorów najczęściej sprawia, że przynajmniej jeden z nich okaże się nieistotny w modelu regresji z uwagi na niską korelację semicząstkową, co jest skutkiem występowania korelacja cząstkowej dwóch predyktorów. Upraszczając – jeden z predyktorów może okazać się nieistotny w modelu (nawet jeśli w rzeczywistości, traktowany osobno, jest istotny), ponieważ inny „przejmie” jego efekt z powodu znaczącej korelacji między nimi. Współliniowość możemy testować chociażby za pomocą współczynnika VIF. Jeżeli ją wykryjemy, zwykle usuwamy z modelu predyktor, który jest słabiej związany ze zmienną objaśnianą.
  • Normalność rozkładów błędów – założenie to związane jest z rozkładem normalnym reszt regresji. Nie jest ono konieczne dla oceny jakości modelu w którym wykorzystujemy metodę najmniejszych kwadratów, pozwala jednak ocenić jakość samych predyktorów. Ich ocena jest stosunkowo prosta np. w SPSS w trakcie przeprowadzania analizy regresji liniowej wystarczy zapisać reszty niestandaryzowane jako nową zmienną i następnie ocenić ją pod kątem normalności rozkładu, chociażby testem Shapiro-Wilka. Warto wspomnieć, że założenie to nie jest konieczne jeżeli zadbamy o odpowiednio dużą reprezentatywność próby.

Ile obserwacji musimy zebrać do przetestowania naszego modelu regresji? W tym celu najlepiej skorzystać z narzędzia do obliczania wielkości próby przy spodziewanej wielkości efektu R2, takiego jak G*Power. Jeżeli jednak ciężko nam oszacować spodziewany efekt, można polegać na wytycznych badaczy (tzw. regułach kciuka), którzy najczęściej proponują dwie drogi:

  • 15 obserwacji na każdą jedną zmienną niezależną w modelu (Stevens, 1996). Przykładowo, jeśli mamy 7 zmiennych wyjaśniających, musielibyśmy przebadać minimum 15*7 = 105 obserwacji.
  • 50 obserwacji + 8 * liczba predyktorów (D’Souza, C i in., 2013), czyli startujemy od 50 osób i później dodajemy 8 za każdy predyktor w modelu. Przykładowo, jeśli mamy 7 zmiennych wyjaśniających, musielibyśmy przebadać minimum 50+8*7=106 obserwacji.

Oba wyniki nie różnią się znacząco (przynajmniej gdy predyktorów nie jest dużo). Jednakże, gdybyśmy do szacowania liczebności próby zastosowali G*Power, okazałoby się, że taka liczebność byłaby właściwa, ale przy założeniu średniej siły efektu i mocy testu  wynoszącej 1 – β = 0,80. Warto wziąć pod uwagę, że nie zawsze spodziewany efekt jest umiarkowany, a moc testu wynosząca 0,80 jest stosunkowo niewielka (wielu badaczy oczekiwać będzie większej, np. 0,90 lub 0,95). Stąd warto brać poprawkę na powyżej opisane reguły kciuka, ponieważ sprawdzają się one w ograniczonej liczbie sytuacji.

Kiedy wymagana próba jest właściwie oszacowana, a wspomniane założenia regresji liniowej są spełnione, musimy jeszcze wybrać metodę analizy regresji liniowej, która uwzględnia sposób doboru predyktorów do modelu. Ogólnie, metody te możemy podzielić na celowe lub automatyczne. Jest ich kilka, poniżej zostaną omówione dwie popularne:

  • Metoda wprowadzania – jest to celowy sposób testowania modelu regresji, w której to badacz z góry podejmuje decyzję co do tego jaką zmienną lub zmienne wyjaśniające włączyć lub wyłączyć z modelu. Kryteria doboru predyktorów mogą być różne, np. na podstawie teorii, na podstawie wyników wcześniejszych analiz (np. analiz korelacji).
  • Metoda krokowa – podejście zautomatyzowane, opierające się na określonym algorytmie matematycznym. Algorytm ten w kolejnych krokach analizy (stąd nazwa tej metody – krokowa), dobiera predyktory do modelu na podstawie określonego kryterium (zwykle α = 0,05). Jej zaletą jest szybkość analizy w sytuacji dużej liczby predyktorów oraz ich automatyczne uporządkowanie od (względnie) najsilniejszego do najsłabszego.

Poza doborem krokowym istnieje więcej metod automatycznego doboru predyktorów, np. usuwania, eliminacji wstecznej czy selekcji postępującej. Obie te grupy metod można łączyć, np. stosując regresję hierarchiczną w której w pierwszym bloku dobór predyktorów odbywać się będzie metodą wprowadzenia, a w drugim metodą krokową.

Sam proces analizy i interpretacji wyników analizy regresji liniowej nie jest trudny i przypomina rozpakowywanie prezentu na święta, tzn. składa się z kilku warstw, odbywa się w kilku etapach:

  • W pierwszej kolejności naszym zadaniem jest ogólna ocena modelu regresji, poprzez sprawdzenie wyników dopasowania modelu, której dokonujemy interpretując wyniki analizy wariancji oraz (zwykle skorygowanego) współczynnika R2. Wynik analizy wariancji wskazuje na wystarczające (wynik istotny statystycznie) lub niewystarczające (wynik nieistotny statystycznie) dopasowanie modelu do danych, co stanowi o ocenie jego jakości. Wartość R2 wskazuje z kolei na to jaki procent wariancji zmiennej zależnej wyjaśnia układ wprowadzonych predyktorów. Wartość R2 mieści się w granicach od 0 do 1 (od 0 do 100%), a im większa, tym lepsze jest stopień przewidywania.
  • Następnie przechodzimy do oceny wyników dla poszczególnych predyktorów, poprzez ocenę współczynników standaryzowanych beta oraz poziomu ich istotności (wartości p). Ocena ta jest bardzo podobna do oceny siły i kierunku współczynnika korelacji Pearsona. Finalnie należy zaraportować poszczególne wyniki, na przykład w standardzie APA 7 (przykład takiego raportowania znajduje się tutaj).
  • Jeżeli napotykamy problemy z wynikami np. słabe dopasowanie modelu, należy w pierwszej kolejności zweryfikować czy poprawnie odczytaliśmy wyniki współczynnika VIF dla założenia o braku współliniowości oraz czy przypadkiem w naszej bazie danych nie mamy wartości odstających. Po dokonaniu ewentualnej korekty możemy wykonać analizę raz jeszcze.

Podsumowując, analiza regresji liniowej jest doskonałym narzędziem do oceny wzajemnego efektu wielu predyktorów na jedną zmienną zależną, która jest przedmiotem naszego badania. Ponadto jest to analiza łatwa w interpretacji, powszechnie znana i stosowana w pracach badaczy różnych dziedzin. Stanowi rozwinięcie korelacji Pearsona, a także jest początkiem bardziej zaawansowanych analiz, jak modelowanie równań strukturalnych lub mediacje i moderacje.

Na deser: tutaj znajdziecie tutorial video dotyczący przeprowadzania analizy regresji liniowej w SPSS.

 

Literatura:
Stevens, J. (1996). Applied multivariate statistics for social sciences . Hillsdale, NJ: Lowrence Erlbaum Associates.D’Souza, C., Taghian, M., Sullivan-Mort, G. (2013). Environmentally motivated actions influencing perceptions of environmental corporate reputation. Journal of Strategic Marketing, 21(6), 541-555.

COFNIJ

wróć do spisu wszystkich pojęć

Podziel się wiedzą

z innymi

Opinie Klientów

Co o nas sądzą?

Współpracowaliśmy

między innymi z:

Nasi partnerzy