Współczynnik determinacji r kwadrat

Współczynnik r kwadrat jest miarą jakości dopasowania modelu. Mówi on o tym, jaki procent jednej zmiennej wyjaśnia zmienność drugiej zmiennej.Przyjmuje on wartości od 0 do 1.

Najczęściej spotykamy się z nim i wykorzystujemy go w trakcie przeprowadzania analizy regresji. Jest on jednak niekiedy interpretowany w przypadku wieloczynnikowej analizy wariancji.

W celu wyjaśnienia tej miary sposobem “na chłopski rozum” przeanalizujmy taki oto przykład. Wyobraźmy sobie, że chcemy sprawdzić, czy liczba lat nauki szkolnej człowieka może być oszacowana na podstawie wiedzy o dochodzie gospodarstwa domowego, w którym żyje, oraz liczbą lat nauki szkolnej ojca. Dowiemy się tego właśnie dzięki przeprowadzeniu analizy regresji, w której automatycznie wyliczany jest współczynnik r kwadrat.

Z tabel wygenerowanych przez SPSSa wynika, że liczbę lat nauki szkolnej jakiejś osoby można istotnie przewidzieć zarówno na podstawie dochodu jej gospodarstwa domowego, jak i liczby lat nauki szkolnej jej ojca. Przyglądając się statystyce r kwadrat okazuje się, że dla dochodu r2=0,22, natomiast dla lat nauki szkolnej r2=0,45.

Informacja płynąca z dwóch powyższych wartości jest następująca – to liczba lat nauki szkolnej ojca ma większy wpływ na naszą liczbę lat nauki szkolnej niż dochody gospodarstwa domowego, w którym żyjemy. Bardziej profesjonalny zapis/interpretacja będzie mówił o tym, że dochód gospodarstwa domowego, w którym żyjemy wyjaśnia 22% zmienności (inaczej wariancji) w zakresie naszej liczby lat nauki szkolnej. Zatem 78% wariancji lat nauki wyjaśnione jest innymi czynnikami niż dochód gospodarstwa domowego.  Z kolei lata nauki szkolnej ojca wyjaśniają aż 45% wariancji w zakresie zmiennej zależnej (czyli naszej liczby lat nauki szkolnej) zatem “tylko” 55% wariancji wyjaśnione jest innymi czynnikami.

Dzięki współczynnikowi determinacji r kwadrat  możemy się dowiedzieć jak bardzo zmiany jakiejś wartości (np. wagi człowieka) są zdeterminowane  zmianami w zakresie innej cechy (np. wzrostu).

Pamiętajcie jednak, że współczynnik determinacji r kwadrat w analizie regresji rośnie zawsze gdy dodamy jakiś kolejny predyktor. Nawet gdy ten nie wnosi nic nowego do wyjaśnienia zmienności naszej zmiennej objaśnianej. Dlatego też jeśli w modelu mamy więcej niż 1 predyktor to należy odczytywać wartość skorygowanego r kwadrat.

R kwadrat możecie także liczyć w przypadku analizy korelacji. Wystarczy podnieść współczynnik r Pearsona (lub inne – np. rho Spearmana) do kwadratu. Należy jednak pamiętać, że liczenie współczynnika determinacji dla korelacji nieparametrycznych (Spearmana i Kendalla) jest szeroko krytykowane zatem odradzalibyśmy jego liczenie i opisywanie.

Ponadto r kwadrat wylicza nam się przy wieloczynnikowej analizie wariancji informując nas o tym jaki procent wariancji jest wyjaśniony przez efekty wprowadzonych przez nas  zmiennych. Wieloczynnikowa analiza wariancji to w końcu model liniowy :)

Dla wszystkich z matematycznym zacięciem LINK do wikipedii – może chcecie liczyć r kwadrat ręcznie? :)

Zapraszamy też do obejrzenia naszego tutoriala o analizie regresji, w której wspominamy trochę o współczynniku determinacji.