Słownik

START | EDUKACJA | SŁOWNIK | Dummy coding

Dummy coding

Dummy coding – technika przekształcania zmiennych dychotomicznych na dane liczbowe, w sposób który umożliwia wykorzystanie ich podczas wykonywania szeregu testów statystycznych, szczególnie tych opartych na modelu regresji.

Klasyczna wersja dummy coding polega na przypisaniu każdej kategorii zmiennej dychotomicznej wartości 0 lub 1, tworząc w ten sposób zestaw zmiennych binarnych (dummy variables), które następnie można używać np. jako predyktory w analizie regresji (np. liniowej, logistycznej) czy moderatory w analizie moderacji.

W dummy coding stosuje się kodowanie jako 0 i 1, zamiast na przykład (często stosowanego w bazach danych) kodowania 1 i 2, ponieważ takie podejście jest na poziomie matematycznym spójne z założeniami modelu regresji regresji. Ponadto, ułatwia ono interpretację wyników analizy – kategoria 0 jest zawsze referencyjna, dlatego też uzyskane współczynniki reprezentują różnicę w wyniku (kodowanym jako 1) w porównaniu z kategorią referencyjną, co jest łatwe do zrozumienia i interpretacji.

Dummy coding można stosować również dla zmiennych nominalnych, które przyjmują więcej niż dwie wartości. W takiej sytuacji należy utworzyć jednak kilka osobnych zmiennych, które kodować będą osobno poszczególne kategorie. Liczba takich utworzonych zmiennych wynosić będzie „n-1”, co oznacza utworzenie o jedną zmienną typu 0-1 mniej, niż jest poziomów zmiennej kategorycznej. Spowodowane jest to tym, że jedna zmienna jest traktowana jako referencyjna, a pozostałe porównywane są do niej.

Przedstawmy przykład dla dummy coding dla zmiennej nominalnej „rodzaj pojazdu”, posiadające cztery kategorie:
1. Samochód.
2. Motocykl.
3. Rower.
4. Autobus.

Aby zastosować dummy coding dla tej zmiennej, wybieramy jedną z kategorii jako kategorię referencyjną. W tym przykładzie załóżmy, że będzie to “Samochód”. Wówczas tworzymy trzy nowe zmienne (dummy variables), wraz z następującym kodowaniem:
1. Motocykl (1 = Motocykl; 0 = inne)
2. Rower (1 = Rower; 0 = inne)
3. Autobus (1 = Autobus; 0 = inne)

Przykładowy fragment bazy danych z tymi zmiennymi wyglądałby tak:

Rodzaj pojazdu Motocykl Rower Autobus
Samochód 0 0 0
Motocykl 1 0 0
Rower 0 1 0
Autobus 0 0 1

 Interpretacja:

  • Wartość 0 w każdej kolumnie oznacza, że dany pojazd nie należy do tej kategorii.
  • Wartość 1 w kolumnie oznacza, że dany pojazd należy do tej kategorii.
  • Jeśli mamy Samochód, wszystkie zmienne dummy będą miały wartość 0 (ponieważ jest to kategoria referencyjna).
  • Jeśli mamy Motocykl, zmienna dummy “Motocykl” będzie miała wartość 1, a pozostałe zmienne dummy będą miały wartość 0. Analogicznie dla Roweru i Autobusu.

Istnieją inne, podobne do dummy coding, sposoby kodowania zmiennych. Najbardziej znanym jest effect coding (kodowanie efektu), stosowane w analizie kontrastów stosowanej w analizie wariancji. Dzięki niemu można porównywać między sobą tylko specyficzne, wybrane grupy. Kiedy mamy zmienną o charakterze sekwencyjnym można z kolej skorzystać z backward coding, a kiedy chcemy porównać jedną grupę do wszystkich pozostałych – z sum coding.

 

COFNIJ

wróć do spisu wszystkich pojęć

Podziel się wiedzą

z innymi

Opinie Klientów

Co o nas sądzą?

Współpracowaliśmy

między innymi z:

Nasi partnerzy