Dummy coding – technika przekształcania zmiennych dychotomicznych na dane liczbowe, w sposób który umożliwia wykorzystanie ich podczas wykonywania szeregu testów statystycznych, szczególnie tych opartych na modelu regresji.
Klasyczna wersja dummy coding polega na przypisaniu każdej kategorii zmiennej dychotomicznej wartości 0 lub 1, tworząc w ten sposób zestaw zmiennych binarnych (dummy variables), które następnie można używać np. jako predyktory w analizie regresji (np. liniowej, logistycznej) czy moderatory w analizie moderacji.
W dummy coding stosuje się kodowanie jako 0 i 1, zamiast na przykład (często stosowanego w bazach danych) kodowania 1 i 2, ponieważ takie podejście jest na poziomie matematycznym spójne z założeniami modelu regresji regresji. Ponadto, ułatwia ono interpretację wyników analizy – kategoria 0 jest zawsze referencyjna, dlatego też uzyskane współczynniki reprezentują różnicę w wyniku (kodowanym jako 1) w porównaniu z kategorią referencyjną, co jest łatwe do zrozumienia i interpretacji.
Dummy coding można stosować również dla zmiennych nominalnych, które przyjmują więcej niż dwie wartości. W takiej sytuacji należy utworzyć jednak kilka osobnych zmiennych, które kodować będą osobno poszczególne kategorie. Liczba takich utworzonych zmiennych wynosić będzie „n-1”, co oznacza utworzenie o jedną zmienną typu 0-1 mniej, niż jest poziomów zmiennej kategorycznej. Spowodowane jest to tym, że jedna zmienna jest traktowana jako referencyjna, a pozostałe porównywane są do niej.
Przedstawmy przykład dla dummy coding dla zmiennej nominalnej „rodzaj pojazdu”, posiadające cztery kategorie:
1. Samochód.
2. Motocykl.
3. Rower.
4. Autobus.
Aby zastosować dummy coding dla tej zmiennej, wybieramy jedną z kategorii jako kategorię referencyjną. W tym przykładzie załóżmy, że będzie to “Samochód”. Wówczas tworzymy trzy nowe zmienne (dummy variables), wraz z następującym kodowaniem:
1. Motocykl (1 = Motocykl; 0 = inne)
2. Rower (1 = Rower; 0 = inne)
3. Autobus (1 = Autobus; 0 = inne)
Przykładowy fragment bazy danych z tymi zmiennymi wyglądałby tak:
| Rodzaj pojazdu | Motocykl | Rower | Autobus |
| Samochód | 0 | 0 | 0 |
| Motocykl | 1 | 0 | 0 |
| Rower | 0 | 1 | 0 |
| Autobus | 0 | 0 | 1 |
Interpretacja:
Istnieją inne, podobne do dummy coding, sposoby kodowania zmiennych. Najbardziej znanym jest effect coding (kodowanie efektu), stosowane w analizie kontrastów stosowanej w analizie wariancji. Dzięki niemu można porównywać między sobą tylko specyficzne, wybrane grupy. Kiedy mamy zmienną o charakterze sekwencyjnym można z kolej skorzystać z backward coding, a kiedy chcemy porównać jedną grupę do wszystkich pozostałych – z sum coding.