Analiza dyskryminacyjna
Analiza dyskryminacyjna (ang. discriminant analysis) jest metodą statystyczną, której celem jest klasyfikowanie jednostek do różnych grup na podstawie zestawu zmiennych niezależnych oraz przewidywanie przyszłych klasyfikacji dla nowych obserwacji.
Głównym zadaniem analizy dyskryminacyjnej jest wykrywanie różnic między czynnikami istotnymi dla przynależności do jakiejś grupy, a także tworzenie funkcji dyskryminacyjnych (prawdopodobieństwa), które najlepiej rozdzielają te grupy. Przykładowo:
- w badaniach psychologicznych możemy wyodrębnić grupy wysokiego i niskiego ryzyka wystąpienia jakiegoś zaburzenia;
- w badaniach medycznych możemy określić które czynniki pozwalają na całkowite, częściowe lub niemal żadne wyleczenie jakiegoś schorzenia;
- z kolei w badaniach pedagogicznych możemy w ten sposób wykryć czynniki zwiększające szanse na podjęcie studiów lub pójście do pracy po maturze.
Jak widać, analiza dyskryminacyjna umożliwia ocenę, które czynniki (zmienne niezależne, nazywane także predyktorami) mają największy wpływ na przewidywanie wyników w przyszłości. Przyszły wynik (zmienna zależna) stanowi przynależność do jakiej grupy/warunku (klasyfikacji), zatem wyrażony jest zawsze na skali nominalnej.
Procedura obliczeniowa analizy dyskryminacyjnej przypomina nieco analizę wariancji (ANOVA), ponieważ w obu przypadkach chodzi o badanie różnic między grupami. Jednak w analizie dyskryminacyjnej skupiamy się na przypisaniu jednostek do odpowiednich grup na podstawie zmiennych predykcyjnych (co przypomina mechanizmem analizę skupień), podczas gdy analiza wariancji służy do porównywania średnich wartości między grupami.
Przykładowo, aby zastosować analizę dyskryminacyjną w badaniu dotyczącym wyboru ścieżki zawodowej po szkole średniej, należy zebrać dwie grupy: 1) absolwentów, którzy poszli na studia, oraz 2) tych, którzy poszli do pracy. Następnie identyfikuje się odpowiednie czynniki przewidujące, takie jak oceny w szkole średniej, wynik matury, płeć ucznia, zmienne socjodemograficzne itd. Po zebraniu danych analiza dyskryminacyjna pozwala określić, które z tych zmiennych najlepiej rozróżniają obie grupy, czyli które czynniki mają największe znaczenie w przewidywaniu, czy dana osoba zdecyduje się na studia, czy na pracę.
Analiza dyskryminacyjna spełnia dwie główne funkcje:
- Funkcja klasyfikacyjna: Celem tej funkcji jest wyodrębnienie najlepszych predyktorów (zmiennych niezależnych), które pozwalają na wyróżnienie dwóch lub więcej grup obserwacji. Jest to proces eksploracyjny, w którym posiadamy dane wstępne na jakiejś próbie i staramy się znaleźć zmienne, które najlepiej różnicują grupy. Zatem chodzi o to, aby przydzielić obserwacje do odpowiednich grup na podstawie zidentyfikowanych predyktorów.
- Funkcja predykcyjna: W tej funkcji wykorzystujemy wcześniej uzyskaną funkcję klasyfikacyjną do przewidywania, które jednostki (np. osoby, pomiary) mają największe prawdopodobieństwo, by należeć do danej grupy. Jest to proces predykcyjny, w którym na podstawie wcześniej wyuczonych zależności z danych klasyfikujemy nowe obserwacje. Celem jest przewidywanie przynależności do grup w nowych, niebadanych dotąd przypadkach.
Z uwagi na podobieństwo do analizy wariancji, założenia analizy dyskryminacyjnej są do niej podobne:
- Rozkład normalny predyktorów. Założenie to zwykle weryfikujemy poprzez analizę rozkładu normalności każdej ze zmiennych niezależnych.
- Jednorodność macierzy wariancji i kowariancji w grupach. Założenie to wymaga, aby w docelowych grupach macierze korelacji między predyktorami były jednorodne, podobnie wymaga się homogeniczności wariancji w poszczególnych grupach.
- Brak korelacji między średnimi i wariancjami w grupach. Założenie to jest szczególnie ważne, gdyż ocena które predyktory lepiej pasują do konkretnej grupy dyskryminacyjnej opiera się o uśrednioną wartość wariancji wszystkich grup, dlatego jeżeli w jednej grupie występuje wysoka średnia przy wysokim zróżnicowaniu wyników oszacowania wartości p mogą być błędne.
- Niskie skorelowanie predyktorów. Założenie jest istotne w analizie dyskryminacyjnej. Chodzi o sytuację, w której jedna z wybranych zmiennych jest silnie skorelowana z innymi zmiennymi, co określamy jako współliniowość.