Słownik

START | EDUKACJA | SŁOWNIK | Metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów (MNK) – matematyczna technika używana w analizie danych do estymacji parametrów modelu, to znaczy dopasowania modelu statystycznego do danych pomiarowych. Najbardziej popularnym jej zastosowaniem jest analiza regresji liniowej. Pierwotnie, MNK powstała na użytek analizy właśnie modeli liniowych , jednak z czasem zostały opracowane jej warianty przystosowane do analizy modeli nieliniowych.

Metoda najmniejszych kwadratów polega na znalezieniu takiej linii, która minimalizuje rozproszenie reszt regresji, innymi słowy – takiej linii która leży najbliżej poszczególnych punktów w dwuwymiarowym układzie współrzędnych. Jej głównym celem jest zatem znalezienie takich wartości parametrów, które minimalizują różnicę między wartościami obserwowanymi a wartościami przewidywanymi przez model.

W jaki sposób dopasowujemy linię najmniejszych kwadratów? Naszym celem jest znalezienie takiego dopasowania, dla których suma odległości punktów od linii jest najmniejsza. W praktyce nie oblicza się jednak “zwykłej” sumy odległości punktów od linii, tylko najpierw podnosi wszystkie te różnice do kwadratu, a dopiero później sumuje (stąd nazwa metody – najmniejszych kwadratów). Takie rozwiązanie jest stosowane, ponieważ obliczenia opierające się na sumowaniu kwadratów są mniej problematyczne z matematycznego punktu widzenia, aniżeli sumowanie wartości bezwzględnych.

Ogólna idea MNK polega na tym, że minimalizacja sumy kwadratów różnic powoduje, że model staje się jak najbliższy rzeczywistym danym pomiarowym. W praktyce oznacza to, że model próbuje znaleźć takie wartości parametrów, które sprawią, że różnice między przewidywanymi wartościami (to co wynika z modelu) a rzeczywistymi wartościami (to do czego model będzie służył w realnym życiu np. przewidywanie zysków po emisji reklamy) będą jak najmniejsze.

Przykład linii regresji liniowej dopasowanej metodą najmniejszych kwadratów przedstawiono na Rysunku 1.

Rysunek 1

Przykładowy model regresji liniowej oparty na metodzie najmniejszych kwadratów

Zasadniczym celem MNK jest sprawienie aby linia regresji ułożona między punktami reprezentującymi obserwacje, jak najlepiej odzwierciedlała przewidywane tendencje na bazie danych. Ułożenie prostej możemy z kolei oszacować poprzez obliczenie sumy kwadratów reszt regresji (wartości oznaczonych na czerwono). Im mniejszy wynik, tym mniejsza jest wartość przewidywanego błędu (mniejsze odległości błędów od linii) i w efekcie otrzymujemy najlepsze możliwe dopasowanie danych do przewidywanego modelu, który np. w przypadku regresji liniowej wyraża współczynnik determinacji R2.

Mimo iż metoda najmniejszych kwadratów jest potężnym, a zarazem stosunkowo prostym narzędziem w analizie danych i badacze niezwykle są wdzięczni za jej istnienie, ma ona jednak określone założenia:

  • Brak outlier’ów – występowanie obserwacji odstających w danych powoduje zniekształcenie wielkości błędów obliczanych metodą MNK, co w efekcie prowadzić może do błędnego wnioskowania.
  • Brak korelacji predyktorów – metoda MNK jest wrażliwa na współliniowość zmiennych niezależnych.
  • Brak wariancji błędów – metoda ta nie uwzględnia istnienia wariancji błędów pomiarowych, gdyż zakłada stałą wariancję tzw. homoskedastyczność.
  • Pełne dane – MNK nie uwzględnia braków danych w procesie obliczeniowym. W efekcie niepełne informacje są zazwyczaj usuwane z modelu.

Warto pamiętać również, że metoda najmniejszych kwadratów nie jest jedyną metodą estymacji. Istnieją inne metody, które możemy stosować np. w sytuacji gdy założenia MNK nie są spełnione. Przykładowo:

  • Metoda Hubera – opiera się na kombinacji metody najmniejszych kwadratów i metody najmniejszych bezwzględnych odchyleń, która wykazuje większą odporność na wartości odstające.
  • Metoda najmniejszych kwadratów z regularyzacją L1 – stosowana w przypadku regresji Lasso, która pozwala na optymalny dobór predyktorów jeżeli występuje współliniowość.
  • Metoda największej wiarygodności – stosowana w przypadku niespełnienia założenia o homoskedastyczności, choć alternatywnie można także wykorzystywać metodę najmniejszych kwadratów ważonych.
  • W przypadku braków danych, zwykle stosuje się imputację braków w kontekście analiz statystycznych zbliżonych do analizy regresji, z kolei w kontekście analizy czynnikowej, stosunkowo odporna jest metoda głównych składowych.

Podsumowując, metoda najmniejszych kwadratów jest jedną z podstawowych metod estymacji stosowanych w analizie danych. Jej zasadniczym celem jest dopasowanie linii regresji, dla której suma kwadratów reszt będzie jak najmniejsza, innymi słowy – linii, która będzie położona jak najbliżej poszczególnych obserwacji zebranych w bazie danych. Metoda ta ma jednak pewne ograniczenia, wynikające z podstawowych założeń z nią związanych, a ich złamanie może prowadzić do błędnego oszacowania linii regresji na bazie sumy kwadratów reszt i w efekcie, błędnego wnioskowania statystycznego. Należy zatem dołożyć wszelkich starać, aby potwierdzić możliwość oszacowania jakości modelu na bazie MNK (testowanie założeń w analizie regresji), a w sytuacji stwierdzenia odstępstwa od któregoś założenia, posiłkować się alternatywnymi metodami estymacji.

COFNIJ

wróć do spisu wszystkich pojęć

Podziel się wiedzą

z innymi

Opinie Klientów

Co o nas sądzą?

Współpracowaliśmy

między innymi z:

Nasi partnerzy