Metoda najmniejszych kwadratów (MNK) – matematyczna technika używana w analizie danych do estymacji parametrów modelu, to znaczy dopasowania modelu statystycznego do danych pomiarowych. Najbardziej popularnym jej zastosowaniem jest analiza regresji liniowej. Pierwotnie, MNK powstała na użytek analizy właśnie modeli liniowych , jednak z czasem zostały opracowane jej warianty przystosowane do analizy modeli nieliniowych.
Metoda najmniejszych kwadratów polega na znalezieniu takiej linii, która minimalizuje rozproszenie reszt regresji, innymi słowy – takiej linii która leży najbliżej poszczególnych punktów w dwuwymiarowym układzie współrzędnych. Jej głównym celem jest zatem znalezienie takich wartości parametrów, które minimalizują różnicę między wartościami obserwowanymi a wartościami przewidywanymi przez model.
W jaki sposób dopasowujemy linię najmniejszych kwadratów? Naszym celem jest znalezienie takiego dopasowania, dla których suma odległości punktów od linii jest najmniejsza. W praktyce nie oblicza się jednak “zwykłej” sumy odległości punktów od linii, tylko najpierw podnosi wszystkie te różnice do kwadratu, a dopiero później sumuje (stąd nazwa metody – najmniejszych kwadratów). Takie rozwiązanie jest stosowane, ponieważ obliczenia opierające się na sumowaniu kwadratów są mniej problematyczne z matematycznego punktu widzenia, aniżeli sumowanie wartości bezwzględnych.
Ogólna idea MNK polega na tym, że minimalizacja sumy kwadratów różnic powoduje, że model staje się jak najbliższy rzeczywistym danym pomiarowym. W praktyce oznacza to, że model próbuje znaleźć takie wartości parametrów, które sprawią, że różnice między przewidywanymi wartościami (to co wynika z modelu) a rzeczywistymi wartościami (to do czego model będzie służył w realnym życiu np. przewidywanie zysków po emisji reklamy) będą jak najmniejsze.
Przykład linii regresji liniowej dopasowanej metodą najmniejszych kwadratów przedstawiono na Rysunku 1.
Rysunek 1
Przykładowy model regresji liniowej oparty na metodzie najmniejszych kwadratów
Zasadniczym celem MNK jest sprawienie aby linia regresji ułożona między punktami reprezentującymi obserwacje, jak najlepiej odzwierciedlała przewidywane tendencje na bazie danych. Ułożenie prostej możemy z kolei oszacować poprzez obliczenie sumy kwadratów reszt regresji (wartości oznaczonych na czerwono). Im mniejszy wynik, tym mniejsza jest wartość przewidywanego błędu (mniejsze odległości błędów od linii) i w efekcie otrzymujemy najlepsze możliwe dopasowanie danych do przewidywanego modelu, który np. w przypadku regresji liniowej wyraża współczynnik determinacji R2.
Mimo iż metoda najmniejszych kwadratów jest potężnym, a zarazem stosunkowo prostym narzędziem w analizie danych i badacze niezwykle są wdzięczni za jej istnienie, ma ona jednak określone założenia:
Warto pamiętać również, że metoda najmniejszych kwadratów nie jest jedyną metodą estymacji. Istnieją inne metody, które możemy stosować np. w sytuacji gdy założenia MNK nie są spełnione. Przykładowo:
Podsumowując, metoda najmniejszych kwadratów jest jedną z podstawowych metod estymacji stosowanych w analizie danych. Jej zasadniczym celem jest dopasowanie linii regresji, dla której suma kwadratów reszt będzie jak najmniejsza, innymi słowy – linii, która będzie położona jak najbliżej poszczególnych obserwacji zebranych w bazie danych. Metoda ta ma jednak pewne ograniczenia, wynikające z podstawowych założeń z nią związanych, a ich złamanie może prowadzić do błędnego oszacowania linii regresji na bazie sumy kwadratów reszt i w efekcie, błędnego wnioskowania statystycznego. Należy zatem dołożyć wszelkich starać, aby potwierdzić możliwość oszacowania jakości modelu na bazie MNK (testowanie założeń w analizie regresji), a w sytuacji stwierdzenia odstępstwa od któregoś założenia, posiłkować się alternatywnymi metodami estymacji.