Słownik

START | EDUKACJA | SŁOWNIK | Krzywa ROC

Krzywa ROC

Krzywa ROC (ang. Receiver Operating Characteristic) to narzędzie statystyczne używane do oceny jakości dwuklasowych modeli klasyfikacyjnych (czyli np. takich które dokonują przewidywania “występowania” vs “niewystępowania” zdarzenia).

Krzywa ROC to wykres obrazujący zależność między dwoma wskaźnikami:

  • TPR (ang. True Positive Rate)określany również czułością (ang. sensitivity). Jest to zdolność modelu klasyfikacyjnego do wykrywania prawdziwie pozytywnych przypadków  np. klasyfikacja osób chorych jako rzeczywiście chorych.
  • FPR (ang. False Positive Rate), odnoszącym się do pojęcia swoistości (ang. specificity) (wzór na FPR to: FPR = 1 – swoistość). Jest to ilość błędnie zaklasyfikowanych przypadków negatywnych jako pozytywne, innymi słowy “fałszywych alarmów”, np. klasyfikacja osób zdrowych jako chorych.

Przykład krzywej ROC przedstawiono poniżej (źródło: https://pl.wikipedia.org/wiki/Krzywa_ROC; dostęp 27.12.2024r.)

To co jest istotne w analizie krzywej ROC to fakt, że TPR i FPR są dwiema istotnymi miarami skuteczności klasyfikatora, które jednocześnie mają tendencję do odwrotnej korelacji. Jeśli zatem zwiększamy czułość, dzięki czemu wyłapujemy więcej prawdziwych pozytywów, jednocześnie obniżamy swoistość, co oznacza wzrost FPR czyli błędnie zaklasyfikowanych jako pozytywy negatywów.

Dlatego też tworząc model klasyfikacyjny należy wyznaczyć odpowiedni próg decyzyjny (ang. treshold) który decyduje czy dana obserwacja zostanie uznana za pozytywną czy negatywną i który jest formą kompromisu pomiędzy TPR i FPR. Idealny model klasyfikacyjny powinien osiągać czułość bliską 1 przy jednoczesnym minimalizowaniu fałszywych pozytywnych przypadków (FPR). Istnieją różne metody wyznaczania progu decyzyjnego i w praktyce stosuje się ten który najlepiej równoważy lub priorytetyzuje TPR i FPR w danym zastosowaniu. Krzywa ROC pozwala zobrazować omawiane zależności i dokonać jakościowej oceny modelu, ponieważ obrazuje ona zależność między TPR i FPR dla różnych wartości progu decyzyjnego.

Istotnym wskaźnikiem związanym z krzywą ROC jest pole pod krzywą (AUC – ang. Area Under the Curve). AUC mierzy ogólną zdolność modelu do rozróżniania klas. Im większe jest pole pod krzywą, tym lepsza jakość modelu. Wartości AUC interpretujemy następująco:

  • bliskie 1 wskazują na bardzo dobrą zdolność klasyfikatora do rozróżniania klas,
  • równe 0,50 oznacza model losowy (brak zdolności do rozróżniania klas),
  • poniżej 0,50 sugerują, że model jest gorszy niż losowy.

Podsumowując, analiza ROC służy ocenie jakości klasyfikatora, który przypisuje obserwacje do jednej z dwóch klas, np. tak vs. nie (czyli skali nominalnej typu Dummy). Krzywa ROC ilustruje, jak zmienia się skuteczność modelu klasyfikacyjnego przy różnych progach decyzyjnych (ang. treshold), pokazując zależność między czułością (TPR) a fałszywym wskaźnikiem pozytywności (FPR). W przeciwieństwie do modeli klasyfikacyjnych, takich jak regresja logistyczna, które skupiają się na szacowaniu prawdopodobieństw przynależności do klas (zmienna zależna) w oparciu o uwzględnione w modelu predyktory, krzywa ROC ocenia efektywność klasyfikatora niezależnie od ustawionego progu decyzyjnego.

 

COFNIJ

wróć do spisu wszystkich pojęć

Podziel się wiedzą

z innymi

Opinie Klientów

Co o nas sądzą?

Współpracowaliśmy

między innymi z:

Nasi partnerzy