Regresja logistyczna. Klasyfikator w CREDIT SCORING

Posted on

Regresja logistyczna  Budowa modelu regresji logistycznej pozwala na oszacowanie prawdopodobieństwa wystąpienia jakiegoś zdarzenia w zależności od zestawu zmiennych które wpływają na pojawienie się badanego zjawiska. Model równania analizy logistycznej szacuje się za pomocną metody MNW (Metoda Największej Wiarygodności). Celem jest zmaksymalizowanie wiarygodności zajścia zdarzenia 0 (porażka, śmierć, wypadek) i 1 (sukcesu, przeżycia, ocalenia). Zmienną która wpływa na zdarzenia może być mierzona na każdej skali pomiarowej (Choć w podejściach DATA MINING i BIG DATA dyskretyzacja zmiennych ciągłych daje bardzo silną dyskrymiancję zmiennych 0/1). Analiza pozwala na wnioskowanie o % zdarzeń które wyjaśnia analiza oraz % wskaźnik poprawności przewidywania zdarzenia. Analiza pozwala również wykryć wpływ każdej ze zmiennych na prawdopodobieństwo wystąpienia zdarzenia i to, ile możemy się pomylić w szacowaniu. Do wizualizacji używa się wynalezionej podczas Drugiej Wojny Światowej krzywej ROC, za pomocą której szacowano naloty bombowe. Pole powierzchni pod krzywą wskazuje na siłę zmiennej wpływającej na pojawienie się zdarzenia. Regresja jest jednym z głównych silników klasyfikacyjnych w procedurze CREDIT SCORINGU, a krzywa ROC jest metodą oceny jakości dyskryminacyjnej modelu klasyfikatora lub kilku różnych klasyfikatorów.