Problemy klasyfikacyjne

Co robić gdy jest tak dużo do wyboru ? Ci na lewo, a ci na prawo

Statystyczna analiza danych ma wielki potencjał do klasyfikowania. Dzięki podejściu statystycznemu można przewidywać podobieństwo marek, sytuację spłaty zobowiązania kredytowego,  sumy szkód z racji wykupionego ubezpieczenia, jednorodne grupy klientów wyznaczonych ze względu na wykorzystywane usługi lub sterować wysyłką spersonalizowanych newsletterów. Wszystko to dzięki przekształceniu problemów biznesowych na rozwiązania analityczne.

Dzięki technikom klasyfikacyjnym można odkrywać wiedzę z danych i budować z nich algorytmy, które wspomagają procesy decydowania np. komu wysłać monit windykacyjny,  komu nie przydzielić pożyczki lub w jakiej grupie jest klient, którym trzeba się zaopiekować.


Regresja logistyczna i karta SCORINGOWA / SCORING / tablica SCORINGOWA

Świetnym silnikiem klasyfikacyjnym wykorzystywanym do tego typu wymagań jest analiza regresji logistycznej. Weryfikuje ona dane wejściowe pod względem wagi dla zmiennej przewidywanej która przyjmuje wartości 0/1. np. Analiza ta może wykazać, że mężczyzna z miasta, nie mający dzieci, w wieku 28 lat, ze studiami wyższymi będzie lepszym kredytobiorcom niż kobieta mająca 18 lat mieszkająca na wsi z 2 dzieci po szkole podstawowej. Analiza regresji buduje systematyczne wagi i dzięki nim można dla każdego nowego klienta wyliczyć indywidualny wynik SCORINGU.


Reguły drzew klasyfikacyjnych

Drzewa decyzyjne inaczej zwane drzewami klasyfikacyjnymi to technika data mining. Ta metoda jest uważana za najbardziej zawansowaną metodę podziału rekurencyjnego. Wynikiem analizy drzewkiem jest model drzewa klasyfikacyjnego, którego reguły można zapisać dzięki zdaniom warunkowym np.

– jeśli klient ma 29 lat, samochód nowy, powyżej 200 tyś zł to będzie mieć kolizję z prawdopodobieństwem 20%

– jeśli klient ma 18 lat, samochód używany poniżej 10 tyś to będzie mieć kolizję z prawdopodobieństem 67%

itd. itd.

Bardzo często drzewa klasyfikacyjne przydają się do wymodelowania danych. Kiedy statystyczna analiza ma na celu zmaksymalizowanie klasyfikacji. Wtedy drzewo CHAID może pociąć zmienną ilościową na pojemne przedziały.


Metody analizy skupień

Metody analizy skupień pozwalają nam na  grupowanie segmentację klientów / badanych lub zmiennych na grupy które są do siebie podobne i jednocześnie inne niż reszta wydzielonych grup. Przykładowo analiza skupień może ukazać takie zgrupowania /segmenty (wydzielone ze względu na wykorzystywane usługi bankowe)

grupa 1 – OSZCZĘDNI – posiadający lokaty, nie biorący kredytów, mający rachunek oszczędnościowy, załatwiający wszystko w placówce

grupa 2 – KRÓLOWIE ŻYCIA – nie posiadający lokat, biorący kredyty, nie mający rachunków oszczędnościowych, załatwiający wszystko metodą on-line

grupa 3 – UMIARKOWANI – nie posiadający lokat, biorący kredyty, mający rachunek oszczędnościowy, załatwia sprawy bankowe on line, ale też często odwiedza placówkę

Analiza skupień jest jedną z metod klasyfikacji, lecz jest to technika bardziej eksplorująca dane niż je formalnie weryfikująca. Niemniej jednak dzięki analizie skupień odkrywa się strukturę grupowania  obserwacji. Następnie można wymodelować dane i utworzyć z nich klasyfikator na podstawie drzewa decyzyjnego lub analizy dyskryminacyjnej.

W analizie danych można prawie wszystko. I to jest cudowne  !


Inne metody segmentacyjne / klasyfikujące:

– dwustopniowe grupowanie

– hierarchiczna analiza skupień

– drzewo klasyfikacyjnego (wzmacniany lub zwykły CHAID)

– analiza dyskryminacyjna

– sieć neuronowa (wielowartwowy perceptron, radialna funkcja bazowa)

– wielomianowa regresja logistyczna

– analiza najbliższego sąsiedztwa

– analiza K – Średnich ( K – Means)

– analiza klas latentnych

– analiza profili latentnych