Budowanie modeli wyjaśniających

Machanie różdżką, czyli o dopasowaniu linii regresji i aproksymacji modelu do danych.


Przewidywanie jest najczęściej stosowanym podejściem w analizie statystycznej danych.

Przewidywanie nasilenia pewnej zmiennej np. ilości błędów na taśmie produkcyjnej lub poziomu problemów finansowych jest możliwe dzięki szacowaniu siły i formy związku pomiędzy zmiennymi. Najczęściej do tego typu zagadnień stosuje sie modele regresji (GLM  lub GzLM) oraz model równań strukturalnych ( Structural equation model, SEM).

W większości przypadków procedur mających na celu zbudowanie modelu wyjaśniającego jest bardzo dokładne odwzorowanie uproszczonej rzeczywistości z danych za pomocą analiz statystycznych lub modeli statystycznych szacujących właściwości badanego zjawiska.

Jest to złożony proces i można do niego podchodzić na wiele sposobów.

Najbardziej zaawansowaną metodą symulowania rzeczywistości jest analiza równań strukturalnych (analiza ścieżek SEM/SEPATH) , która odpowiednimi statystykami porównuje macierz wariancji-kowariancji próby do teoretycznej macierzy.

Tą metodą w skrócie sprawdza się aproksymacje teoretycznego zaawansowanego modelu przyczynowości do relacji i wpływów zmiennych wyrażonych liczbowo.


Prawie każda firma chce szczyć się niską rotacją pracowników. Analiza regresji liniowej.

Dzięki analizie regresji możemy przewidywać zadowolenie pracowników w korporacji.

Zadowolenie z pracy jest jednym z najsilniejszych predyktorów rotacji w korporacjach.

Analiza regresji może przewidzieć na podstawie modelu zadowolenie każdego pracownika z badanej próby oraz każdego nowego pracownika, który nie załapał się na badanie.

Jest to możliwe dzięki wagom (β) modelu wyliczanym dla każdej zmiennej (charakterystyki). Na zadowolenie pracownika wpływa z określoną siłą :

staż  β=0,56

ilość przyjaźni w firmie β=0,89

korzystanie z siłowni β=0,11

czy posiada dodatkowy pakiet zdrowotny β=0,44

zarobki β=0,15

atmosfera w pracy β=0,18

departament PR β= – 0,19

departament marketingu β=0,67

departament HR β=0,01

Dzięki tym wagom można przybliżyć +/- zadowolenia każdego pracownika za pomocą liniowego wzoru regresji (jeśli charakter przewidywanej zmiennej jest rozkładem normalnym, a nie np. Poissona)

Zadowolenie = stała + (ile stażu) x 0,56 + (ilość przyjaźni w firmie) x 0,89 + (korzystanie z siłowni) x 0,11 + (posiadanie dodatkowego pakietu zdrowotnego) x 0,44 + (zarobki) x 0,15 + (atmosfera w pracy) x 0,18 + (departament PR) x (- 0,19) + (departament marketingu) x 0,67 + (departament HR) x 0,01.


Uwagi.

Budowanie modelu regresji wymaga spełnienia wielu założeń by przewidywanie było jak najmniej obciążone przez różne czynniki. Diagnostyka modelu i porównywanie modeli regresji jest niezbędne by mieć szacowanie najwyższej klasy.

Inne metody przewidujące:

– sieć neuronowa (wielowarstwowy perceptron i radialna funkcja bazowa)

– regresja nieliniowa

– regresja porządkowa (PLUM)

– regresja kanoniczna

– analiza szeregów czasowych

– analiza przeżycia (regresja COXa)

– regresja ridge

– lasso regresja

– elastic net regression


Więcej informacji na naszym blogu.