Modelowanie danych

Wiele wydarzeń i ciągów zdarzeń w naszej rzeczywistości na bardzo skomplikowany charakter. Wpływa to na trudność podczas matematycznego opisu tych zjawisk. Nie mniej jednak jest pewne rozwiązanie tego problemu jakim jest uproszczenie tego obrazu poprzez stworzenie modelowej wykładni funkcjonowania rzeczywistości.

Taka stworzona wykładnia zwana statystycznym modelem wyjaśniającym może być używana do przewidywania odpowiedzi rzeczywistości na podstawie znanych wartości wejściowych. Dobrze zbudowany model powinien być kompromisem między uproszczeniem a dużą ilością szczegółów.

Praktyczne modelowanie statystyczne to znacznie więcej niż prosta analiza statystyczna. Niezbędne jest dobre przygotowanie danych i umiejętne wybranie zmiennych. W procesie modelowania stosuje się metody klasyczne, na przykład regresję liniową czy regresję logistyczną, ale również wiele nowoczesnych metod statystycznych pomagających zbudować lepsze modele.

Taki model może być wykorzystywany do:

a) identyfikacji przyczynowości

b) badania efektów podejmowanych czynności

c) przewidywania

d) segmentacji /grupowania obiektów, klientów, zmiennych, badanych obserwacji


Podsumowując, model potencjalnie może wykrywać to, które zmienne mają największy wpływ na badane zjawisko. Może weryfikować to jak zareaguje dana zmienna gdy zmienimy wartości zmiennych objaśniających/wejściowych oraz możemy przewidzieć jaki status będzie miała dana zmienna kiedy zmienne wyjaśniające przyjmą konkretne wartości.


Zazwyczaj dane wejściowe do modelu są danymi zebranymi z procedur eksperymentalnych lub danych zbieranych na przestrzeni czasu (dane historyczne). Modelowanie danych jest ściśle powiązane z charakterem badanych zmiennych. To oznacza, że inne modelowanie danych będzie miało miejsce w przypadku analizy ryzyka kredytowego, inne będzie przy analizie ryzyka ubezpieczeniowego (ilość wypadków, suma strat itp), a jeszcze inne w przypadku przewidywania zadowolenia korporacyjnych pracowników.