Co robić ? Gdzie szukać ? Od czego zacząć ?
Data mining jest to proces, który pozwala na odkrywanie pewnych związków i regularności zachodzących między danymi, które charakteryzują się objętością i wielowymiarowością. Generalnie procedura data mining to drążenie danych, czasem nazywane odkrywaniem danych lub odkrywaniem wiedzy z danych. Niekiedy mówi się również o przemysłowym wykorzystaniu danych. Jest to proces analizowania danych z różnych uniwersów i uzyskiwania z nich przydatnych informacji, które mogą być wykorzystywane do zwiększenia przychodów, zmniejszenia kosztów lub obu tych czynników. Technicznie data mining to proces znajdowania korelacji lub wzorców wśród dziesiątek cech, w dużych zbiorach danych. Mimo, że odpowiedzi, jakie daje data mining, należy traktować raczej jako domniemania niż jednoznaczne, bezwzględne fakty, to przy właściwym sformułowaniu pytania, często odkrywają one cenne informacje.
Osobiście sympatyzujemy z metodologią SIX SIGMA, utworzoną przez koncern Motorola. Jest to system zarządzania procesami organizacyjnymi i danymi. Bazuje ona na realnych danych, mając w swej logice na celu eliminacje defektów, strat i wszelkich problemowych sytuacji. Technikę tę wykorzystuje się do wykrycia, poprawy i kontroli błędów bądź też do usprawnienia procesów lub działań.
Etapy analizy data mining
- Zdefiniowanie problemu
- Pomiar
- Analiza
- Poprawa
- Kontrola
Zdefiniuj.
W tym punkcie chodzi o to, jaki problem lub stan pożądany chcesz rozwiązać, osiągnąć. Postawienie celu analitycznego ustala dobranie odpowiednich technik oraz ogranicza, w pewien sposób, dużą pulę potencjalnie analizowanych cech. Celem może być: zbadanie wpływu czynników na pozostawienie wpisu na blogu, zwiększenia sprzedaży lub zidentyfikowanie najczęściej pojawiających się słów w komentarzach klientów i ich zależności z innymi cechami. W tej fazie bardzo ważne jest zrozumienie tego, czego klient lub firma oczekuje. Bez ustalenia i doprecyzowania w szczegółach tego etapu nie można przejść do następnego kroku.
Zmierz.
Pomiar jest krytyczny w całym spektrum realizacji projektów analitycznych. Trzeba upewnić się, że dane są wiarygodne i dobrej jakości. Poprzez określenie, doskonalenie i testowanie pomiarów przez cały okres realizacji projektu biznesowego, zespół lub zarząd będzie mógł starannie podejmować decyzje oparte na rzetelnych informacjach. Takie podejście zapewnia trafnie podjęte decyzje, oparte na faktach płynących z danych, a nie z założeń i opinii.
Analizuj.
Jest to etap o niebagatelnym znaczeniu. Po utworzeniu, sprawdzaniu i badaniu szczegółowych problemów, w kroku pomiaru, przychodzi czas na analizę. W tej fazie skupienie jest skierowanie na wyjaśnieniu przyczyn występowania kłopotów lub defektów oraz zobrazowaniu charakteru ich funkcji, za pomocą odpowiednich analiz. W tym kroku analizuje się wyniki badań, zdobyte na etapie pomiaru pod kątem eksploracji ogólnej wiedzy o zdefiniowanym procesie lub problemie.
Ulepszaj.
Teraz przyszedł czas na ingerencję w działający proces. Wprowadza się w tym etapie rozwiązania usuwające lub poprawiające działanie zdefiniowanego aspektu. W tej części obniża się częstość defektów lub pomyłek, poprzez redukowanie poziomu odchyleń od pożądanego poziomu.
Kontroluj.
Po zakończeniu wcześniejszych etapów i wprowadzeniu w życie rekomendacji SIX SIGMA powinna działać dalej, by utrzymać odpowiednio wysoki poziom jakości, przy użyciu systemu kontroli. W tej fazie monitoruje się odchylenia od wyników uzyskanych w kroku wprowadzenia poprawek.