Wszelkie badania jest obserwacja właściwości obiektów w celu wyjaśnienia i oceny znaczących relacji i interakcji pomiędzy wskaźnikami tych właściwości.
Specjalizacja obejmuje obiekty, które różnią się właściwościami i w pewien sposób są pod pewnymi względami powiązane. Zadania programowe decyzja rozpoczyna się od badań nad obszarem tematycznym.
Specjalizacja – jest częścią realnego świata, który jest nieskończony i zawiera zarówno ważnych i nieistotnych danych. Badacz musi być w stanie przeznaczyć znaczną część z nich. Na przykład, rozwiązując problem kredytu, będą brane pod uwagę wszystkie istotne informacje na temat życia prywatnego klienta (czy jest to praca z małżonków, małoletnie dzieci, jeśli klient przynosi edukacja klienta, itd.). Oraz w celu rozwiązywania innych zadań związanych z działalnością bankową, dane te będą dość znaczna. Znaczenie danych zależy od tego, co wybrać jako dziedzinie.
Podczas badania, należy utworzyć model domeny. Wiedza z różnych źródeł powinny być sformalizowane. Specjalizacja jest sformalizowana za pomocą dowolnych środków. Fundusze mogą być bardzo różne. Może to być opis tekstowy domeny lub specjalistycznej notacji graficznej. Z modelem domeny opisuje procesy zachodzące w nim, a także dane o badanym obszarze są badane.
Oświadczenie problemu jest również opis statyczne i dynamiczne zachowanie obiektów, które badamy. Opis zachowania statycznego polega właściwości obiektów i ich właściwości. Opisując dynamiczne zachowanie powoduje, że obiekty charakteryzuje zachowanie.
Dynamiczne zachowanie obiektów jest często opisywany wraz z zachowania statycznego.
Czasami domeny i analiza zadania są połączone w jednym kroku.
Etap określania i analizowania wymagań dotyczących danych wprowadzone dane wymagane do modelowania Data Mining. W tym badaniu problemów związanych z dystrybucją użytkowników; analitycznych właściwości systemu; niezbędne do analizy zagadnienia dostępu do danych.
Specjalizacja analizuje łatwiejsze i bardziej skuteczne, gdy organizacja posiada hurtownię danych. Jednak nie wszystkie firmy mają taki magazyn danych. W tym przypadku źródłem oryginalnych danych są bazy operacyjne, materiały referencyjne i archiwalne, czyli dane z istniejących systemów informacyjnych (IS).
Więcej informacji mogą być potrzebne z głowami WE zewnętrznych i wewnętrznych źródeł, różnych dokumentów papierowych, jak również specjalistycznej wiedzy i / lub wyników wyborów.
Musisz mieć świadomość, że w procesie przygotowania danych programistów trzeba opisać jak najwięcej czynników, które wpływają na proces. Mogą istnieć pewne dane kodowania. Na przykład, jedna z cech klient – poziom dochodów, które mogą być zdefiniowane jako: bardzo niska, niska, średnia, wysoka, bardzo wysoka. W tym przypadku konieczne jest określenie poziomu gradacji dochodów.
Przy ustalaniu odpowiedniej ilości danych muszą uwzględniać kolejność danych.
W przypadku, gdy są one zamówione, konieczne jest, aby wiedzieć, czy zawarte w zestawie sezonowych / cyklicznych danych składowych. Gdy nie są one zamawiane, czyli zbiór zdarzeń z bazy danych nie jest powiązana z osi czasu, a następnie w trakcie zbierania musi być zgodne z następującymi zasadami:
1) mała liczba rekordów w bazie danych mogą być przyczyną powstania nieodpowiedniego modelu;
2) Dokładność modelu można poprawić przez zwiększenie ilości danych;
3) stare dane są wyłączone z zestawu;
4) algorytmy, które są wykorzystywane do tworzenia modelu z bardzo dużych baz danych, powinni mieć możliwość, aby powiększyć.