Pozyskiwanie i zrozumienie etapu cyklu życia procesu Nauka o danych zespołowego

W tym artykule opisano cele, zadania i elementy dostarczane skojarzone z pozyskiwaniem danych i zrozumieniem etapu procesu Nauka o danych zespołu (TDSP). Ten proces zapewnia zalecany cykl życia, którego zespół może używać do tworzenia struktury projektów nauki o danych. Cykl życia przedstawia główne etapy wykonywane przez zespół, często iteracyjne:

  • Informacje biznesowe
  • Pozyskiwanie i zrozumienie danych
  • Modelowania
  • Wdrożenie
  • Akceptacja klienta

Oto wizualna reprezentacja cyklu życia TDSP:

Diagram that shows the stages of the TDSP lifecycle.

Cele

Cele etapu pozyskiwania i zrozumienia danych to:

  • Utwórz czysty, wysokiej jakości zestaw danych, który wyraźnie odnosi się do zmiennych docelowych. Znajdź zestaw danych w odpowiednim środowisku analitycznym, aby twój zespół był gotowy do etapu modelowania.

  • Opracuj architekturę rozwiązania potoku danych, który regularnie odświeża i ocenia dane.

Jak wykonać zadania

Etap pozyskiwania i zrozumienia danych obejmuje trzy główne zadania:

  • Pozyskiwanie danych do docelowego środowiska analitycznego.

  • Eksploruj dane , aby ustalić, czy dane mogą odpowiedzieć na pytanie.

  • Skonfiguruj potok danych, aby ocenić nowe lub regularnie odświeżane dane.

Pozyskiwanie danych

Skonfiguruj proces przenoszenia danych z lokalizacji źródłowych do lokalizacji docelowych, w których uruchamiasz operacje analityczne, takie jak trenowanie i przewidywania.

Eksplorowanie danych

Przed wytrenowanie modeli należy opracować solidne zrozumienie danych. Zestawy danych w świecie rzeczywistym są często hałaśliwe, brakuje wartości lub mają wiele innych rozbieżności. Za pomocą podsumowania i wizualizacji danych można przeprowadzać inspekcję jakości danych i zbierać informacje na potrzeby przetwarzania danych, zanim będą gotowe do modelowania. Ten proces jest często iteracyjny. Aby uzyskać wskazówki dotyczące czyszczenia danych, zobacz Zadania, aby przygotować dane do rozszerzonego uczenia maszynowego.

Po zadowoleniu z jakości oczyszczonych danych następnym krokiem jest lepsze zrozumienie wzorców w danych. Ta analiza danych ułatwia wybór i opracowanie odpowiedniego modelu predykcyjnego dla celu. Określ, ile danych odpowiada celowi. Następnie zdecyduj, czy twój zespół ma wystarczające dane, aby przejść do przodu, wykonując kolejne kroki modelowania. Ten proces jest często iteracyjny. Może być konieczne znalezienie nowych źródeł danych z dokładniejszymi lub bardziej odpowiednimi danymi, aby dostosować zestaw danych początkowo zidentyfikowany na poprzednim etapie.

Konfigurowanie potoku danych

Oprócz pozyskiwania i czyszczenia danych zazwyczaj należy skonfigurować proces oceniania nowych danych lub regularnie odświeżać je w ramach trwającego procesu uczenia się. Do oceniania danych można użyć potoku danych lub przepływu pracy. Zalecamy potok korzystający z usługi Azure Data Factory.

Na tym etapie tworzysz architekturę rozwiązania potoku danych. Potok jest tworzony równolegle z następnym etapem projektu nauki o danych. W zależności od potrzeb biznesowych i ograniczeń istniejących systemów, w których to rozwiązanie jest zintegrowane, potok może być następujący:

  • Oparta na partii
  • Przesyłanie strumieniowe lub czas rzeczywisty
  • Połączenie hybrydowe

Integracja z platformą MLflow

Podczas fazy zrozumienia danych możesz użyć śledzenia eksperymentów MLflow do śledzenia i dokumentowania różnych strategii przetwarzania wstępnego danych i eksploracyjnej analizy danych.

Artifacts

Na tym etapie twój zespół zapewnia następujące elementy:

  • Raport o jakości danych, który zawiera podsumowania danych, relacje między każdym atrybutem i elementem docelowym, klasyfikację zmiennych i inne.

  • Architektura rozwiązania, taka jak diagram lub opis potoku danych używany przez zespół do uruchamiania przewidywań na nowych danych. Ten diagram zawiera również potok ponownego trenowania modelu na podstawie nowych danych. Jeśli używasz szablonu struktury katalogów TDSP, zapisz dokument w katalogu projektu.

  • Decyzja dotycząca punktu kontrolnego. Przed rozpoczęciem tworzenia pełnego modelu i inżynierii cech można ponownie ocenić projekt, aby określić, czy oczekiwana wartość jest wystarczająca, aby kontynuować jego realizację. Możesz na przykład przygotować się do kontynuowania, zebrać więcej danych lub porzucić projekt, jeśli nie możesz znaleźć danych, które odpowiadają na pytania.

Literatura z przeglądem równorzędnym

Naukowcy publikują badania na temat TDSP w literaturze z przeglądem równorzędnym. Cytaty zapewniają możliwość zbadania innych aplikacji lub podobnych pomysłów dotyczących dostawcy TDSP, w tym etapu pozyskiwania danych i rozumienia cyklu życia.

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Główny autor:

Aby wyświetlić niepubalne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.

W tych artykułach opisano inne etapy cyklu życia TDSP: