Co to jest zespołowe przetwarzanie danych dla celów naukowych?

Azure Machine Learning

Proces zespołu Nauka o danych (TDSP) to elastyczna, iteracyjna metodologia nauki o danych, której można użyć do wydajnego dostarczania rozwiązań analizy predykcyjnej i aplikacji sztucznej inteligencji. TDSP pomaga ulepszyć współpracę zespołu i uczyć się, sugerując, jak role zespołu działają najlepiej razem. TDSP zawiera najlepsze rozwiązania i struktury firmy Microsoft i innych liderów branży, aby pomóc zespołowi w pomyślnym wdrożeniu inicjatyw nauki o danych i w pełni wykorzystać zalety programu analitycznego.

Ten artykuł zawiera omówienie dostawcy TDSP i jego głównych składników. Przedstawia wskazówki dotyczące implementowania dostawcy TDSP przy użyciu narzędzi i infrastruktury firmy Microsoft. Więcej szczegółowych zasobów można znaleźć w tym artykule.

Kluczowe składniki TDSP

TDSP ma następujące kluczowe składniki:

  • Definicja cyklu życia nauki o danych
  • Ustandaryzowana struktura projektu
  • Infrastruktura i zasoby zalecane dla projektów nauki o danych
  • Narzędzia i narzędzia zalecane do wykonywania projektu

Cykl życia nauki o danych

TDSP zapewnia cykl życia, którego można użyć do tworzenia projektów nauki o danych. Cykl życia przedstawia pełne kroki, które należy wykonać pomyślnie.

Zestaw TDSP oparty na zadaniach można połączyć z innymi cyklami życia nauki o danych, takimi jak proces wyszukiwania danych w różnych branżach (CRISP-DM), odnajdywanie wiedzy w bazach danych (KDD) lub inny proces niestandardowy. Na wysokim poziomie te różne metodologie mają wiele wspólnego.

Należy użyć tego cyklu życia, jeśli masz projekt nauki o danych, który jest częścią inteligentnej aplikacji. Inteligentne aplikacje wdrażają modele uczenia maszynowego lub sztucznej inteligencji na potrzeby analizy predykcyjnej. Możesz również użyć tego procesu do eksploracyjnych projektów nauki o danych i improwizowanych projektów analitycznych.

Cykl życia TDSP składa się z pięciu głównych etapów, które zespół wykonuje iteracyjnie. Te etapy obejmują:

Oto wizualna reprezentacja cyklu życia TDSP:

Diagram that shows the stages of the TDSP lifecycle.

Aby uzyskać informacje na temat celów, zadań i artefaktów dokumentacji dla każdego etapu, zobacz Cykl życia procesu Nauka o danych zespołu.

Te zadania i artefakty są skojarzone z rolami projektu, na przykład:

  • Architekt rozwiązań.
  • Menedżer projektu.
  • Inżynier danych.
  • Analityk danych.
  • Deweloper aplikacji.
  • Kierownik projektu.

Na poniższym diagramie przedstawiono zadania (w kolorze niebieskim) i artefakty (w kolorze zielonym) skojarzone z każdym etapem cyklu życia (na osi poziomej) dla tych ról (na osi pionowej).

Diagram that shows the tasks and artifacts for each stage.

Ustandaryzowana struktura projektu

Twój zespół może używać infrastruktury platformy Azure do organizowania zasobów nauki o danych.

Usługa Azure Machine Edukacja obsługuje bibliotekę MLflow typu open source. Zalecamy używanie platformy MLflow do nauki o danych i zarządzania projektami sztucznej inteligencji. Rozwiązanie MLflow jest przeznaczone do zarządzania pełnym cyklem życia uczenia maszynowego. Trenuje i obsługuje modele na różnych platformach, dzięki czemu można używać spójnego zestawu narzędzi niezależnie od tego, gdzie są uruchamiane eksperymenty. Możesz użyć platformy MLflow lokalnie na komputerze, w zdalnym obiekcie docelowym obliczeniowym, na maszynie wirtualnej lub na maszynie Edukacja wystąpieniu obliczeniowym.

Rozwiązanie MLflow składa się z kilku kluczowych funkcji:

  • Śledzenie eksperymentów: dzięki platformie MLflow można śledzić eksperymenty, w tym parametry, wersje kodu, metryki i pliki wyjściowe. Ta funkcja pomaga w wydajnym porównywaniu różnych przebiegów i zarządzaniu procesem eksperymentowania.

  • Kod pakietu: oferuje standardowy format tworzenia pakietów kodu uczenia maszynowego, który obejmuje zależności i konfiguracje. To opakowanie ułatwia odtwarzanie przebiegów i udostępnianie kodu innym osobom.

  • Zarządzanie modelami: platforma MLflow udostępnia funkcje do zarządzania modelami i ich przechowywania wersji. Obsługuje różne struktury uczenia maszynowego, dzięki czemu można przechowywać, wersje i obsługiwać modele.

  • Obsługa i wdrażanie modeli: platforma MLflow integruje możliwości obsługi modeli i wdrażania, dzięki czemu można łatwo wdrażać modele w różnych środowiskach.

  • Rejestrowanie modeli: możesz zarządzać cyklem życia modelu, w tym przechowywanie wersji, przejścia na etapy i adnotacje. Rozwiązanie MLflow jest przydatne do obsługi scentralizowanego magazynu modeli w środowisku współpracy.

  • Korzystanie z interfejsu API i interfejsu użytkownika: wewnątrz platformy Azure platforma MLflow jest pakowana w ramach interfejsu API Edukacja maszyny w wersji 2, dzięki czemu można programowo korzystać z systemu. Możesz użyć witryny Azure Portal do interakcji z interfejsem użytkownika.

MLflow ma na celu uproszczenie i standaryzację procesu opracowywania uczenia maszynowego, od eksperymentowania po wdrożenie.

Usługa Machine Edukacja integruje się z repozytoriami Git, dzięki czemu można używać usług zgodnych z usługami Git: GitHub, GitLab, Bitbucket, Azure DevOps lub innej usługi zgodnej z usługą Git. Oprócz zasobów już śledzonych w usłudze Machine Edukacja zespół może opracować własną taksonomię w ramach usługi zgodnej z usługą Git, aby przechowywać inne informacje o projekcie, takie jak:

  • Dokumentacji
    • Projekt, na przykład końcowy raport projektu
    • Raport dotyczący danych, na przykład słownik danych lub raporty dotyczące jakości danych
    • Model, na przykład raporty modelu
  • Kod
    • Przygotowywanie danych
    • Opracowywanie modeli
    • Operacjonalizacja, w tym zabezpieczenia i zgodność

Infrastruktura i zasoby

Przewodnik rozwiązywania problemów zawiera zalecenia dotyczące zarządzania udostępnioną analizą i infrastrukturą magazynu, taką jak:

  • Systemy plików w chmurze do przechowywania zestawów danych
  • Bazy danych
  • Klastry danych big data, na przykład SQL lub Spark
  • Usługi uczenia maszynowego

Możesz umieścić infrastrukturę analiz i magazynowania, w której przechowywane są nieprzetworzone i przetworzone zestawy danych, w chmurze lub lokalnie. Ta infrastruktura umożliwia powtarzalną analizę. Zapobiega również duplikowaniu, co może prowadzić do niespójności i niepotrzebnych kosztów infrastruktury. Infrastruktura zawiera narzędzia do aprowizowania udostępnionych zasobów, śledzenia ich i bezpiecznego łączenia się z tymi zasobami przez każdego członka zespołu. Dobrym rozwiązaniem jest również utworzenie spójnego środowiska obliczeniowego przez członków projektu. Różni członkowie zespołu mogą następnie replikować i weryfikować eksperymenty.

Oto przykład zespołu pracującego nad wieloma projektami i współużytkowania różnych składników infrastruktury analizy chmury:

Diagram that shows the infrastructure of a team.

Narzędzia i programy narzędziowe

W większości organizacji trudno jest wprowadzić procesy. Infrastruktura udostępnia narzędzia do implementowania TDSP i cyklu życia, co pomaga obniżyć bariery i zwiększyć spójność ich wdrażania.

Dzięki usłudze Machine Edukacja analitycy danych mogą stosować narzędzia typu open source w ramach potoku lub przepływu pracy nauki o danych. W ramach Edukacja machine firma Microsoft promuje narzędzia odpowiedzialnej sztucznej inteligencji, co pomaga osiągnąć standard odpowiedzialnej sztucznej inteligencji firmy Microsoft.

Recenzowane cytaty równorzędne

TDSP to dobrze ugruntowana metodologia używana w ramach zaangażowania firmy Microsoft, w związku z czym została udokumentowana i zbadana w literaturze z przeglądem równorzędnym. Te cytaty stanowią okazję do zbadania funkcji i aplikacji TDSP. Aby uzyskać listę cytatów, zobacz stronę przeglądu cyklu życia.

Role i zadania w procesie Nauka o danych zespołu