Co to jest zespołowe przetwarzanie danych dla celów naukowych?

Azure Machine Learning

Proces zespołu Nauka o danych (TDSP) to elastyczna, iteracyjna metodologia nauki o danych, której można użyć do wydajnego dostarczania rozwiązań analizy predykcyjnej i aplikacji sztucznej inteligencji. TDSP pomaga ulepszyć współpracę zespołu i uczyć się, sugerując, jak role zespołu działają najlepiej razem. TDSP zawiera najlepsze rozwiązania i struktury firmy Microsoft i innych liderów branży, aby pomóc zespołowi w pomyślnym wdrożeniu inicjatyw nauki o danych i w pełni wykorzystać zalety programu analitycznego.

Ten artykuł zawiera omówienie dostawcy TDSP i jego głównych składników. Przedstawia wskazówki dotyczące implementowania dostawcy TDSP przy użyciu narzędzi i infrastruktury firmy Microsoft. Więcej szczegółowych zasobów można znaleźć w tym artykule.

Kluczowe składniki TDSP

TDSP ma następujące kluczowe składniki:

Definicja cyklu życia nauki o danych
Ustandaryzowana struktura projektu
Infrastruktura i zasoby zalecane dla projektów nauki o danych
Narzędzia i narzędzia zalecane do wykonywania projektu

Cykl życia nauki o danych

TDSP zapewnia cykl życia, którego można użyć do tworzenia projektów nauki o danych. Cykl życia przedstawia pełne kroki, które należy wykonać pomyślnie.

Zestaw TDSP oparty na zadaniach można połączyć z innymi cyklami życia nauki o danych, takimi jak proces wyszukiwania danych w różnych branżach (CRISP-DM), odnajdywanie wiedzy w bazach danych (KDD) lub inny proces niestandardowy. Na wysokim poziomie te różne metodologie mają wiele wspólnego.

Należy użyć tego cyklu życia, jeśli masz projekt nauki o danych, który jest częścią inteligentnej aplikacji. Inteligentne aplikacje wdrażają modele uczenia maszynowego lub sztucznej inteligencji na potrzeby analizy predykcyjnej. Możesz również użyć tego procesu do eksploracyjnych projektów nauki o danych i improwizowanych projektów analitycznych.

Cykl życia TDSP składa się z pięciu głównych etapów, które zespół wykonuje iteracyjnie. Te etapy obejmują:

Oto wizualna reprezentacja cyklu życia TDSP:

Aby uzyskać informacje na temat celów, zadań i artefaktów dokumentacji dla każdego etapu, zobacz Cykl życia procesu Nauka o danych zespołu.

Te zadania i artefakty są skojarzone z rolami projektu, na przykład:

Architekt rozwiązań.
Menedżer projektu.
Inżynier danych.
Analityk danych.
Deweloper aplikacji.
Kierownik projektu.

Na poniższym diagramie przedstawiono zadania (w kolorze niebieskim) i artefakty (w kolorze zielonym) skojarzone z każdym etapem cyklu życia (na osi poziomej) dla tych ról (na osi pionowej).

Ustandaryzowana struktura projektu

Twój zespół może używać infrastruktury platformy Azure do organizowania zasobów nauki o danych.

Usługa Azure Machine Edukacja obsługuje bibliotekę MLflow typu open source. Zalecamy używanie platformy MLflow do nauki o danych i zarządzania projektami sztucznej inteligencji. Rozwiązanie MLflow jest przeznaczone do zarządzania pełnym cyklem życia uczenia maszynowego. Trenuje i obsługuje modele na różnych platformach, dzięki czemu można używać spójnego zestawu narzędzi niezależnie od tego, gdzie są uruchamiane eksperymenty. Możesz użyć platformy MLflow lokalnie na komputerze, w zdalnym obiekcie docelowym obliczeniowym, na maszynie wirtualnej lub na maszynie Edukacja wystąpieniu obliczeniowym.

Rozwiązanie MLflow składa się z kilku kluczowych funkcji:

Śledzenie eksperymentów: dzięki platformie MLflow można śledzić eksperymenty, w tym parametry, wersje kodu, metryki i pliki wyjściowe. Ta funkcja pomaga w wydajnym porównywaniu różnych przebiegów i zarządzaniu procesem eksperymentowania.
Kod pakietu: oferuje standardowy format tworzenia pakietów kodu uczenia maszynowego, który obejmuje zależności i konfiguracje. To opakowanie ułatwia odtwarzanie przebiegów i udostępnianie kodu innym osobom.
Zarządzanie modelami: platforma MLflow udostępnia funkcje do zarządzania modelami i ich przechowywania wersji. Obsługuje różne struktury uczenia maszynowego, dzięki czemu można przechowywać, wersje i obsługiwać modele.
Obsługa i wdrażanie modeli: platforma MLflow integruje możliwości obsługi modeli i wdrażania, dzięki czemu można łatwo wdrażać modele w różnych środowiskach.
Rejestrowanie modeli: możesz zarządzać cyklem życia modelu, w tym przechowywanie wersji, przejścia na etapy i adnotacje. Rozwiązanie MLflow jest przydatne do obsługi scentralizowanego magazynu modeli w środowisku współpracy.
Korzystanie z interfejsu API i interfejsu użytkownika: wewnątrz platformy Azure platforma MLflow jest pakowana w ramach interfejsu API Edukacja maszyny w wersji 2, dzięki czemu można programowo korzystać z systemu. Możesz użyć witryny Azure Portal do interakcji z interfejsem użytkownika.

MLflow ma na celu uproszczenie i standaryzację procesu opracowywania uczenia maszynowego, od eksperymentowania po wdrożenie.

Usługa Machine Edukacja integruje się z repozytoriami Git, dzięki czemu można używać usług zgodnych z usługami Git: GitHub, GitLab, Bitbucket, Azure DevOps lub innej usługi zgodnej z usługą Git. Oprócz zasobów już śledzonych w usłudze Machine Edukacja zespół może opracować własną taksonomię w ramach usługi zgodnej z usługą Git, aby przechowywać inne informacje o projekcie, takie jak:

Dokumentacji
- Projekt, na przykład końcowy raport projektu
- Raport dotyczący danych, na przykład słownik danych lub raporty dotyczące jakości danych
- Model, na przykład raporty modelu
Kod
- Przygotowywanie danych
- Opracowywanie modeli
- Operacjonalizacja, w tym zabezpieczenia i zgodność

Infrastruktura i zasoby

Przewodnik rozwiązywania problemów zawiera zalecenia dotyczące zarządzania udostępnioną analizą i infrastrukturą magazynu, taką jak:

Systemy plików w chmurze do przechowywania zestawów danych
Bazy danych
Klastry danych big data, na przykład SQL lub Spark
Usługi uczenia maszynowego

Możesz umieścić infrastrukturę analiz i magazynowania, w której przechowywane są nieprzetworzone i przetworzone zestawy danych, w chmurze lub lokalnie. Ta infrastruktura umożliwia powtarzalną analizę. Zapobiega również duplikowaniu, co może prowadzić do niespójności i niepotrzebnych kosztów infrastruktury. Infrastruktura zawiera narzędzia do aprowizowania udostępnionych zasobów, śledzenia ich i bezpiecznego łączenia się z tymi zasobami przez każdego członka zespołu. Dobrym rozwiązaniem jest również utworzenie spójnego środowiska obliczeniowego przez członków projektu. Różni członkowie zespołu mogą następnie replikować i weryfikować eksperymenty.

Oto przykład zespołu pracującego nad wieloma projektami i współużytkowania różnych składników infrastruktury analizy chmury:

Narzędzia i programy narzędziowe

W większości organizacji trudno jest wprowadzić procesy. Infrastruktura udostępnia narzędzia do implementowania TDSP i cyklu życia, co pomaga obniżyć bariery i zwiększyć spójność ich wdrażania.

Dzięki usłudze Machine Edukacja analitycy danych mogą stosować narzędzia typu open source w ramach potoku lub przepływu pracy nauki o danych. W ramach Edukacja machine firma Microsoft promuje narzędzia odpowiedzialnej sztucznej inteligencji, co pomaga osiągnąć standard odpowiedzialnej sztucznej inteligencji firmy Microsoft.

Recenzowane cytaty równorzędne

TDSP to dobrze ugruntowana metodologia używana w ramach zaangażowania firmy Microsoft, w związku z czym została udokumentowana i zbadana w literaturze z przeglądem równorzędnym. Te cytaty stanowią okazję do zbadania funkcji i aplikacji TDSP. Aby uzyskać listę cytatów, zobacz stronę przeglądu cyklu życia.

Role i zadania w procesie Nauka o danych zespołu

Co to jest zespołowe przetwarzanie danych dla celów naukowych?

Kluczowe składniki TDSP

Cykl życia nauki o danych

Ustandaryzowana struktura projektu

Infrastruktura i zasoby

Narzędzia i programy narzędziowe

Recenzowane cytaty równorzędne

Opinia

Opinia

Dodatkowe zasoby

Co to jest zespołowe przetwarzanie danych dla celów naukowych?

Kluczowe składniki TDSP

Cykl życia nauki o danych

Ustandaryzowana struktura projektu

Infrastruktura i zasoby

Narzędzia i programy narzędziowe

Recenzowane cytaty równorzędne

Powiązane zasoby

Opinia

Opinia

Dodatkowe zasoby