Uczenie głębokie (wersja zapoznawcza)

Artykuł
05/07/2024

Platforma Apache Spark w usłudze Azure Synapse Analytics umożliwia uczenie maszynowe z danymi big data, zapewniając możliwość uzyskiwania cennych szczegółowych informacji z dużych ilości ustrukturyzowanych, nieustrukturyzowanych i szybko poruszających się danych. Istnieje kilka opcji trenowania modeli uczenia maszynowego przy użyciu platformy Azure Spark w usłudze Azure Synapse Analytics: Apache Spark MLlib, Azure Machine Edukacja i różnych innych bibliotek typu open source.

Ostrzeżenie

Przyspieszona wersja zapoznawcza procesora GPU jest ograniczona do środowiska uruchomieniowego platformy Apache Spark 3.2 (ogłoszone zakończenie wsparcia). Ogłoszono zakończenie wsparcia dla środowiska Azure Synapse Runtime dla platformy Apache Spark 3.2 ogłoszono 8 lipca 2023 r. Zakończenie wsparcia ogłoszonych środowisk uruchomieniowych nie będzie zawierać poprawek błędów i funkcji. Poprawki bezpieczeństwa zostaną wycofane na podstawie oceny ryzyka. To środowisko uruchomieniowe i odpowiednia wersja zapoznawcza przyspieszonego procesora GPU na platformie Spark 3.2 zostaną wycofane i wyłączone od 8 lipca 2024 r.
Przyspieszona wersja zapoznawcza procesora GPU jest teraz nieobsługiwana w środowisku uruchomieniowym usługi Azure Synapse 3.1 (nieobsługiwane). Środowisko Uruchomieniowe usługi Azure Synapse dla platformy Apache Spark 3.1 osiągnęło zakończenie wsparcia od 26 stycznia 2023 r., a oficjalna pomoc techniczna przestała obowiązywać od 26 stycznia 2024 r. i nie ma dalszego rozwiązywania problemów z biletami pomocy technicznej, poprawkami błędów lub aktualizacjami zabezpieczeń po tej dacie.

Pule platformy Apache Spark z obsługą procesora GPU

Aby uprościć proces tworzenia pul i zarządzania nimi, usługa Azure Synapse zajmuje się wstępnie instalowaniem bibliotek niskiego poziomu i konfigurowaniem wszystkich złożonych wymagań sieciowych między węzłami obliczeniowymi. Ta integracja umożliwia użytkownikom rozpoczęcie pracy z procesorem GPU — przyspieszone pule w ciągu zaledwie kilku minut.

Uwaga

Pule przyspieszone przez procesor GPU można tworzyć w obszarach roboczych znajdujących się w regionach Wschodnie stany USA, Australia Wschodnia i Europa Północna.
Pule przyspieszone przez procesor GPU są dostępne tylko w środowisku uruchomieniowym platformy Apache Spark 3.1 (nieobsługiwanym) i 3.2.
Może być konieczne zażądanie zwiększenia limitu w celu utworzenia klastrów z obsługą procesora GPU.

Środowisko uczenia maszynowego procesora GPU

Usługa Azure Synapse Analytics zapewnia wbudowaną obsługę infrastruktury uczenia głębokiego. Środowiska uruchomieniowe usługi Azure Synapse Analytics dla platformy Apache Spark 3 obejmują obsługę najbardziej typowych bibliotek uczenia głębokiego, takich jak TensorFlow i PyTorch. Środowisko uruchomieniowe usługi Azure Synapse obejmuje również biblioteki pomocnicze, takie jak Petastorm i Horovod, które są często używane do trenowania rozproszonego.

TensorFlow

TensorFlow to platforma uczenia maszynowego typu open source dla wszystkich deweloperów. Służy do implementowania aplikacji uczenia maszynowego i uczenia głębokiego.

Aby uzyskać więcej informacji na temat biblioteki Tensorflow, możesz zapoznać się z dokumentacją interfejsu API Tensorflow.

PyTorch

PyTorch to zoptymalizowana biblioteka tensorowa do uczenia głębokiego przy użyciu procesorów GPU i procesorów CPU.

Więcej informacji o usłudze PyTorch można znaleźć w dokumentacji PyTorch.

Horovod

Horovod to rozproszona struktura szkoleniowa uczenia głębokiego dla bibliotek TensorFlow, Keras i PyTorch. Horovod został opracowany w celu szybkiego i łatwego w użyciu rozproszonego uczenia głębokiego. Dzięki tej strukturze istniejący skrypt trenowania można skalować w górę, aby można było uruchomić na setkach procesorów GPU w zaledwie kilku wierszach kodu. Ponadto platforma Horovod może działać na platformie Apache Spark, co umożliwia ujednolicenie przetwarzania danych i trenowania modelu w jednym potoku.

Aby dowiedzieć się więcej na temat uruchamiania rozproszonych zadań szkoleniowych w usłudze Azure Synapse Analytics, zapoznaj się z następującymi samouczkami: Samouczek : Trenowanie rozproszone przy użyciu platform Horovod i PyTorch - Samouczek: trenowanie rozproszone przy użyciu platform Horovod i Tensorflow

Aby uzyskać więcej informacji na temat struktury Horovod, możesz zapoznać się z dokumentacją platformy Horovod.

Petastorm

Petastorm to biblioteka dostępu do danych typu open source, która umożliwia trenowanie modeli uczenia głębokiego w jednym węźle lub rozproszone. Ta biblioteka umożliwia trenowanie bezpośrednio z zestawów danych w formacie Apache Parquet i zestawach danych, które zostały już załadowane jako ramka danych platformy Apache Spark. Platforma Petastorm obsługuje popularne struktury szkoleniowe, takie jak Tensorflow i PyTorch.

Aby uzyskać więcej informacji na temat platformy Petastorm, możesz odwiedzić stronę Petastorm GitHub lub dokumentację interfejsu API Petastorm.

Następne kroki

Ten artykuł zawiera omówienie różnych opcji trenowania modeli uczenia maszynowego w pulach platformy Apache Spark w usłudze Azure Synapse Analytics. Aby dowiedzieć się więcej na temat trenowania modelu, wykonaj czynności opisane w poniższym samouczku:

Uruchamianie eksperymentów SparkML: Samouczek platformy Apache SparkML
Przyspieszanie obciążeń ETL za pomocą rozwiązania RAPIDS: Apache Spark Rapids

Udostępnij za pośrednictwem