GPU-aktiverad beräkning
Kommentar
Vissa GPU-aktiverade instanstyper finns i Beta och markeras som sådana i listrutan när du väljer drivrutins- och arbetstyperna när beräkning skapas.
Översikt
Azure Databricks stöder beräkningsaccelererad med grafikprocessorer (GPU:er). Den här artikeln beskriver hur du skapar beräkning med GPU-aktiverade instanser och beskriver de GPU-drivrutiner och bibliotek som är installerade på dessa instanser.
Mer information om djupinlärning om GPU-aktiverad beräkning finns i Djupinlärning.
Skapa en GPU-beräkning
Att skapa en GPU-beräkning liknar att skapa en beräkning. Tänk på följande:
- Databricks Runtime-versionen måste vara en GPU-aktiverad version, till exempel Runtime 13.3 LTS ML (GPU, Scala 2.12.15, Spark 3.4.1).
- Arbetstyp och drivrutinstyp måste vara GPU-instanstyper.
Instanstyper som stöds
Azure Databricks stöder följande instanstyper:
- NC-instanstypserie: Standard_NC12, Standard_NC24
- NC v3-instanstypserie: Standard_NC6s_v3, Standard_NC12s_v3, Standard_NC24s_v3
- NC T4 v3-instanstypserie: Standard_NC4as_T4_v3, Standard_NC8as_T4_v3, Standard_NC16as_T4_v3, Standard_NC64as_T4_v3
- NC A100 v4-instanstypserie: Standard_NC24ads_A100_v4, Standard_NC48ads_A100_v4, Standard_NC96ads_A100_v4
- ND A100 v4-instanstypserie: Standard_ND96asr_v4
- NV A10 v5-instanstypserie: Standard_NV36ads_A10_v5, Standard_NV36adms_A10_v5, Standard_NV72ads_A10_v5
- Standard_NV72ads_A10_v5 är inte kompatibelt med PyTorch 2.0+ och genererar ett CUDA-fel när du kör arbetsbelastningar med flera GPU:er. Eftersom Databricks Runtime ML 14.0 och senare förinstallerar PyTorch 2.0+, föreslår vi att du använder Databricks Runtime ML 13.x eller manuellt körs
pip install torch==1.13.1
om du kör PyTorch på arbetsbelastningar med flera GPU:er.
- Standard_NV72ads_A10_v5 är inte kompatibelt med PyTorch 2.0+ och genererar ett CUDA-fel när du kör arbetsbelastningar med flera GPU:er. Eftersom Databricks Runtime ML 14.0 och senare förinstallerar PyTorch 2.0+, föreslår vi att du använder Databricks Runtime ML 13.x eller manuellt körs
Se Priser för Azure Databricks för en uppdaterad lista över GPU-instanstyper som stöds och deras tillgänglighetsregioner. Azure Databricks-distributionen måste finnas i en region som stöds för att starta GPU-aktiverad beräkning.
GPU-schemaläggning
Databricks Runtime stöder GPU-medveten schemaläggning från Apache Spark 3.0. Azure Databricks förkonfigurerar det på GPU-beräkning.
GPU-schemaläggning är inte aktiverat vid beräkning med en nod.
spark.task.resource.gpu.amount
är den enda Spark-konfigurationen som är relaterad till GPU-medveten schemaläggning som du kan behöva ändra.
Standardkonfigurationen använder en GPU per uppgift, vilket är idealiskt för distribuerade slutsatsdragningsarbetsbelastningar och distribuerad träning, om du använder alla GPU-noder.
För att utföra distribuerad träning på en delmängd av noder, vilket bidrar till att minska kommunikationskostnaderna under distribuerad träning, rekommenderar Databricks att du anger spark.task.resource.gpu.amount
antalet GPU:er per arbetsnod i spark-konfigurationen för beräkning.
För PySpark-uppgifter ommappar Azure Databricks automatiskt tilldelade GPU:er till indexen 0, 1, ....
Under standardkonfigurationen som använder en GPU per aktivitet kan din kod helt enkelt använda standard-GPU:n utan att kontrollera vilken GPU som har tilldelats uppgiften.
Om du anger flera GPU:er per aktivitet, till exempel 4, kan koden anta att indexen för de tilldelade GPU:erna alltid är 0, 1, 2 och 3. Om du behöver de fysiska indexen för de tilldelade GPU:erna kan du hämta dem från CUDA_VISIBLE_DEVICES
miljövariabeln.
Om du använder Scala kan du hämta indexen för de GPU:er som tilldelats uppgiften från TaskContext.resources().get("gpu")
.
För Databricks Runtime-versioner under 7.0, för att undvika konflikter mellan flera Spark-uppgifter som försöker använda samma GPU, konfigurerar Azure Databricks automatiskt GPU-beräkning så att det finns högst en aktivitet per nod som körs. På så sätt kan aktiviteten använda alla GPU:er på noden utan att stöta på konflikter med andra uppgifter.
NVIDIA GPU-drivrutin, CUDA och cuDNN
Azure Databricks installerar NVIDIA-drivrutinen och biblioteken som krävs för att använda GPU:er på Spark-drivrutins- och arbetsinstanser:
- CUDA Toolkit, installerat under
/usr/local/cuda
. - cuDNN: NVIDIA CUDA Deep Neural Network Library.
- NCCL: NVIDIA Collective Communications Library.
Den version av NVIDIA-drivrutinen som ingår är 535.54.03, som stöder CUDA 11.0. För NV A10 v5-instanstypserien är 525.105.17
den version av NVIDIA-drivrutinen som ingår .
De versioner av biblioteken som ingår finns i viktig information för den specifika Databricks Runtime-version som du använder.
Kommentar
Den här programvaran innehåller källkod från NVIDIA Corporation. För att stödja GPU:er innehåller Azure Databricks kod från CUDA-exempel.
NVIDIA-licensavtal för slutanvändare (EULA)
När du väljer en GPU-aktiverad "Databricks Runtime-version" i Azure Databricks godkänner du implicit de villkor som beskrivs i NVIDIA EULA med avseende på biblioteken CUDA, cuDNN och Tesla samt NVIDIA-licensavtalet för slutanvändare (med NCCL-tillägg) för NCCL-biblioteket.
Databricks Container Services på GPU-beräkning
Viktigt!
Den här funktionen finns som allmänt tillgänglig förhandsversion.
Du kan använda Databricks Container Services vid beräkning med GPU:er för att skapa portabla djupinlärningsmiljöer med anpassade bibliotek. Anvisningar finns i Anpassa containrar med Databricks Container Service .
Om du vill skapa anpassade avbildningar för GPU-beräkning måste du välja en standardkörningsversion i stället för Databricks Runtime ML för GPU. När du väljer Använd din egen Docker-container kan du välja GPU-beräkning med en standardversion av körningen. De anpassade avbildningarna för GPU baseras på de officiella CUDA-containrarna, som skiljer sig från Databricks Runtime ML för GPU.
När du skapar anpassade avbildningar för GPU-beräkning kan du inte ändra NVIDIA-drivrutinsversionen eftersom den måste matcha drivrutinsversionen på värddatorn.
databricksruntime
Docker Hub innehåller exempelbasavbildningar med GPU-kapacitet. De Dockerfiles som används för att generera dessa avbildningar finns i GitHub-lagringsplatsen för exempelcontainrar, som också innehåller information om vad exempelbilderna tillhandahåller och hur du anpassar dem.
Feedback
https://aka.ms/ContentUserFeedback.
Kommer snart: Under hela 2024 kommer vi att fasa ut GitHub-problem som feedbackmekanism för innehåll och ersätta det med ett nytt feedbacksystem. Mer information finns i:Skicka och visa feedback för